هوش مصنوعی پرپلکسیتی دوباره به سرقت ادبی متهم شد

تیم پلازا - انتشار: 14 مرداد 1404 08:05
ز.م مطالعه: 2 دقیقه
-

در ماه‌های اخیر، بسیاری از شرکت‌های فعال در حوزه هوش‌مصنوعی همچون اپل و گوگل، به robots.txt احترام گذاشته و قبل از خزش (Crawl) صفحات وب، از مدیران سایت‌ها اجازه می‌گیرند. اما جدیدترین گزارش کلاودفلر نشان می‌دهد پرپلکسیتی (Perplexity)، رقیب چت‌بات‌ها و دستیارهای هوش‌مصنوعی، آشکارا این فایل را نادیده گرفته و داده‌های وب را بدون اجازه جمع‌آوری می‌کند.

برای آزمودن این موضوع، کلودفلیر چند سایت جدید راه‌اندازی کرد که هرگز پیش از این خزش نشده بودند. ربات اصلی پرپلکسیتی با فایل robots.txt مواجه شد که اجازه خواندن محتوا را به آن نمی‌داد؛ اما اندکی بعد، یک ربات دیگر با مرورگری متفاوتی، آدرس IP و حتی ASN‌ متفاوت ظاهر شد و همان صفحات را بدون مقاومت خزش کرد. این اطلاعات سپس در پاسخ‌های پرپلکسیتی نمایان شد که نشان می‌داد داده‌ها مستقیماً از آن ربات‌های مخفی تامین شده‌اند. کلاودفلر دریافته که هرگاه این ربات‌های پنهان نتوانند به صفحه دسترسی یابند، پاسخ‌های پرپلکسیتی یا کلی و بی‌جزئیات می‌شوند یا کاملاً ساختگی از آب در می‌آیند. این یعنی پرپلکسیتی عمداً ربات‌های جدید می‌سازد تا از محدودیت‌های فایل‌های robots.txt عبور کند.

فایل robots.txt یک توافق نانوشته در وب است؛ نه قانون الزام‌آور اما نشانه احترام به حریم داده‌های سایت‌ها و تمایل به همکاری با مدیران وب. وقتی شرکتی مانند پرپلکسیتی این توافق را می‌شکند، اعتماد عمومی به فضای آزاد اینترنت آسیب می‌بیند و اعتبار آن شرکت زیر سوال می‌رود. این در حالی است که در سال 2024 نیز وبسایت Wired خبر از دزدی اطلاعات سایت‌ها توسط پرپلکسیتی داده بود و ظاهرا از آن زمان تاکنون، این شرکت تغییری در رویکرد خود نداده است.

هوش مصنوعی پرپلکسیتی سرقت ادبی

پرپلکسیتی در واکنش به این خبر مدعی شده که «خزش‌گر وب» و «عامل‌های AI» دو موجودیت متفاوت هستند و کلاودفلر نمی‌تواند آن‌ها را از هم تفکیک کند. اما بسیاری از کارشناسان این استدلال را غیرموجه می‌دانند؛ چرا که هدف فایل robots.txt تنها جلوگیری از به‌کارگیری داده‌ها برای هر نوع استفاده غیرمجاز است، چه برای آموزش AI باشد و چه برای مقاصد دیگر.

گزارش کلودفلیر پرده از روش‌های مخفی پرپلکسیتی برای دسترسی به داده‌های وب برداشته و این سوال را مطرح کرده که چطور می‌توان به شرکتی اعتماد کرد که اصول اولیه اخلاقی را رعایت نمی‌کند. تا زمانی که توافق‌های نانوشته فضای وب محترم شمرده نشوند، بسیاری از مالکان سایت‌ها نگرانی ‌‌و خشم خود را نسبت به استخراج بدون مجوز داده‌ها اعلام خواهند کرد و شاید چاره‌ای جز محدودکردن دسترسی یا استفاده از راهکارهای ضدخزش نداشته باشند.

دیدگاه های کاربران
هیچ دیدگاهی موجود نیست