هوش مصنوعی پرپلکسیتی دوباره به سرقت ادبی متهم شد
در ماههای اخیر، بسیاری از شرکتهای فعال در حوزه هوشمصنوعی همچون اپل و گوگل، به robots.txt احترام گذاشته و قبل از خزش (Crawl) صفحات وب، از مدیران سایتها اجازه میگیرند. اما جدیدترین گزارش کلاودفلر نشان میدهد پرپلکسیتی (Perplexity)، رقیب چتباتها و دستیارهای هوشمصنوعی، آشکارا این فایل را نادیده گرفته و دادههای وب را بدون اجازه جمعآوری میکند.
برای آزمودن این موضوع، کلودفلیر چند سایت جدید راهاندازی کرد که هرگز پیش از این خزش نشده بودند. ربات اصلی پرپلکسیتی با فایل robots.txt مواجه شد که اجازه خواندن محتوا را به آن نمیداد؛ اما اندکی بعد، یک ربات دیگر با مرورگری متفاوتی، آدرس IP و حتی ASN متفاوت ظاهر شد و همان صفحات را بدون مقاومت خزش کرد. این اطلاعات سپس در پاسخهای پرپلکسیتی نمایان شد که نشان میداد دادهها مستقیماً از آن رباتهای مخفی تامین شدهاند. کلاودفلر دریافته که هرگاه این رباتهای پنهان نتوانند به صفحه دسترسی یابند، پاسخهای پرپلکسیتی یا کلی و بیجزئیات میشوند یا کاملاً ساختگی از آب در میآیند. این یعنی پرپلکسیتی عمداً رباتهای جدید میسازد تا از محدودیتهای فایلهای robots.txt عبور کند.
فایل robots.txt یک توافق نانوشته در وب است؛ نه قانون الزامآور اما نشانه احترام به حریم دادههای سایتها و تمایل به همکاری با مدیران وب. وقتی شرکتی مانند پرپلکسیتی این توافق را میشکند، اعتماد عمومی به فضای آزاد اینترنت آسیب میبیند و اعتبار آن شرکت زیر سوال میرود. این در حالی است که در سال 2024 نیز وبسایت Wired خبر از دزدی اطلاعات سایتها توسط پرپلکسیتی داده بود و ظاهرا از آن زمان تاکنون، این شرکت تغییری در رویکرد خود نداده است.
پرپلکسیتی در واکنش به این خبر مدعی شده که «خزشگر وب» و «عاملهای AI» دو موجودیت متفاوت هستند و کلاودفلر نمیتواند آنها را از هم تفکیک کند. اما بسیاری از کارشناسان این استدلال را غیرموجه میدانند؛ چرا که هدف فایل robots.txt تنها جلوگیری از بهکارگیری دادهها برای هر نوع استفاده غیرمجاز است، چه برای آموزش AI باشد و چه برای مقاصد دیگر.
گزارش کلودفلیر پرده از روشهای مخفی پرپلکسیتی برای دسترسی به دادههای وب برداشته و این سوال را مطرح کرده که چطور میتوان به شرکتی اعتماد کرد که اصول اولیه اخلاقی را رعایت نمیکند. تا زمانی که توافقهای نانوشته فضای وب محترم شمرده نشوند، بسیاری از مالکان سایتها نگرانی و خشم خود را نسبت به استخراج بدون مجوز دادهها اعلام خواهند کرد و شاید چارهای جز محدودکردن دسترسی یا استفاده از راهکارهای ضدخزش نداشته باشند.