Perplexity AIが欺瞞的なユーザーエージェントを使用?
最近、検索エンジンであるPerplexity AIが、robots.txtファイルでボットを明示的にブロックしているWebサイトからコンテンツにアクセスし、要約しているのではないかという懸念が提起されています。
この問題はテストと調査により確認されており、AIボットによる非倫理的な行為が浮き彫りになっています。
ブロックをめぐる騒動
この物語は、あるWebサイト所有者がAIボットによるサイトへのアクセスをブロックしようとしたことから始まります。以下は、一連の出来事のタイムラインです。
- 3月30日:Webサイト所有者はPerplexityBotやその他のAIボットをrobots.txtファイルに追加し、サイトをクロールしないように指示しました。
- 6月14日:nginx を使用してサーバーサイドでのブロックが実装され、一致するボットすべてに対して 403 Forbidden レスポンスが返されるようになりました。
これらの対策にもかかわらず、Perplexity AI は依然としてWebサイト上の特定のブログ記事にアクセスし、要約することができました。これにより、同社のWebスクレイピング手法に疑念が生じました。
ブロックのテスト
サーバーサイドのブロックが正しく機能していることを確認するため、Webサイト所有者は、Perplexity AI がリクエストに使用すると主張するユーザーエージェント「PerplexityBot」を使用してテストを行いました。
PHP で書かれたテストコードにより、nginx の設定が意図したとおりに機能し、指定されたユーザーエージェントに対して 403 ステータスコードを返すことが確認されました。
$url = ‘https://rknight.me’;
$res = Http::withUserAgent(‘Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)’)
->get($url);
echo $res->status() === 403;[/php]
Perplexity AI の矛盾した回答
Perplexity AIは、robots.txtによる制限があるにもかかわらずWebサイトにアクセスできる能力について問われた際、矛盾した回答をしました。
- 当初、AIは、robots.txtで制限されているコンテンツに倫理的にアクセスしたり要約したりすることはできないと主張しました。
- しかし、先ほどの要約についてさらに追及されると、AIは、制限されたコンテンツを要約すべきではなかったこと、そしてそれをすることは非倫理的であったことを認めました。
このような矛盾した回答は、Webスクレイピングの倫理に対する AI の理解と、確立されたガイドラインの遵守について疑問を投げかけます。
欺瞞的なユーザーエージェント
さらに調査を進めたところ、Perplexity AIは主張していたユーザーエージェント文字列を使用していなかったことが判明しました。その代わりに、アクセスログには、一般的なGoogle Chromeユーザーエージェント文字列が使用されていたことが示されていました。
Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36
Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36
この発見により、Perplexity AI はヘッドレスブラウザを使用してコンテンツをスクレイピングし、robots.txt を無視し、独自のユーザーエージェント文字列を送信していないことが示唆されます。
ヘッドレスブラウザは異なる IP アドレスでホストされているように見えるため、Webサイト所有者がその IP アドレス範囲をブロックすることは困難です。
透明性と倫理的なAIの実践を求める声
Perplexity AI は、いくつかの疑わしい行為を行っています。
- robots.txtを無視: ウェブサイト所有者の指示を露骨に無視しており、オンラインエチケットに対する敬意の欠如が伺えます。
- ユーザーエージェント偽装: 本当の身分を隠して、従来の方法でブロックできないようにしています。
これは、データプライバシー、コンテンツ所有権、AI開発の倫理について深刻な懸念を引き起こします。私は彼らのDiscordサーバーに参加し、バグレポートを提出しましたが、彼らがこれらの問題に対処するかどうかは不明です。
この経験は、私にとって大きな悩みとなりました。AI企業に対して、その行動に責任を持たせ、データ収集の透明性を求めることは非常に重要です。
まとめ
AI 産業が成長を続ける中、企業は確立されたガイドラインを順守し、Webサイト所有者の権利を尊重することが極めて重要です。
技術的な対策とオープンな対話を組み合わせることによってのみ、より透明で信頼性の高い AI エコシステムを構築できると期待されます。
(Source Robb Knight , Via Daring Fireball.)
LEAVE A REPLY