Appleの生成AI、合法的かつ倫理的に訓練された唯一のAIかもしれない

急成長を遂げる生成型人工知能（AI）の世界において、AppleはそのAIモデルのトレーニング方法で倫理的な取り組みを行うことで際立っています。AIトレーニングの合法性に苦しむ企業が多い中、Appleのアプローチは業界に新たな基準をもたらすかもしれません。

生成AIにおける著作権の難問

近年、生成AIと著作権法の関係をめぐる問題は、ますます複雑かつ重要になってきています。LLMや生成AIアプリケーションの人気が高まるにつれ、著作権問題も増加の一途をたどっていますが、有効な解決策は見られません。

主な問題は、企業が著作権で保護された作品を生成AIソフトウェアのトレーニングに使用する際や、これらのAIプログラムの出力に著作権で保護された作品の一部が含まれる場合に発生します。

著作権で保護された作品の全体または大部分をコピーしてAIのトレーニングに使用することは、企業側の主張や信念にかかわらず、著作権侵害に当たります。

注目を集める訴訟と公開書簡

生成AIと著作権問題の歴史は、大きな注目を集める訴訟や公開書簡であふれています。その中でも特筆すべき例をいくつか紹介します。

2023年12月、The New York TimesがOpenAIとMicrosoftを提訴。数百万本の記事が生成AIソフトウェアのトレーニングに使用されたと主張。
2023年9月、George R. R. Martin、Michael Connelly、Jonathan Franzenなどの著名作家がOpenAIを同様の理由で提訴。
2023年7月、15,000人以上の作家が大手テクノロジー企業に宛てたオープンレターに署名。AIトレーニングに使用された自分たちの作品に対する適切なクレジットと報酬を要求。
2024年1月、ノンフィクション作家のNicholas BasbanesとNicholas Gageが、OpenAIに対して著作権侵害を主張する集団訴訟を提起。
2024年4月、元Amazon社員が、競合他社との競争力を高めるために著作権法を無視するよう指示されたと主張する訴訟を提起。

これらの事例は、コンテンツ制作者の間で高まる懸念と、生成AI技術を開発する企業が直面する法的課題を浮き彫りにしています。

AIによる著作権保護コンテンツの再現傾向

生成AIのもう一つの大きな問題は、出力結果に著作権保護コンテンツを再現する傾向があることです。この問題の深刻さから、企業はこの現象の発生頻度を分析するようになっています。

PatronusAIは、OpenAIのChatGPT-4、MetaのLlama 2、MistralのMixtral、AnthropicのClaude 2.1など、4つの主要なAIモデルを比較し、AIチャットボットが著作権保護コンテンツを生成する頻度を調査しました。

PatronusAIの調査結果では、著作権保護コンテンツの生成率はモデルによって異なりますが、全般的に高い水準にあることが明らかになりました。同社はまた、LLMにおける潜在的な著作権侵害を検出するツール「CopyrightCatcher」を開発しました。

著作権保護コンテンツの生成は重大な影響を及ぼす可能性がありますが、出版社は言語学習モデルのトレーニングにおける著作権保護素材の使用についても懸念を表明しています。

2024年3月、The Wall Street Journalは、大手出版社が生成AIモデルのトレーニングにおける著作権保護作品の使用を調査し、AIによる作品の使用に対する報酬を求めていると報じました。

生成AIと著作権に関連する訴訟の数と出版社が表明している懸念の深刻さを考えると、Appleのような企業が潜在的な法的問題を回避しようとするのは理にかなっています。

AppleのユニークなアプローチでLLMと著作権問題に対処

自社の生成AIソフトウェアのトレーニングにおいて同様の著作権問題を回避するため、Appleは主要ニュース出版社の作品をライセンス使用していると報じられています。

2023年12月、AppleがVogueやThe New Yorkerを発行するConde Nastの作品のライセンス使用を計画していることが報じられました。また、同社はIACやNBC Newsとも約5,000万ドル規模の契約交渉を行っていました。

Appleは、社内でAjaxと呼ばれる言語学習モデルを開発する際、基本的なオンデバイス機能を搭載しました。一方、より高度な機能には別のアプローチを採用しました。Appleは、インターネット接続を必要とする複雑なタスクのために、Google Geminiなどのソフトウェアのライセンス使用を検討しました。

この戦略により、Appleは明らかに著作権問題を回避しようとしています。有料のライセンス使用により、Google Geminiなどのソフトウェアによって引き起こされる可能性のある著作権侵害について、Appleは責任を負わなくて済みます。

2024年3月に発表された研究論文で、Appleは社内のLLMのトレーニングに、画像、画像とテキスト、テキストベースの入力を慎重に選別して使用したことを明らかにしました。この手法により、画像のキャプション生成、多段階の推論、プライバシーの保護を同時に実現しました。

業界関係者によると、AppleのAjax LLMは、基本的なテキスト分析にインターネット接続を必要としないため、プライバシーを保護できるとのことです。つまり、オンデバイスのLLMはオフラインモードではデータベースに接続して著作権保護コンテンツを特定できませんが、テキスト生成などのより高度な機能では、そのようなチェックと接続が行われる可能性が高いです。

ただし、報告や文書化されたプロジェクトとは別に、ガードレールやライセンス使用は適切に実施されてこそ安全です。AppleのAIテスト環境に精通した情報提供者がAppleInsiderに明かしたところによると、オンデバイスのテスト環境で著作権保護素材を入力に使用することを防ぐ制限はほとんどないようです。

情報提供者は、Appleの社内における著作権侵害トレーニングを防ぐための規制については明確ではありませんでした。ただし、出力結果については、著作権保護コンテンツの一字一句の再現を避けるために、より厳しく規制されている可能性が高いとのことです。

Appleは6月10日から開催されるWWDCで、同社の生成AI技術を披露する予定です。

(Via Apple Insider.)