27 May 2023

ChatGPTがChatbot Arenaのランキング首位！Google PaLM 2の評価結果が明かす興味深い事実

by 酔いどれ

0833 PV約3分

ChatGPTがChatbot Arenaのランキング首位！Google PaLM 2の評価結果が明かす興味深い事実

大規模モデルシステム組織（LMSYS Org）は、UCバークレイの学生と教員がUCサンディエゴとカーネギーメロン大学との協力で設立したオープンな研究組織です

その組織が主催するスケール言語モデル（LLM）のベンチマークである「Chatbot Arena」が一般向けに公開されています

Chatbot Arena

「Chatbot Arena」では、LLMをベースとした対話型AIの評価を行うオープンプラットフォームである「FastChat」に参加し、2つの匿名モデルとの対話を行い、どちらがより正確かを投票することができます

投票結果に基づいて、チェスなどで広く使用されるEloレーティングを用いた勝敗とレーティングの計算が行われ、順位が公表されます

2023年4月24日から5月22日までの27,000件の匿名投票データに基づくランキング

OpenAIのGPT-4に基づくChatGPTが1位になり、OpenAIの競合であるAnthropicのClaude-v1とその軽量モデルが2位と3位になりました

PaLM 2 はより厳しく規制されている

この結果において、LMSYS Orgは特に「Google PaLM 2」に注目しています

PaLM 2は順位で6位に位置し、高いスコアとなっています、しかし、LMSYS Orgは「PaLM 2は他のモデルに比べて制約が多いようで、ユーザーが曖昧な質問や難しい質問をすると、PaLM 2は他のモデルよりも回答を避ける傾向があります」と述べています

また、PaLM 2は英語以外の言語（中国語、スペイン語、ヘブライ語など）の質問にはあまり答えない傾向がありました。英語の質問のみを考慮した場合、PaLM 2は5位にランクインしますが、非英語の質問を含めると16位まで順位が下がります

PaLM 2 の推論能力は満足できない

また、提供されている PaLM 2 バージョンが強力な推論機能を実証していないことも観察されています

一方で、質問がプレーンテキストであるかどうかを検出するようですが、プログラミング言語、デバッグ、コード解釈など、プレーンテキストではない多くの質問は拒否される傾向があります

また一方で、他のチャットボットと比較した場合、PaLM 2 はいくつかの初級レベルの推論タスクでうまく機能しなかったことがわかっています

小型モデルは競争力がある

vicuna-7B や mpt-7b-chat などのいくつかの小型モデルがリーダーボードで高い評価を獲得していることがわかります、これらの小さなモデルは、パラメーターが 2 倍になった大きなモデルと比較した場合に有利なパフォーマンスを示します

高品質の事前トレーニングと微調整のデータセットがモデルのサイズよりも重要であると推測しています、ただし、より複雑な推論タスクや、より微妙な質問 (トリビアなど) に答える場合には、より大きなモデルの方がパフォーマンスが向上する可能性があります

したがって、モデルの品質を高く保ちながらモデルのサイズを削減するには、事前トレーニングと微調整の両方の段階で高品質のデータセットをキュレートすることが重要なアプローチであると考えられます

(Via LMSYS Org.)

LEAVE A REPLY CANCEL REPLY

1990年Mac IIci からMac一筋。
現在は、Mac Studio M1 MAX + Studio Display,16inch MacBook Pro M1 Pro 2021, iPhone 15 Pro Max, iPhone 13 Pro Max, 12.9inch iPad Pro 2021, iPad Air, Apple Watch Ultra, 第1世代HomePod、Apple TV 4KとApple製品に囲まれてます(;´д`)。

カメラはEOS 5D Mark III、越中八尾のおわら風の盆、白川郷には毎年撮影に行っていました。

2014年6月にすい臓がんのステージIVaと診断され余命4か月宣告を受けました、抗がん剤の化学療法でがんが小さくなり2015年1月に手術を受け、2020年1月で目安と言われる丸5年経過しました