人工知能の世界に新たな革命が起きています。Anthropic社が最新のAIモデル「Claude 3.7 Sonnet」を発表しました。

この画期的なモデルは、ユーザーが望む限り「考え続ける」能力を持ち、AIの可能性を大きく広げるものです。

Claude 3.7 Sonnet:業界初の「ハイブリッド推論モデル」とは

Anthropicが新たに発表したClaude 3.7 Sonnetは、業界初となる「ハイブリッドAI推論モデル」として注目を集めています。このモデルの最大の特徴は、リアルタイムの回答と、より熟考された「思考型」の回答を、単一のモデルで提供できる点にあります。


Anthropicによれば、ユーザーはClaude 3.7 Sonnetの「推論」機能を有効にするかどうかを選択できます。この機能を有効にすると、AIモデルは短時間あるいは長時間にわたって「考える」ことが可能になります。これにより、複雑な問題や深い考察が必要な質問に対して、より精度の高い回答を得ることができるようになりました。

この新しいアプローチは、Anthropicが目指すAI製品のユーザーエクスペリエンス向上への取り組みの一環です。現在のAIチャットボットの多くは、コストや能力が異なる複数のモデルから選択するよう求められることが一般的です。

しかしAnthropicは、ユーザーがそうした選択に頭を悩ませる必要がない環境を目指しています。理想的には、一つのモデルがすべての作業をこなせるようになることが目標なのです。

利用可能性と価格設定

Claude 3.7 Sonnetは2025年2月25日からすべてのユーザーおよび開発者に提供されていますが、モデルの推論機能にアクセスできるのは、Anthropicのプレミアムプランを契約しているユーザーに限られています。

無料版のClaudeユーザーは、標準的な非推論バージョンのClaude 3.7 Sonnetを利用することになります。

Claude 3.7 Sonnet_02.
Anthropicによれば、この標準バージョンであっても、前モデルであるClaude 3.5 Sonnetを性能面で上回っているとのことです。興味深いことに、Anthropic社はモデルのバージョン番号を一つ飛ばしています(3.5から直接3.7へとジャンプしました)。

価格設定については、Claude 3.7 Sonnetは入力トークン100万件あたり3ドル(約750,000語、『指輪物語』シリーズ全巻よりも多い量の言葉をClaudeに入力できる量)、出力トークン100万件あたり15ドルとなっています。

この価格は、OpenAIのo3-mini(入力100万トークンあたり1.10ドル/出力100万トークンあたり4.40ドル)やDeepSeekのR1(入力100万トークンあたり0.55ドル/出力100万トークンあたり2.19ドル)よりも高額です。しかし、o3-miniとR1が純粋な推論モデルであるのに対し、Claude 3.7 Sonnetはハイブリッドモデルであることを考慮する必要があります。

「推論」技術の革新性

Claude 3.7 Sonnetは、Anthropicが初めて「推論」能力を備えたAIモデルです。「推論」とは、従来のAI性能向上手法が頭打ちになる中で、多くのAI研究機関が注目している新しい技術手法です。

OpenAIのo3-mini、DeepSeekのR1、GoogleのGemini 2.0 Flash Thinking、xAIのGrok 3(Think)などの推論モデルは、質問に回答する前により多くの時間と計算能力を使用します。これらのモデルは問題をより小さなステップに分解し、最終的な回答の精度を向上させる傾向があります。

推論モデルは必ずしも人間のように「考える」わけではありませんが、そのプロセスは演繹的思考をモデルとしています。問題を段階的に分解し、各ステップでの結果を次のステップに活かしながら、最終的な解答を導き出す方法論は、人間の思考過程に近いものがあります。

Anthropicの製品・研究責任者であるDianne Pennは、「最終的には、Claudeが質問にどれだけ『考える』べきかを、ユーザーが事前に選択する必要なく、自分自身で判断できるようにしたい」と語っています。

「人間が即答できる質問と考察が必要な質問に対して2つの脳を使い分けないのと同様に、私たちは推論を、最先端モデルが持つべき一つの能力と考えています。それは他の能力とスムーズに統合されるべきものであり、別個のモデルとして提供されるべきものではありません」とAnthropicはブログ記事で述べています

「見える思考過程」と実性能

Anthropicによれば、Claude 3.7 Sonnetは「見えるスクラッチパッド」を通じて、内部的な計画立案フェーズを表示できるとのことです。Pennによると、ユーザーはほとんどのプロンプトに対してClaudeの完全な思考プロセスを見ることができますが、信頼性と安全性の目的で一部が編集される場合もあるそうです。

Anthropicは、Claudeの思考モードを、難しいコーディング問題やエージェント型タスクなどの実世界のタスクに最適化したと述べています。AnthropicのAPIを利用する開発者は、思考の「予算」をコントロールでき、速度とコストを回答の品質と引き換えにすることができます。

実世界のコーディングタスクを測定するSWE-Benchテストでは、Claude 3.7 Sonnetの精度は62.3%で、OpenAIのo3-miniモデルの49.3%を上回りました。また、AIモデルが小売設定でシミュレートされたユーザーや外部APIとやり取りする能力を測定するTAU-Benchでは、Claude 3.7 Sonnetが81.2%のスコアを記録し、OpenAIのo1モデルの73.5%を上回りました。

回答拒否の減少と新ツールの発表

Anthropicはまた、Claude 3.7 Sonnetが以前のモデルよりも質問への回答を拒否する頻度が少なくなると述べています。このモデルは有害なプロンプトと無害なプロンプトをより細かく区別できるようになり、不必要な拒否がClaude 3.5 Sonnetと比較して45%減少したとしています。

これは、一部のAI研究機関がAIチャットボットの回答制限アプローチを見直している時期に発表されたものであり、注目に値します。AIの安全性と有用性のバランスを取ることは、常に課題となっています。

さらに、AnthropicはClaude 3.7 Sonnetに加えて、「Claude Code」というエージェント型コーディングツールもリリースしています。研究プレビューとして提供されるこのツールを使用すると、開発者はターミナルから直接Claudeを通じて特定のタスクを実行できます。

デモでは、Anthropicの従業員が、「このプロジェクト構造を説明して」といった簡単なコマンドでClaude Codeがコーディングプロジェクトを分析する方法を紹介しました。コマンドラインで平易な英語を使用することで、開発者はコードベースを修正できます。Claude Codeは変更を加えながらその編集内容を説明し、プロジェクトのエラーをテストしたり、GitHubリポジトリにプッシュしたりすることも可能です。

Claude Codeは当初、「先着順」で限られた数のユーザーに提供されるとのことです。

AIの未来:競争と進化の加速

Anthropicは、AI研究機関が猛烈なペースで新しいAIモデルをリリースしている時期にClaude 3.7 Sonnetを発表しました。Anthropicは歴史的にはより計画的で安全性重視のアプローチを取ってきましたが、今回は業界をリードする姿勢を見せています。

しかし、この優位性がどれだけ続くかは疑問です。OpenAIも独自のハイブリッドAIモデルをリリースする可能性が高く、同社のCEOであるSam Altmanは、それが「数か月以内」に到着すると述べています。

まとめ

Anthropicの新しいAIモデル「Claude 3.7 Sonnet」は、AIが「考える」能力を持つという革新的なアプローチで、人工知能の可能性を大きく広げる可能性を秘めています。
リアルタイム回答と熟考された回答を一つのモデルで提供するという「ハイブリッド推論モデル」の概念は、より柔軟で高性能なAIの実現に向けた重要な一歩と言えるでしょう。

今後も加速するAI開発競争の中で、Anthropicがどのような革新を続けていくのか、そしてOpenAIなど他社がどのような対抗策を打ち出すのかが、注目されます。


LEAVE A REPLY

*
*
* (公開されません)