OpenAI、新たな音声テキスト機能を備えたWhisper APIを発表
OpenAIは、多数のユーザーのために音声テキストの有効性を変換することを目的とした機械学習アルゴリズムである「Whisper」を含む、他の興味深い開発を行っています
音声テキスト変換は新しい現象ではありません、Google、Amazon、Apple、Dragon Dictationなどによる音声転写アプリやデジタルアシスタントの形で、私たちは何年も前から利用しています
Whisperの目標は、膨大なデータセットを使用してこの技術の有効性を強化することであり、それによってAIは日常会話のニュアンスをより深く捉えることができるようになります
音声トランスクリプションの矛盾は、英語以外の言語で作業しているときに最も顕著に現れます、しかし、英語圏であっても、地域によって異なる強い訛りによって、音声を正確に書き起こすことは困難になります
2022年9月にOpenAIがこのモデルをリリースしたときには、素晴らしい開発のように聞こえたが、実装の難しさとコストのために、ChatGPTよりも採用はずっと遅れています
OpenAIがWhisperのAPIを公開したことで、開発者は68万時間以上の音声データを利用してより効果的な音声テキスト変換を提供する言語モデルに即座にアクセスできるようになり、この状況は変わる可能性があります
英語の文字起こしに関しては、はるかに広い範囲のアクセントから単語を正確に聞き取る能力のほかに、これらのシステムをしばしば狂わせる問題のあるバックグラウンドノイズを除去するように訓練されています
Whisperはまた、競合システムがまだ認識していないかもしれない独自の技術的な専門用語をよりうまく書き写すことを目指しています
Whisper APIユーザーは、英語のみのトランスクリプションと英語以外のトランスクリプションの両方にアクセスできるほか、任意の英語への翻訳 (またはその逆) にもアクセスできます
このモデルは98の異なる言語でトレーニングされていますが、このAPIで利用できるのはその一部のみです
サポートされている言語
アフリカーンス語、アラビア語、アルメニア語、アゼルバイジャン語、ベラルーシ語、ボスニア語、ブルガリア語、カタロニア語、中国語、クロアチア語、チェコ語、デンマーク語、オランダ語、英語、エストニア語、フィンランド語、フランス語、ガリシア語、ドイツ語、ギリシャ語、ヘブライ語、ヒンディー語、ハンガリー語、アイスランド語、インドネシア語、イタリア語、日本語、神奈中語、カザフスタン語、韓国語、ラトビア語。カザフ語、韓国語、ラトビア語、リトアニア語、マケドニア語、マレー語、マラーティー語、ネパール語、ノルウェー語、ペルシャ語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、セルビア語、スロベニア語、スペイン語、スワヒリ語、スウェーデン語、タガログ語、タミル語、タイ語、トルコ語、ウクライナ語、ウルドゥー語、ベトナム語、ウェールズ語
今日のニュースには、ChatGPTのような一般ユーザーが楽しめるようなコンポーネントはありませんが、既存のアプリがこの技術をより簡単に活用し、その利点をユーザーに伝えるための道を開きました
言語学習アプリのSpeakは、その機能を活用した最初のアプリの一つです、他の人にとっては、APIライセンスの申請は簡単であり、コストもそれほど高くないように思えます
OpenAIは、オンデマンド利用で、分あたりわずか0.006ドルの料金を提供しています
(Via Slash Gear.)
LEAVE A REPLY