人工知能を研究する非営利団体OpenAIは、複数の言語に対応した人間レベルの正確さを持つ、オープンソースの自動音声認識システム“Whisper”のモデルデータ、およびソースコードをGitHubにて公開したことを発表した。
We've trained a neural net called Whisper that approaches human-level robustness and accuracy on English speech recognition. It performs well even on diverse accents and technical language. Whisper is open source for all to use. https://t.co/ueVywYPEkK
— OpenAI (@OpenAI) September 21, 2022
Whisperは、Web上から収集された68万時間の多言語の音声データで訓練された自動音声認識(automatic speech recognition)システムで、アクセントやバックグラウンドノイズ、専門的な言語など、認識能力が格段に向上しているとし、多言語の文字起こしだけではなく、他言語から英語の翻訳も可能なシステムです。
OpenAIが公開したブログ記事では、早口の英語、K-Popの翻訳、フランス語の翻訳、独特なアクセントの英語の4つの音声が用意されており、Wisperが文字起こしをした結果を見ることができます。
Whisperの実行
Whisperのモデルデータおよびソースコードは、GitHubリポジトリで公開されており、Googleが提供している機械学習の開発環境Google Colaboratoryなどで実行することができます。
Colab内にて、Whisperのパッケージをインストールし、日本語や他言語の音声データを読み込むことで、文字起こし、英語テキストへの翻訳が可能です。
OpenAIは今後、Whisperモデルが有益な目的のために利用されることを願っているとし、Whisperモデルがよりアクセスしやすくなることで、リアルタイムでの音声認識と翻訳を可能にするアプリケーション構築される可能性があると示唆しています。
OpenAI Introducing Whisper Webサイト
GitHub repo for Whisper Webサイト
ARTICLE