Voiceboxとは、Meta社が開発したデモンストレーション用音声生成AIモデルである。
ヒホ氏により開発されたテキスト読み上げソフトウェアではない。
ポストを読み込み中です
https://twitter.com/hiho_karuta/status/1421652582921957377
概要
従来の音声生成AIは、整備されたトレーニングデータを使用して、タスクごとに個別のトレーニングを行う必要があった。これに対し、Voiceboxはトレーニングデータを使わずに、収録した音声と補足する書き起こしから学習する「Flow Matching」というアプローチを採用。わずか2秒ほどの音声と入力テキストから、リアルな読み上げを可能にしている。また、インコンテクスト(文脈内)学習と呼ばれる手法により、音声を生成するだけではなく、ノイズ等の音声のセグメントをシームレスに編集することも得意としている。さらに、多言語にも対応しており、入力した言語とは別の言語に変換し出力することも可能。発表時点では英語、フランス語、ドイツ語、スペイン語、ポーランド語、ポルトガル語に対応している。
将来的にはこの機能を利用して、話すことができない人に音声を届けたり、NPCやバーチャルアシスタントが使用する音声をカスタマイズすることも可能だとしているが、「この技術が誤用や意図しない害をもたらす可能性がある」という理由から、モデルやコードの一般公開は行なわれていない。
関連項目
- 0
- 0pt


