Voiceboxとは、Meta社が開発したデモンストレーション用音声生成AIモデルである。
ヒホ氏により開発されたテキスト読み上げソフトウェアではない。
ポストを読み込み中です
https://twitter.com/hiho_karuta/status/1421652582921957377
概要
従来の音声生成AIは、整備されたトレーニングデータを使用して、タスクごとに個別のトレーニングを行う必要があった。これに対し、Voiceboxはトレーニングデータを使わずに、収録した音声と補足する書き起こしから学習する「Flow Matching」というアプローチを採用。わずか2秒ほどの音声と入力テキストから、リアルな読み上げを可能にしている。また、インコンテクスト(文脈内)学習と呼ばれる手法により、音声を生成するだけではなく、ノイズ等の音声のセグメントをシームレスに編集することも得意としている。さらに、多言語にも対応しており、入力した言語とは別の言語に変換し出力することも可能。発表時点では英語、フランス語、ドイツ語、スペイン語、ポーランド語、ポルトガル語に対応している。
将来的にはこの機能を利用して、話すことができない人に音声を届けたり、NPCやバーチャルアシスタントが使用する音声をカスタマイズすることも可能だとしているが、「この技術が誤用や意図しない害をもたらす可能性がある」という理由から、モデルやコードの一般公開は行なわれていない。
関連項目
-
「チームリーダー候補」サーバーサイドエンジニア/システムインテグレータ・ソフトハウス年収504万円~1,008万円
-
「3DCGデザイナー」フルフレックス×リモート勤務/体験のリアリティをビジュアルで支えるCGデザイナー年収400万円~600万円
-
「ゲーム開発・運用」2Dデザイナー/高単価案件/一部リモート月給51万円
-
グラフィックデザイナー・その他デザイナー/博報堂プロダクツ豊洲でのグラッフィックデザイナー時給2,000円~
-
「定員残りわずか!」未経験採用枠/Webデザイナー/プライベート充実月給25万円~60万円
-
未経験歓迎/食品製造工場の現場リーダー候補/社会人経験1年以上/前払いOK/履歴書不要/スピード採用時給1,300円
- 0
- 0pt


