MANAコーパスとは、パブリックドメインの日本語テキストコーパスである。
VTuberである鹿仲茉菜氏が考案した日本語コーパスである。
テキスト読み上げソフトウェア「COEIROINK」に追加できるユーザー音声モデル「MYCOEIROINK」作成時に用いることができる。
挨拶:24文
接続:55文
疑問:(QUESTION)44文+(QUESTION2)105文
の計228文(3532文字)で構成されている。
トークソフト「COEIROINK」の製作者であるシロワニさん氏により管理されており、品質調査にはCOEIROINKの公式音声モデル提供者および、MYCOEIROINK(ユーザーが制作できるCOEIROINK音声モデル)提供者が協力している。
鹿仲茉菜氏がPIXIV FANBOX内で公開している下記の記事が詳しい。
メリット1について
特によく使うであろう挨拶文をほぼ録音したアクセント通りに読み上げてくれるようになる。「こんにちは」など、ITAコーパス収録のみだと思ったように発音してくれない場合もある。ITAコーパス文のみで学習した音声モデルのアクセントがいまいち安定しない場合はMANAコーパスの追加がおすすめ。
メリット2について
ITAコーパスのみを用いたモデルだと、疑問文風に読み上げさせるためにCOEIROINK上でアクセントの修正が必要だったりそもそもCOEIROINK上では出来なかったりする。2023年3月、COEIROINKでは現在イントネーションの修正機能が実装されていないので末尾だけではあるが、イントネーションを増やせるという意味でもメリットは大きい。
デメリット1について
MANAコーパスはITAコーパスとの併用を想定したコーパスのため音素の網羅は考慮していない。そのため、ITAコーパスの収録量によっては発音が怪しくなる可能性がある。ITAコーパス追加で回避可能。
デメリット2について
228文あるため収録に時間はかかるが、1文あたり50文字以下で構成されており、ITAコーパスよりも読み上げが平易。
デメリット3について
2023年3月現在、GoogleColab Proプランで
1epochあたり5分増加する。100epochまで回すとすると、ITAコーパスのみと比べて8時間強時間がかかる。
録音時間・モデル学習時間との兼ね合いもあるがMYCOEIROINKを制作する場合は音声モデルの表現の幅が広がるので、ITAコーパスに加え、MANAコーパスを含めて収録がおすすめ。
白痴ー氏がbooth上にてOREMO対応セット
を公開している。
掲示板
掲示板に書き込みがありません。
急上昇ワード改
最終更新:2025/12/09(火) 16:00
最終更新:2025/12/09(火) 16:00
ウォッチリストに追加しました!
すでにウォッチリストに
入っています。
追加に失敗しました。
ほめた!
ほめるを取消しました。
ほめるに失敗しました。
ほめるの取消しに失敗しました。