MANAコーパス 単語

マナコーパス

1.6千文字の記事

MANAコーパスとは、パブリックドメイン日本語テキストコーパスである。

概要

VTuberである鹿菜氏が考案した日本語コーパスである。

テキスト読み上げソフトウェア「COEIROINK」に追加できるユーザーモデルMYCOEIROINK」作成時に用いることができる。

挨拶:24文
接続:55文
疑問:(QUESTION)44文+(QUESTION2)105文
の計228文(3532文字)で構成されている。

概要および全文はGitHub上で閲覧可能。exit

トークソフトCOEIROINK」の製作者であるシロワニさん氏により管理されており、品質調にはCOEIROINK公式モデル提供者および、MYCOEIROINK(ユーザー制作できるCOEIROINKモデル)提供者が協力している。

MANAコーパス 品質調査協力

()内は提供している音モデル

MANAコーパスが作成された経緯

鹿菜氏がPIXIV FANBOX内で開している下記の記事が詳しい。

【全体公開】MANAコーパスを語るよexit

MANAコーパス収録追加によるメリット/デメリット

メリット

  1. MANAコーパス内に含まれている単語の読み上げ性の向上
  2. COEIROINK内で末尾に「?」を追加することで疑問文読み上げることが可

メリット1について
特によく使うであろう挨拶文をほぼ録音したアクセント通りに読み上げてくれるようになる。「こんにちは」など、ITAコーパス収録のみだと思ったように発音してくれない場合もある。ITAコーパス文のみで学習した音モデルのアクセントがいまいち安定しない場合はMANAコーパスの追加がおすすめ。

メリット2について
ITAコーパスのみを用いたモデルだと、疑問文読み上げさせるためにCOEIROINK上でアクセントの修正が必要だったりそもそもCOEIROINK上では出来なかったりする。2023年3月COEIROINKでは現在イントネーションの修正機実装されていないので末尾だけではあるが、イントネーションを増やせるという意味でもメリットは大きい。

デメリット

  1. ITAコーパスの収録量によっては疑問文でない文章で疑問読み上げることがある(※)
  2. 収録に少し時間がかかる(想定30分~1時間)
  3. GoogleColab上でモデル学習の時間が増える

デメリット1について
MANAコーパスはITAコーパスとの併用を想定したコーパスのため音素の網羅は考慮していない。そのため、ITAコーパスの収録量によっては発音が怪しくなる可性がある。ITAコーパス追加で回避可

デメリット2について
228文あるため収録に時間はかかるが、1文あたり50文字以下で構成されており、ITAコーパスよりも読み上げが易。

デメリット3について
2023年3月現在GoogleColab Proプラン

1epochあたり5分増加する。100epochまで回すとすると、ITAコーパスのみとべて8時間強時間がかかる。

録音時間・モデル学習時間との兼ね合いもあるがMYCOEIROINK制作する場合は音モデルの表現の幅が広がるので、ITAコーパスに加え、MANAコーパスを含めて収録がおすすめ。

ツール

白痴ー氏がbooth上にてOREMO対応セットexit開している。

関連項目

この記事を編集する

掲示板

掲示板に書き込みがありません。

おすすめトレンド

ニコニ広告で宣伝された記事

記事と一緒に動画もおすすめ!
高森藍子[単語]

提供: c891023

もっと見る

急上昇ワード改

最終更新:2025/12/09(火) 16:00

ほめられた記事

最終更新:2025/12/09(火) 16:00

ウォッチリストに追加しました!

すでにウォッチリストに
入っています。

OK

追加に失敗しました。

OK

追加にはログインが必要です。

           

ほめた!

すでにほめています。

すでにほめています。

ほめるを取消しました。

OK

ほめるに失敗しました。

OK

ほめるの取消しに失敗しました。

OK

ほめるにはログインが必要です。

タグ編集にはログインが必要です。

タグ編集には利用規約の同意が必要です。

TOP