ユーザーモデル(ソフトウェアトーク)単語

ソフトウェアトークノユーザーモデル

4.4千文字の記事

掲示板へ

記事編集

ユーザーモデル(ソフトウェアトーク)とは、「ソフトウェアトークユーザーモデル応援祭」の開催時に発祥した「個人配布の音声合成モデル」を包括的に呼称するための単語である。

この単語は、前述した投稿祭の主催「いろは酢」が便宜上提唱しているグループであり、現状は投稿祭参加者やその周辺の人々が使用している単語に過ぎないため、各サービス運営・システム開発者の合意による公式のものではないことをご留意いただきたい。

この項では、現状のソフトウェアトーク界におけるユーザーモデルの定義について説明する。

概要

2023年 7月現在のユーザーモデル（ソフトウェアトーク）の定義は以下のとおりである。

トークソフトのために開発された「話声の音声合成モデル」のうち
音声合成サービスや音声合成ソフトの「開発者以外が有志で作成、あるいは作成を委託した」もので
音声合成サービスや音声合成ソフトの「運営が管理権を有していない」音声合成モデル

しかし該当するサービスやソフト、起用の形態の増加と多様化が著しく、CoeFontのようにこの定義の例外も存在しており、この単語はあくまで「一つのソフトでまとめられない個人製作系の音声合成やキャラクター」を包括的に呼ぶための曖昧なグループ名である。

存在意義としてはニコニコ運営がユーザーへの普及を図っている「ソフトウェアトーク」に近い。

語源は該当する合成音声（トークモデル）らが、MikuMikuDanceのユーザー制作・配布3D モデルを指す「MMDユーザーモデル」のソフトウェアトーク版のような存在であることから。

音声やキャラクターの利用規約や管理体制も千差万別で、利用状況によっては配布者が配布を取り止める可能性もあるため、規約の事前確認は必須事項である。

ユーザーモデルを作成可能なサービス・ソフト

CoeFont（旧サービス名：CoeFont_CLOUD）

アリアル・ミリアル・アベルーニで御馴染み、Web上で合成音声を利用できる会員制のAI音声サービス。テキスト読み上げサービスの利用は月額500円～のサブスクリプション方式で、別途課金することで自分の声を使った合成音声「コエフォント」を作成、CoeFont サイト上で公開できるようになる。

利用した際は「Voiced by CoeFont.CLOUD」のクレジット表記が必須。

2023年 9月現在、コエフォントの収録形態は、独自のコーパス文章を100～3000文収録して制作するベーシックな制作プランと、2022年 1月に開催されたCoeFont FES2022を機に追加された、4種の「感情コエフォントプラン」が存在する。

100文（500円／旧ローエンド相当／収録時間15分）
101～400文（1000円／旧ミドルレンジ相当／収録時間15～60分）
401～1000文（2000円／旧ハイエンド相当／収録時間60～150分）
1001～2999文（20000円／収録時間150～450分）
3000文（50000円／最高精度／収録時間450分）

喜び（1000円／400文／収録時間60分～）
怒り（1000円／400文／収録時間60分～）
悲しみ（1000円／400文／収録時間60分～）
喜び（1000円／400文／収録時間60分～）

他ソフトと比較すると課金必須という壁はあるものの、収録はブラウザ完結型で、読み仮名とアクセント表記もわかりやすく併記されている親切仕様。しかも簡易的なバックグラウンドノイズの除去と学習工程も全てCoeFont側が請け負ってくれるため、「日本語話者であれば難しい知識がなくとも合成音声が作れる」のが最大の強み。

また、感情コエフォントの収録においては、特化した感情を込めやすくなるよう収録文章を改変しており、その点でも初心者に優しい。

お試しで自分の声のAI 合成音声を作りたい初心者にも最適な選択肢の一つだと言える。

通常コエフォントの制作プランが最高精度プランのみになる前に用意されていた旧プランは以下の3通り。

ローエンド（500円／100文／収録時間15分～）
ミドルレンジ（1000円／400文／収録時間60分～）
ハイエンド（1500円／700文／収録時間120分～）

ユーザーモデル応援祭では「アリアル・ミリアル・アベルーニ、ひろゆきなどの公式コエフォントを除く、ユーザー制作型のコエフォント」をレギュレーション対象としている。

TALQu

Haruqa氏が開発した深層学習系TTS。読み方は「トーク」で。現行BOOTHで配布されているバージョンは正式には「TALQu2」

一般的なトークソフトのように上下アクセントで調声する機能ではなく「テキストをもとに喋り癖を再現した音声を生成し、ピッチ線(音程)を描いてアクセントを修正する」形式で調声するピッチ調声形式のTTS。

有志が配布したトークモデルをTALQu本体のModelsフォルダに格納することでモデルリストに追加できるシステムを採用しており、TALQu2ではデフォルトモデルの「Haruqa」、TALQu3からはHaruqaに加え、公式キャラクターとなった「十九モチ」「こちぇ」「コル音イム」以外のトークモデルはユーザー自身がDL、追加する必要がある。

はるぽラボのポイント交換システムまたはHaruqa氏のFa nboxおよびポイント交換システムで利用できる「TALQu3 PRO」と、Google Colabを利用したWeb版「TALQu Note」についてはTALQuの項にて。

2023年 9月現在、TALQu2のユーザーモデル作成ルートは以下の2通り。

VEルート　 2022年 12月に追加された収録リスト「Haruqaコーパスベリーイージーエディション」で収録したデータを専用のノートブックで学習させることで作成できるトークモデル。理論上は最低68文の収録で喋らせることができる。収録できる文章の上限は2万文だが、「スイッチフラグ」システムが追加されたことにより、XYZの三種類のスタイルと、それぞれに疑問符(？)感嘆符(！)を付けた収録が可能なため、2万×12パターンで最大24万文を学習に投入することができる。

ITAコーパスルート　専用のノートブックで作成できる、ITAコーパス Emotion 100文あるいは全424文を学習に流用したトークモデル。収録文数が少ないためTALQuの強みは活かしづらいが、後述する専用ボコーダーの獲得によって音質を向上することは可能。

また、過去に存在した以下の作成ルートは「TALQu3」開発のため、新規の学習受付を停止している。

メインルート（受付停止中）　「TALQu参戦チケット」を使用して開発者に学習工程を委託したトークモデル。収録リストはデフォルトモデルと同じ「Haruqaコーパス」。また、ベースモデルも以下の２ルートとは違ったものを使用している模様。

VEルート、ITAコーパスルートで作成したモデルは、TALQu2の初期搭載ボコーダーとの相性によっては生成した音声の音質が劣化する可能性がある。その場合は、公式キャラクターの声質を中心にボコーダーがチューンナップされ、対応できる音域が拡大した「TALQu3」で使用してみるか、はるぽラボにて公開されている専用ボコーダー作成キットを使用し、専用ボコーダーを制作することで解決することができる。

また、TALQuに関しては他のソフト・サービスに比べるとクオリティの確保に大量の音声収録が必要とされる傾向にあるが、収録文章数を任意で増やせるのが他のユーザーモデルにない最大の特徴でもあり、類似した収録文章のアクセントや発音のニュアンスをきちんと統一すれば一貫した喋り方に、バラけさせれば遊びのあるガチャ要素になっていく。

ガチャ要素は他のソフトにない個性でもあるため、沢山収録すればアクセントが正確になると言うよりは「沢山収録するほど表現力が豊かになる」傾向があるのがTALQuということかもしれない。

TALQu2では「Haruqa」を除く追加トークモデルの全てがユーザーモデルに該当していたが、TALQu3からは「Haruqa」以外の公式実装トークモデルが増えたため、ユーザーモデル応援祭では「TALQu3の初期実装トークモデル(公式キャラクター)を除いたユーザー制作型トークモデル」をレギュレーション対象としている。

COEIROINK（MYCOEIROINK）

つくよみちゃんをはじめとした公認トークモデルが存在するCOEIROINKにも、2022年 4月にGoogle Colabのノートブックを使用したトークモデルの自主制作・追加機能「MYCOEIROINK」が実装された。

こちらは「speaker_info」フォルダにトークモデルが入ったフォルダを格納することでトークモデルを追加可能。学習データにはITAコーパスの読み上げ文424文を使用し、学習ベースモデルは二種類から選択できる。ITAコーパスに感情をこめて読み、それぞれを別途学習させたモデルを一つのフォルダにまとめることで複数スタイルの実装も可能。既に30スタイル以上配布している猛者が存在している。

学習元のデータの音質にもよるが、ITAコーパスのみでもかなり高品質のトークモデルを作成することが可能。比較的ユーザーモデルの利用者も獲得しやすく、現状のユーザーモデル制作の主流ソフトと言っても過言ではない。

2022年 10月より、拡張収録要素として、疑問文や日常会話向け単語の強化を図ることができる「MANAコーパス」が実装されたことに加え、ITAコーパスを完全収録せずとも学習させることも可能になり、作成できるトークモデルの品質と参入のしやすさがさらに向上した。

2023年 6月より、UIを一新した「COEIROINK v2」がリリースされた。COEIROINK(v1)まではVOICEVOXと同じUI、かつVOICEVOX系列のソフトとマルチエンジンで併用できた。「COEIROINK v2」はVOICEVOX系列ではなくなったため互換性がなくなった。有志によってVOICEVOXとの連携ソフトウェアが作成されている。（COEIROINK v2の更新によって利用不可になる可能性がある他、非公式のため自己責任で利用すること）