ユーザーモデル(ソフトウェアトーク)とは (ソフトウェアトークノユーザーモデルとは) [単語記事]

ユーザーモデル(ソフトウェアトーク)とは、「ソフトウェアトークユーザーモデル応援祭」の開催時に発祥した「個人配布の音声合成モデル」を包括的に呼称するための単語である。

この単語は、前述した投稿祭の主催「いろは酢」が便宜上提唱しているグループであり、現状は投稿祭参加者やその周辺の人々が使用している単語に過ぎないため、各サービス運営・システム開発者の合意による公式のものではないことをご留意いただきたい。

この項では、現状のソフトウェアトーク界におけるユーザーモデルの定義について説明する。

概要

2022年7月現在のユーザーモデル（ソフトウェアトーク）の定義は以下のとおりである。

トークソフトのために開発された「話声の音声合成モデル」のうち
音声合成サービスや音声合成ソフトの「開発者以外が有志で作成、あるいは作成を委託した」もので
音声合成サービスや音声合成ソフトの「運営が管理権を有していない」音声合成モデル

しかし該当するサービスやソフト、起用の形態の増加と多様化が著しく、CoeFontのようにこの定義の例外も存在する。

また、この単語はあくまで「一つのソフトでまとめられない多数の音声合成やキャラクターを包括的に呼称するもの」であり、存在意義としてはニコニコ運営がユーザーへの普及を図っている「ソフトウェアトーク」に近い。今後の発展によっては界隈内で一般単語化したり検索タグ化したりする可能性もあるが、定着してはいないこと。

語源は該当する合成音声（トークモデル）らが、MikuMikuDanceのユーザー制作・配布3Dモデルを指す「MMDユーザーモデル」のソフトウェアトーク版のような存在であることから。

音声やキャラクターの利用規約や管理体制も千差万別で、利用状況によっては配布者が配布を取り止める可能性もあるため、規約の事前確認は必須事項である。

ユーザーモデルを作成可能なサービス・ソフト

CoeFont（旧サービス名：CoeFont_CLOUD）

アリアル・ミリアル・アベルーニで御馴染み、Web上で合成音声を利用できる会員制のAI音声サービス。テキスト読み上げサービスの利用は月額500円～のサブスクリプション方式で、別途課金することで自分の声を使った合成音声「コエフォント」を作成、CoeFontサイト上で公開できるようになる。

利用した際は「Voiced by CoeFont.CLOUD」のクレジット表記が必須。

2023年9月現在、コエフォントの収録形態は、独自のコーパス文章を100～3000文収録して制作するベーシックな制作プランと、2022年1月に開催されたCoeFontFES2022を機に追加された、4種の「感情コエフォントプラン」が存在する。

100文（500円／旧ローエンド相当／収録時間15分）
101～400文（1000円／旧ミドルレンジ相当／収録時間15～60分）
401～1000文（2000円／旧ハイエンド相当／収録時間60～150分）
1001～2999文（20000円／収録時間150～450分）
3000文（50000円／最高精度／収録時間450分）

喜び（1000円／400文／収録時間60分～）
怒り（1000円／400文／収録時間60分～）
悲しみ（1000円／400文／収録時間60分～）
喜び（1000円／400文／収録時間60分～）

ナレーション向きの文章を揃えた通常のコエフォント作成プランに対し、それぞれのコエフォントに特化した感情を込めやすくなるよう文章を改変しているのが感情コエフォントプランの特徴。

また、通常コエフォントの制作プランが最高精度プランのみになる前に用意されていた旧プランは以下の3通り。

ローエンド（500円／100文／収録時間15分～）
ミドルレンジ（1000円／400文／収録時間60分～）
ハイエンド（1500円／700文／収録時間120分～）

他ソフトと比較すると課金必須という壁はあるものの「日本語話者であれば難しい知識がなくとも合成音声が作れる」のが最大の強み。収録もブラウザ完結型で、簡易的なバックグラウンドノイズの除去と学習工程は全てCoeFont側が請け負ってくれる上、読み仮名とアクセント表記もわかりやすく併記されている親切仕様。お試しで自分の声のAI合成音声を作りたい初心者にも最適な選択肢の一つだと言える。

コエフォント本体の管理をWebサービスに依存する点でユーザーモデルの3番目の定義から外れるが、ユーザーモデル応援祭では「アリアル・ミリアル・アベルーニを除く、ソフトウェアトーク動画への利用が想定されたユーザー制作型のコエフォント」をレギュレーション対象としている。

TALQu

Haruqa氏が開発した深層学習系TTS。読み方は「トーク」であり、現行配布されているバージョンは正式には「TALQu2」。

上下アクセントで調声する機能が付いておらず、一般的なトークソフトのように正確なアクセントで発話するのが難しいモデルが多い代わりに「喋り癖を再現した音声を生成し、ピッチ線(音程)を描いてアクセントを修正する」UTAUと深層学習をそのままTTSに融合させたような調声システムが特徴。

UTAUのように有志が配布したトークモデルを「Models」フォルダに格納することでリストに追加できるシステムを採用しており、デフォルトモデルの「Haruqa(AI)」以外はユーザー自身がDL、追加する必要がある。追加できるトークモデルは開発者に学習工程を委託したものと、開発者が提供する「Google Colab」のノートブックを使用して収録者自身が学習を行ったものがあり、品質は学習元音声の音質や収録した音声データの量、使用する学習ベースモデルに左右される。

2023年9月現在、TALQuのモデル作成ルートは大まかに以下の三通りだが、

「TALQu3」の開発のため、現行のTALQu2向けメインルートモデルの学習受付は停止している。

メインルート（受付停止中）　「TALQu参戦チケット」を使用して開発者に学習工程を委託したトークモデル。収録リストはデフォルトモデルと同じ「Haruqaコーパス」で、収録できる文章の量は万単位で今も増加し続けており、実質無限に収録データ量が増やせてしまう。また、ベースモデルも以下の２ルートとは違ったものを使用している模様。

VEルート　2022年12月に追加された収録リスト「Haruqaコーパスベリーイージーエディション」で収録したデータを専用のノートブックで学習させることで作成できるトークモデル。理論上は最低68文の収録で喋らせることができる。収録できる文章の上限は2万文だが、「スイッチフラグ」システムが追加されたことにより、XYZの三種類のスタイルと、それぞれに疑問符(？)感嘆符(！)を付けた収録が可能なため、2万×12パターンで最大24万文を学習に投入することができる。

ITAコーパスルート　専用のノートブックで作成できる、ITAコーパスEmotion100文あるいは全424文を学習に流用したトークモデル。収録文数が少ないためTALQuの強みは活かしづらいが、後述する専用ボコーダーの獲得によって音質を向上することは可能。

VEルートとITAコーパスルートのモデルは、作成時点では本体付属のボコーダーとの相性の関係で音質が悪くなることがあるが、支援版「TALQu Pro」に付属する「ボコーダー変更機能」を使用するか、Haruqaポイント取引で「専用ボコーダー」を作成してもらうことで改善可能。

また、TALQuに関しては他のソフト・サービスに比べるとクオリティの確保に大量の音声収録が必要とされる傾向にあるが、収録文章数を任意で増やせるのが他のユーザーモデルにない最大の特徴でもあり、類似した収録文章のアクセントや発音のニュアンスをきちんと統一すれば一貫した喋り方に、バラけさせれば遊びのあるガチャ要素になっていく。

沢山収録すればアクセントが正確になると言うよりは「沢山収録するほど表現力が豊かになる」傾向があるのがTALQuということかもしれない。

TALQu2ではHaruqa(AI)を除く追加トークモデルの全てがユーザーモデルに該当していたが、TALQu3からはHaruqa以外の公式実装トークモデルが増える見込みとのこと。

COEIROINK（MYCOEIROINK）

つくよみちゃんをはじめとした公認トークモデルが存在するCOEIROINKにも、2022年4月にGoogle Colabのノートブックを使用したトークモデルの自主制作・追加機能「MYCOEIROINK」が実装された。

こちらは「speaker_info」フォルダにトークモデルが入ったフォルダを格納することでトークモデルを追加可能。学習データにはITAコーパスの読み上げ文424文を使用し、学習ベースモデルは二種類から選択できる。ITAコーパスに感情をこめて読み、それぞれを別途学習させたモデルを一つのフォルダにまとめることで複数スタイルの実装も可能。既に30スタイル以上配布している猛者が存在している。

学習元のデータの音質にもよるが、ITAコーパスのみでもかなり高品質のトークモデルを作成することが可能で、VOICEVOXと同じUI、かつVOICEVOX系列のソフトとマルチエンジンで併用できることも含めて比較的ユーザーモデルの利用者も獲得しやすく、現状のユーザーモデル制作の主流ソフトと言っても過言ではない。

2022年10月より、拡張収録要素として、疑問文や日常会話向け単語の強化を図ることができる「MANAコーパス」が実装されたことに加え、ITAコーパスを完全収録せずとも学習させることも可能になり、作成できるトークモデルの品質と参入のしやすさがさらに向上した。

また、2023年6月より、UIを一新した「COEIROINK v2」がリリースされた。

ユーザーモデル応援祭では「公式・公認モデルを除いた個人製作のトークモデル(MYCOEIROINK)」をレギュレーション対象としている。