ユーザーモデル(ソフトウェアトーク)とは (ソフトウェアトークノユーザーモデルとは) [単語記事]

ユーザーモデル(ソフトウェアトーク)とは、「ソフトウェアトークユーザーモデル応援祭」の開催時に発祥した「個人配布の音声合成モデル」を包括的に呼称するための単語である。

この単語は、前述した投稿祭の主催「いろは酢」が便宜上提唱しているグループであり、現状は投稿祭参加者やその周辺の人々が使用している単語に過ぎないため、各サービス運営・システム開発者の合意による公式のものではないことをご留意いただきたい。

この項では、現状のソフトウェアトーク界におけるユーザーモデルの定義について説明する。

概要

2022年7月現在のユーザーモデル（ソフトウェアトーク）の定義は以下のとおりである。

トークソフトのために開発された「話声の音声合成モデル」のうち
音声合成サービスや音声合成ソフトの「開発者以外が有志で作成、あるいは作成を委託した」もので
音声合成サービスや音声合成ソフトの「運営が管理権を有していない」音声合成モデル

しかし該当するサービスやソフト、起用の形態の増加と多様化が著しく、CoeFontのようにこの定義の例外も存在する。

また、この単語はあくまで「一つのソフトでまとめられない多数の音声合成やキャラクターを包括的に呼称するもの」であり、存在意義としてはニコニコ運営がユーザーへの普及を図っている「ソフトウェアトーク」に近い。今後の発展によっては界隈内で一般単語化したり検索タグ化したりする可能性もあるが、一切合切未知数である。

語源は該当する合成音声（トークモデル）らが、MikuMikuDanceのユーザー制作・配布3Dモデルを指す「MMDユーザーモデル」のソフトウェアトーク版のような存在であることから。

音声やキャラクターの利用規約や管理体制も千差万別で、利用状況によっては配布者が配布を取り止める可能性もあるため、規約の事前確認は必須事項である。

ユーザーモデルを作成可能なサービス・ソフト

CoeFont（旧サービス名：CoeFont_CLOUD）

アリアル・ミリアル・アベルーニで御馴染み、Web上で合成音声を利用できる会員制のAI音声サービス。テキスト読み上げサービスの利用は月額500円～のサブスクリプション方式で、別途課金することで自分の声を使った合成音声「コエフォント」を作成、CoeFontサイト上で公開できるようになる。

利用した際は「Voiced by CoeFont.CLOUD」のクレジット表記が必須。

2022年8月現在、利用できるコエフォント制作プランは以下の通り。一般的に学習させる文章が多いほどクオリティが高くなるとされている。

ローエンド（500円／100文／収録時間15分～）
ミドルレンジ（1000円／400文／収録時間60分～）
ハイエンド（1500円／700文／収録時間120分～）

また、2022年1月に開催されたCoeFontFES2022を機に4種の「感情コエフォントプラン」が追加された。

喜び（1000円／400文／収録時間60分～）
怒り（1000円／400文／収録時間60分～）
悲しみ（1000円／400文／収録時間60分～）
喜び（1000円／400文／収録時間60分～）

ナレーション向きの文章を揃えた通常のコエフォント作成プランに対し、それぞれのコエフォントに特化した感情を込めやすくなるよう文章を改変しているのが感情コエフォントプランの特徴。

他ソフトと比較すると課金必須という壁はあるものの「日本語話者であれば難しい知識がなくとも合成音声が作れる」のが最大の強み。収録もブラウザ完結型で、簡易的なバックグラウンドノイズの除去と学習工程は全てCoeFont側が請け負ってくれる上、読み仮名とアクセント表記もわかりやすく併記されている親切仕様。お試しで自分の声のAI合成音声を作りたい初心者にも最適な選択肢の一つだと言える。

コエフォント本体の管理をWebサービスに依存する点でユーザーモデルの3番目の定義から外れるが、ユーザーモデル応援祭では「アリアル・ミリアル・アベルーニを除く、ソフトウェアトーク動画への利用が想定されたユーザー制作型のコエフォント」をレギュレーション対象としている。

TALQu

Haruqa氏が開発した深層学習系TTS。読み方は「トーク」。

アクセントで調整する機能が付いておらず、一般的なソフトウェアトークのように正確なアクセントで発話するのが難しいモデルが多い代わりに「喋り癖を再現した音声を生成し、ピッチ線を描いてアクセントを修正する」UTAUと深層学習をそのままTTSに融合させたような調声システムが特徴。

UTAUのように有志が配布したトークモデルを「Models」フォルダに格納することでリストに追加できるシステムを採用しており、デフォルトモデルの「Haruqa(AI)」以外はユーザー自身がDL、追加する必要がある。追加できるトークモデルは開発者に学習工程を委託したものと、開発者が提供する「Google Colab」のノートブックを使用して収録者自身が学習を行ったものがあり、品質は学習元音声の音質や収録した音声データの量、使用するベースモデルに左右される。

2022年8月現在、TALQuのモデル作成ルートは大まかに以下の３通り。

メインルート　「TALQu参戦チケット」を使用して開発者に学習工程を委託したトークモデル。収録リストはデフォルトモデルと同じ「Haruqaコーパス」で、収録できる文章の量は万単位で今も増加し続けており、実質無限に収録データ量が増やせてしまう。また、ベースモデルも以下の２ルートとは違ったものを使用している模様。

VEルート　2022年12月に追加された収録リスト「Haruqaコーパスベリーイージーエディション」で収録したデータを専用のノートブックで学習させることで作成できるトークモデル。理論上は最低68文の収録で喋らせることができる。収録できる文章の上限は2万文だが、「スイッチフラグ」システムが追加されたことにより、XYZの三種類のスタイルと、それぞれに疑問符(？)感嘆符(！)を付けた収録が可能なため、2万×12パターンで最大24万文を学習に投入することができる。

ITAコーパスルート　専用のノートブックで作成できる、ITAコーパスEmotion100文あるいは全424文を学習に流用したトークモデル。収録文数が少ないためTALQuの強みは活かしづらいが、後述する専用ボコーダーの獲得によって音質を向上することは可能。

VEルートとITAコーパスルートのモデルは、作成時点では本体付属のボコーダーとの相性の関係で音質が悪くなることがあるが、支援版「TALQu Pro」に付属する「ボコーダー変更機能」を使用するか、Haruqaポイント取引で「専用ボコーダー」を作成してもらうことで改善可能。

また、TALQuに関しては他のソフト・サービスに比べるとクオリティの確保に大量の音声収録が必要とされる傾向にあるが、収録文章数を任意で増やせるのが他のユーザーモデルにない最大の特徴でもあり、類似した収録文章のアクセントや発音のニュアンスをきちんと統一すれば一貫した喋り方に、バラけさせれば遊びのあるガチャ要素になっていく。

そのため、TALQuのトークモデルには、沢山収録すればアクセントが正確になると言うよりは「沢山収録するほど表現力が豊かになる」傾向があるとも言える。

ユーザーモデル(ソフトウェアトーク) 単語

概要

ユーザーモデルを作成可能なサービス・ソフト

CoeFont（旧サービス名：CoeFont_CLOUD）

TALQu

COEIROINK（MYCOEIROINK）

関連動画

関連項目

おすすめトレンド

ニコニ広告で宣伝された記事