ユーザーモデル(ソフトウェアトーク)とは、「ソフトウェアトークユーザーモデル応援祭」の開催時に発祥した「個人配布の音声合成モデル」を包括的に呼称するための単語である。
この単語は、前述した投稿祭の主催「いろは酢」が便宜上提唱しているグループであり、現状は投稿祭参加者やその周辺の人々が使用している単語に過ぎないため、各サービス運営・システム開発者の合意による公式のものではないことをご留意いただきたい。
この項では、現状のソフトウェアトーク界におけるユーザーモデルの定義について説明する。
2022年7月現在のユーザーモデル(ソフトウェアトーク)の定義は以下のとおりである。
しかし該当するサービスやソフト、起用の形態の増加と多様化が著しく、CoeFontのようにこの定義の例外も存在する。
また、この単語はあくまで「一つのソフトでまとめられない多数の音声合成やキャラクターを包括的に呼称するもの」であり、存在意義としてはニコニコ運営がユーザーへの普及を図っている「ソフトウェアトーク」に近い。今後の発展によっては界隈内で一般単語化したり検索タグ化したりする可能性もあるが、一切合切未知数である。
語源は該当する合成音声(トークモデル)らが、MikuMikuDanceのユーザー制作・配布3Dモデルを指す「MMDユーザーモデル」のソフトウェアトーク版のような存在であることから。
音声やキャラクターの利用規約や管理体制も千差万別で、利用状況によっては配布者が配布を取り止める可能性もあるため、規約の事前確認は必須事項である。
アリアル・ミリアル・アベルーニで御馴染み、Web上で合成音声を利用できる会員制のAI音声サービス。テキスト読み上げサービスの利用は月額500円~のサブスクリプション方式で、別途課金することで自分の声を使った合成音声「コエフォント」を作成、CoeFontサイト上で公開できるようになる。
利用した際は「Voiced by CoeFont.CLOUD」のクレジット表記が必須。
2022年8月現在、利用できるコエフォント制作プランは以下の通り。一般的に学習させる文章が多いほどクオリティが高くなるとされている。
また、2022年1月に開催されたCoeFontFES2022を機に4種の「感情コエフォントプラン」が追加された。
ナレーション向きの文章を揃えた通常のコエフォント作成プランに対し、それぞれのコエフォントに特化した感情を込めやすくなるよう文章を改変しているのが感情コエフォントプランの特徴。
他ソフトと比較すると課金必須という壁はあるものの「日本語話者であれば難しい知識がなくとも合成音声が作れる」のが最大の強み。収録もブラウザ完結型で、簡易的なバックグラウンドノイズの除去と学習工程は全てCoeFont側が請け負ってくれる上、読み仮名とアクセント表記もわかりやすく併記されている親切仕様。お試しで自分の声のAI合成音声を作りたい初心者にも最適な選択肢の一つだと言える。
コエフォント本体の管理をWebサービスに依存する点でユーザーモデルの3番目の定義から外れるが、ユーザーモデル応援祭では「アリアル・ミリアル・アベルーニを除く、ソフトウェアトーク動画への利用が想定されたユーザー制作型のコエフォント」をレギュレーション対象としている。
Haruqa氏が開発した深層学習系TTS。読み方は「トーク」。
アクセントで調整する機能が付いておらず、一般的なソフトウェアトークのように正確なアクセントで発話するのが難しいモデルが多い代わりに「喋り癖を再現した音声を生成し、ピッチ線を描いてアクセントを修正する」UTAUと深層学習をそのままTTSに融合させたような調声システムが特徴。
UTAUのように有志が配布したトークモデルを「Models」フォルダに格納することでリストに追加できるシステムを採用しており、デフォルトモデルの「Haruqa(AI)」以外はユーザー自身がDL、追加する必要がある。追加できるトークモデルは開発者に学習工程を委託したものと、開発者が提供する「Google Colab」のノートブックを使用して収録者自身が学習を行ったものがあり、品質は学習元音声の音質や収録した音声データの量、使用するベースモデルに左右される。
2022年8月現在、TALQuのモデル作成ルートは大まかに以下の3通り。
VEルートとITAコーパスルートのモデルは、作成時点では本体付属のボコーダーとの相性の関係で音質が悪くなることがあるが、支援版「TALQu Pro」に付属する「ボコーダー変更機能」を使用するか、Haruqaポイント取引で「専用ボコーダー」を作成してもらうことで改善可能。
また、TALQuに関しては他のソフト・サービスに比べるとクオリティの確保に大量の音声収録が必要とされる傾向にあるが、収録文章数を任意で増やせるのが他のユーザーモデルにない最大の特徴でもあり、類似した収録文章のアクセントや発音のニュアンスをきちんと統一すれば一貫した喋り方に、バラけさせれば遊びのあるガチャ要素になっていく。
そのため、TALQuのトークモデルには、沢山収録すればアクセントが正確になると言うよりは「沢山収録するほど表現力が豊かになる」傾向があるとも言える。
急上昇ワード改
最終更新:2025/12/07(日) 07:00
最終更新:2025/12/07(日) 07:00
ウォッチリストに追加しました!
すでにウォッチリストに
入っています。
追加に失敗しました。
ほめた!
ほめるを取消しました。
ほめるに失敗しました。
ほめるの取消しに失敗しました。