NNSVS とは、オープンソースの機械学習ライブラリである Pytorch をベースとした研究用歌声合成ライブラリである。簡単に言えば、NEUTRINO のようなソフトウェアを作るためのライブラリである。
以前から統計的音声合成フレームワークであるnnmnkwiiやWaveNet のフリーな実装を発表していた山本りゅういち氏により 2020 年 4 月より開発が開始された。合成方法は Vocaloid や UTAU のような波形接続型ではなく Sinsy や NEUTRINO のような統計的音声合成である。結果の再現性が重視されており、レシピという形でデータの準備から音声合成まで行うスクリプトが提供されている。
公式が提供しているのは東北きりたん、謡子、JSUT (Japanese speech corpus of Saruwatari-lab)、PJS用の 4 つのレシピだが、他に有志によりおふとん P 歌声データベース、夏目悠李/ 男声歌声データベース、御丹宮くるみ、 Haruqa 用のレシピが開発されている。
統計的音声合成は波形接続型の音声合成のように録音された音声の小片を組み合わせて使用するのではなく、録音されたデータから音の高さや口やのどの形など、実際の音声の生成に関係していると思われる要素を数値で抽出し (音響特徴量)、その数値と楽譜の関係を機械学習の手法で学習・予測することで音声を合成する。学習方法として Sinsy で使用されている隠れマルコフモデル (HMM) が長く使用されてきたが、最近では NEUTRINO のようにニューラルネットワーク (DNN) を使用する方法が広まっている。
NNSVS は楽譜と音声データからタイムラグ (楽譜と実際の発声の差) 、継続長 (各音素の持続時間)、音響特徴量の 3 つをニューラルネットワークによって学習するが、デフォルトで使用されている音響特徴量用のニューラルネットワーク (音響モデル) はかなりの確率で音の高さを外す。これはおふとん P 歌声データベースや御丹宮くるみ歌声データベース用のように童謡をを主体とした学習データよりも、PJS や夏目悠李/男声歌声データベースのようなポップスを主体とした学習データで特に顕著である。あまりの音程の外しっぷりに NEUTRINO のような流暢で自然な歌声を期待していた場合は深く落胆するかもしれない。作者曰く音響モデルは「適当なモデル」で本来は早めに別のモデルに差し替えるつもりだったと思われるが、公開されてまもなく氏が本業で多忙になってしまったためそのまま手付かずになっている。
しかし音の高さ以外の音響特徴量 (声質などに関連) は比較的良く再現されており、Melodyne や VocalShifter などのソフトウェアを使ってピッチ補正するとかなり自然な歌声になる。また Github のプルリクエストに上がっている 混合密度ネットワークと呼ばれる手法を使うと音の高さに関してはかなり安定する。
NNSVS 本体は python プログラムでレシピはシェルスクリプトのため、 python と bash などの UNIX 由来のツールが必要になる。使用法は Google Colaboratory を使うか自分の PC を使うかの 2 通りに大別され、また自分の PC を使う場合は PC に直接 Linux をインストールする、Windows subsystem for Linux (WSL) を使う、Windows 用の python と MSYS2を使うパターンの 3 つが考えられる。
MacOS での利用は NVIDIAがCUDA 10.2でMacOSのサポートを終了したため長期的にはあまりお勧めではないが、おそらく WSL 程度の労力で利用可能であると推測される。
NNSVS 用の歌声データベースには次の3つが必要である。
1 の音声データは Python が扱うことのできるフォーマットであればなんでも良い。
2、3の楽譜および単音素ラベルファイルに関して、NNSVS では楽譜の情報(言語/音楽特徴量)を抽出するのに Sinsy の楽譜変換機能を使ってMusicXML ファイルを HTS フルコンテキストラベルファイルに変換して利用している。そして両者に含まれる音素の種類と数は厳密に一致している必要がある。既存の歌声データベースを使って NNSVS 用のレシピを作成するための作業と必要な労力はほぼこのすりあわせに集中しており、例えば作者のkiritan_singingを見るとその苦労のあとが垣間見える。
一部の個人制作の歌声データベースでは UTAU の setParam や oto.ini を使用してこれらのファイルが作成されており、有志により作業手順をまとめた技術文書の準備が進行中である。
| UTAU | Sinsy | NEUTRINO | NNSVS | |
|---|---|---|---|---|
| 作者(敬称略) | 飴屋/菖蒲 | 名古屋工業大学 | SHACHI | 山本りゅういち |
| 合成方式 | 波形接続型 | 統計的音声合成 | 統計的音声合成 | 統計的音声合成 |
| 学習方式 | HMM/DNN | DNN | DNN | |
| ソースコード | クローズドソース | 修正 BSD ライセンス (DNN 部分は未公開) | クローズドソース | MIT ライセンス |
| 入力方式 | ust | MusicXML | MusicXML | MusicXML, HTS fullcontext label |
| ユーザインターフェイス | 公式で GUI を配布 | Web サービスあり | 調声支援ツールなど外部ツールあり | コマンドライン |
UTAU 音源「くれぽ」の作者であるくれいじー氏のカバー
歌声合成系 V の者であるアマノケイ氏のカバー
台湾の Maplestyle 氏のカバー
歌声データベース作者 Haruqa 氏本人によるカバー
上記以外にも soundcloud で #NNSVS タグで検索すると多くの作品を聴くことができる。
ニコニコ上に関連コミュニティやチャンネルはないが、 Discord 上に情報交換用のサーバがあり質疑応答や制作物の供覧が行われている。また海外の UTAU 音源製作者やユーザも参加している。
急上昇ワード改
最終更新:2026/01/10(土) 23:00
最終更新:2026/01/10(土) 23:00
ウォッチリストに追加しました!
すでにウォッチリストに
入っています。
追加に失敗しました。
ほめた!
ほめるを取消しました。
ほめるに失敗しました。
ほめるの取消しに失敗しました。