NNSVSとは (エヌエヌエスブイエスとは) [単語記事]

NNSVS とは、オープンソースの機械学習ライブラリである Pytorch をベースとした研究用歌声合成ライブラリである。簡単に言えば、NEUTRINO のようなソフトウェアを作るためのライブラリである。

概要

以前から統計的音声合成フレームワークであるnnmnkwiiやWaveNet のフリーな実装を発表していた山本りゅういち氏により 2020 年 4 月より開発が開始された。合成方法は Vocaloid や UTAU のような波形接続型ではなく Sinsy や NEUTRINO のような統計的音声合成である。結果の再現性が重視されており、レシピという形でデータの準備から音声合成まで行うスクリプトが提供されている。

公式が提供しているのは東北きりたん、謡子、JSUT (Japanese speech corpus of Saruwatari-lab)、PJS用の 4 つのレシピだが、他に有志によりおふとん P 歌声データベース、夏目悠李/ 男声歌声データベース、御丹宮くるみ、 Haruqa 用のレシピが開発されている。

統計的音声合成とは

統計的音声合成は波形接続型の音声合成のように録音された音声の小片を組み合わせて使用するのではなく、録音されたデータから音の高さや口やのどの形など、実際の音声の生成に関係していると思われる要素を数値で抽出し (音響特徴量)、その数値と楽譜の関係を機械学習の手法で学習・予測することで音声を合成する。学習方法として Sinsy で使用されている隠れマルコフモデル (HMM) が長く使用されてきたが、最近では NEUTRINO のようにニューラルネットワーク (DNN) を使用する方法が広まっている。

品質

NNSVS は楽譜と音声データからタイムラグ (楽譜と実際の発声の差) 、継続長 (各音素の持続時間)、音響特徴量の 3 つをニューラルネットワークによって学習するが、デフォルトで使用されている音響特徴量用のニューラルネットワーク (音響モデル) はかなりの確率で音の高さを外す。これはおふとん P 歌声データベースや御丹宮くるみ歌声データベース用のように童謡をを主体とした学習データよりも、PJS や夏目悠李/男声歌声データベースのようなポップスを主体とした学習データで特に顕著である。あまりの音程の外しっぷりに NEUTRINO のような流暢で自然な歌声を期待していた場合は深く落胆するかもしれない。作者曰く音響モデルは「適当なモデル」で本来は早めに別のモデルに差し替えるつもりだったと思われるが、公開されてまもなく氏が本業で多忙になってしまったためそのまま手付かずになっている。

しかし音の高さ以外の音響特徴量 (声質などに関連) は比較的良く再現されており、Melodyne や VocalShifter などのソフトウェアを使ってピッチ補正するとかなり自然な歌声になる。また Github のプルリクエストに上がっている混合密度ネットワークと呼ばれる手法を使うと音の高さに関してはかなり安定する。

使用法

NNSVS 本体は python プログラムでレシピはシェルスクリプトのため、 python と bash などの UNIX 由来のツールが必要になる。使用法は Google Colaboratory を使うか自分の PC を使うかの 2 通りに大別され、また自分の PC を使う場合は PC に直接 Linux をインストールする、Windows subsystem for Linux (WSL) を使う、Windows 用の python と MSYS2を使うパターンの 3 つが考えられる。

MacOS での利用は NVIDIAがCUDA 10.2でMacOSのサポートを終了したため長期的にはあまりお勧めではないが、おそらく WSL 程度の労力で利用可能であると推測される。

Google Colaboratory から使用する

長所
- 自分の PC の GPU が非 NVIDIA 製品である、ディスクの空き容量が少ない場合でも NNSVS を試すことができる
- 有志の作った Jupyter Notebook ファイル (例: NNSVS でおふとん P 歌声データベースを使う) を使えばマウスでクリックするだけで歌声合成を試すことができる
短所
- 連続使用 12 時間の制限があるため、複雑なモデルを試しづらい
- Google ドライブの容量は Gmail と共用なので課金して容量を拡張しないとすぐに容量オーバーになる
- 歌声データベースや楽譜 (MusicXML ファイル) をいちいち Google ドライブにアップロードするのが面倒

自分の PC に Linux をインストールして使う

長所
- Google Colaboratory のような時間制限や容量制限がなく好きなときに好きなだけ歌声合成できる
- 作者の山本りゅういち氏の開発環境と (おそらく) 同一のため、環境の違いによる問題を避けられる
短所
- Linux のインストールや使い方など、歌声合成とは直接関係ないところで苦労する可能性がある

自分の PC に Windows subsystem for Linux をインストールして使う

長所
- Google Colaboratory のような時間制限や容量制限がなく好きなときに好きなだけ歌声合成できる
- Linux を直接インストールするのと違い Windows ストアから手軽に導入できる
- Windows Insider Preview に参加していると WSL2 で CUDA を使用できる
- WSL 上に NNSVS の環境構築するバッチとシェルスクリプトが存在する
短所
- WSL1 では CUDA を使用できず学習や合成が遅い
- WSL2 での CUDA の利用はまだプレビュー版であり安定しないことがある

自分の PC に Windows 用の python と MSYS2 をインストールして使う

長所
- Google Colaboratory のような時間制限や容量制限がなく好きなときに好きなだけ歌声合成できる
- 環境構築のためのmini-HOWTOが存在する
- 環境構築を半自動化してくれるスクリプト (pnew - portable NNSVS environment for Windows) が存在する
短所
- 上述の mini-HOWTO やスクリプトを使用しても Windows, Unix, Python に関する幅広い知識が必要であり環境構築が一番難しい
- 作者の山本りゅういち氏の開発環境と異なるため、環境の違いに起因する問題が生じる可能性がある

NNSVS で自作の歌声データベースを使う

NNSVS 用の歌声データベースには次の3つが必要である。

音声データ
楽譜 (MusicXml フォーマット, または MusicXML ファイルから変換された HTS フルコンテキストラベルファイル)
単音素ラベルファイル(音声データに含まれる各音素の開始時間、終了時間が設定されたもの)

1 の音声データは Python が扱うことのできるフォーマットであればなんでも良い。

2、3の楽譜および単音素ラベルファイルに関して、NNSVS では楽譜の情報(言語/音楽特徴量)を抽出するのに Sinsy の楽譜変換機能を使ってMusicXML ファイルを HTS フルコンテキストラベルファイルに変換して利用している。そして両者に含まれる音素の種類と数は厳密に一致している必要がある。既存の歌声データベースを使って NNSVS 用のレシピを作成するための作業と必要な労力はほぼこのすりあわせに集中しており、例えば作者のkiritan_singingを見るとその苦労のあとが垣間見える。

一部の個人制作の歌声データベースでは UTAU の setParam や oto.ini を使用してこれらのファイルが作成されており、有志により作業手順をまとめた技術文書の準備が進行中である。

フリーの音声合成ソフトウェア/ ライブラリの比較

	UTAU	Sinsy	NEUTRINO	NNSVS
作者(敬称略)	飴屋/菖蒲	名古屋工業大学	SHACHI	山本りゅういち
合成方式	波形接続型	統計的音声合成	統計的音声合成	統計的音声合成
学習方式		HMM/DNN	DNN	DNN
ソースコード	クローズドソース	修正 BSD ライセンス (DNN 部分は未公開)	クローズドソース	MIT ライセンス
入力方式	ust	MusicXML	MusicXML	MusicXML, HTS fullcontext label
ユーザインターフェイス	公式で GUI を配布	Web サービスあり	調声支援ツールなど外部ツールあり	コマンドライン