NEUTRINO(歌声合成エンジン)単語

ニュートリノ
  • 50
  • 0pt
掲示板へ

NEUTRINOとは、ニューラルネットワークを用いた歌シンセサイザーである。

※使用法に関しては下記の関連リンクをご覧ください。

概要

楽譜データからタイミング・音の高さ・質・のかすれ具合などをニューラルネットワークで推定し、実際の歌唱データからなる歌ライブラリで合成する。ライブラリ開時点で「東北きりたん」「謡子」の2名が同梱されている。

要するに、xml形式の楽譜データを渡せば、あとはライブラリに合わせて勝手に歌ってくれるとイメージするとよい(xmlデータの精度による)。

フリーウェアであり、ホームページexitからダウンロードインストールできる。作成した音の利用可範囲は、各歌ライブラリ元のデータベースの規約に従う。

NEUTRINO」との名称については、「まだ聞いたことのないような楽曲・ジャンルを開拓してほしいという思いを込めて名付けました。[1]」とのこと。

開までの時系列としては、まず最初に2019年12月にSHACHI氏のTwitterにおいて「東北きりたん」の歌ライブラリを用いて学習したデモ開された。そしてそれ以後も徐々に開発と開準備が進められ、ついに2020年2月22日0:00に開された。

開されると速、NEUTRINOを用いて様々な楽曲を歌唱させた動画が複数のユーザーからニコニコ動画などで開され始めた。これまで、経験を積んだユーザーが長時間かけて調声しなくてはならなかったような「人間の実歌唱との区別が非常に難しいレベルの歌」が次々と制作されていく様に、視聴者からは多数の驚きのコメントが寄せられた。

歌声ライブラリ

歌声合成手法の詳細について

開前(開発中)の段階である2019年12月時点で、SHACHI氏がTwitter上で歌合成手法に関する「」(東北大学教授)氏からの質問に回答したことがある。

その回答を引用すると、以下のような手法を用いているとのこと。

ありがとうございます。いつも楽しく研究を拝見させていただいております。
基本的な流れはよく見るDNN歌合成の流れになります。[3]

詳細は割愛させていただきますが、Acoustic NNAR付きのFFNNをResidualで繋いだ構成で、過去200 frame対数基本周波数・メルケプ(0次)、過去20 frameメルケプ(1~60次)・非周期性標・有/ARしています。[4]

NN Vocoderはh-sinc-NSFベースで、入WORLDの基本周波数・メルケプ・非周期性標、出を24kHzに変更しています。学習率も段階的に下げるようにしています。
ご参考になれば幸いです。[5]

補足になりますが、継続長に関しては20曲では推定が難しい部分があるため一部修正を加えています。(音脱落など)
フルセット50曲での学習である程度善されることを期待しています。[6]

とのこと。なるほどわからん

わからんが、わからなくても使える(はずだ)。

えらく高度なことをしているような気がするが、SHACHIく「※個人的な趣味として作成しております。所属組織とは一切関係ありません。」とのこと。

関連動画

公式(開発者「SHACHI氏」による開発中の音声)

東北きりたん歌唱データベース中のNo.01~No.50の全50曲(約60分)を用いて学習させてから歌わせたもの。
Train50music-No.1-1:『ありがとう』(いきものがかり
Train50music-No.2-1:『世界に一つだけの花』(SMAP
Train50music-No.3-1~2:『God knows...』(ENOZ Feat.涼宮 ハルヒ
Train50music-No.4-1~2:『パプリカ』(米津玄師
Train50music-NoBGM:『ありがとう』(いきものがかり
Train50music-WORLD:『パプリカ』(米津玄師

同じく、歌唱データベース中のNo.01~No.20、No.23~No.5048曲(約55分)を用いて学習させてから歌わせたもの。
Train48music-No.21-1~5:『Realize!』(i☆Ris
Train48music-No.22-1~3:『ミライノナマエ』(i☆Ris

カバー曲

カバー曲については「NEUTRINOカバー曲」の記事も参照。

オリジナル曲

使い方解説動画

バージョン比較動画

GUIツール

関連リンク

公式/開発者関連

利用しているデータベースなど

関連ツール

ユーザーによる使用レポート、使用法解説など

関連項目

脚注

  1. *SHACHI氏Twitterよりexit
  2. *森勢将雅氏のTwitterよりexit 森勢将雅氏のTwitterよりexit 東北ずん子(公式)Twitterよりexit 東北ずん子(公式)Twitterよりexit
  3. *SHACHI氏Twitterよりexit
  4. *SHACHI氏Twitterよりexit
  5. *SHACHI氏Twitterよりexit
  6. *SHACHI氏Twitterよりexit

【スポンサーリンク】

  • 50
  • 0pt
スマホ版URL:
https://dic.nicovideo.jp/t/a/neutrino%28%E6%AD%8C%E5%A3%B0%E5%90%88%E6%88%90%E3%82%A8%E3%83%B3%E3%82%B8%E3%83%B3%29

この記事の掲示板に最近描かれたお絵カキコ

お絵カキコがありません

この記事の掲示板に最近投稿されたピコカキコ

ピコカキコがありません

NEUTRINO(歌声合成エンジン)

412 ななしのよっしん
2020/03/25(水) 10:53:07 ID: A5fyvB8hjq
作りたい歌によってそれに合う歌い方をするAIシンガーを選ぶというにこちらはなっていく感じになるのかな
しかしAIきりたん謡子さんの使用される差がここまで凄いとは

こうなると色々な歌や歌い方を楽しみにしていたけれど難しそう
413 ななしのよっしん
2020/03/25(水) 16:13:25 ID: 09vOccbG1e
AIきりたん以外のバリエーションが存在するの知らなかった
414 ななしのよっしん
2020/03/25(水) 18:37:17 ID: l/X2NFb8+K
あからさまに謡子の方が合う歌でもきりたんを選ぶ、あると思います
415 ななしのよっしん
2020/03/25(水) 19:12:36 ID: itCSWJlYwb
きりたんは小学5年生のキャラクター声優が演じた歌い方をしてるからジェンダーを上げても似合う歌に限度がある。
イタコ姉さんUTAUも万再生数叩き出す実者だし、19歳の設定なら大人っぽい曲もジェンダー上げずにいけるかも。NEUTRINOでもイタコ姉さんが欲しい。
416 ななしのよっしん
2020/03/25(水) 21:07:02 ID: O4I7IgpwkD
謡子さんはキャラはもちろん顔グラもないからどうしても勝手知ったる顔見知りのきりたんが選ばれ
更に動画数に差がでることできりたんをきっかけにNEUTRINOを始める人が増えきりたんの流れが加速する
417 ななしのよっしん
2020/03/27(金) 02:12:42 ID: Ar+csMxuXq
きりたん以外のライブラリがあるのだから
本来ならAIシンガーきりたんタグからこの記事に転送するのはアカンけどなぁ
418 ななしのよっしん
2020/03/27(金) 16:34:37 ID: noSiuz/6Td
ハイスループットなのはやっぱり強い
思いついたネタ較的短時間で出せるから乗り遅れにくい
419 ななしのよっしん
2020/03/27(金) 21:30:02 ID: KXZEJT0QL2
諸君! 楽しんでいるかい?
明日からの休日きりたん&YOKO&SHACHIとのムフフなアレに費やすつもりなら,
それは大変有意義なひとときになるであろう!
だがしかし,ソフト,ハード問わず,環境バックアップ,予防措置だけはしっかりするように.
拙者HDDクラッシュして,この3日間ファイルシステムエラーにらめっこであった…
せっかくの時間を駄にしたくなければ,このクソレスを視野の隅に踏み越えて行ってくれ.
まさか昔作ったUbuntuCDがこんな形で役に立つとは…
420 ななしのよっしん
2020/03/28(土) 17:24:20 ID: I/lOFn+mJP
>>417いやそっちはいいでしょ。いちいち細分化して記事たてるほどでもないってときに上位記事に誘導して説明部分を設けるのはよくあることだし。
逆にNEUTRINOAIきりたんに誘導されてるってなら問題だけど。
421 ななしのよっしん
2020/03/29(日) 08:30:01 ID: KXZEJT0QL2
NSF比較動画来てるぞ: 【AIきりたん】新バージョンNSF」で驚きの進化NEUTRINO>>sm36586697exit_nicovideo

NSFインパクトは強いけど,WORLD版にも良さはあるから,適材適所で使い分けてくれw
WORLDリアルタイム合成についてはsigさんが実装に近付いてるな
自分でいろいろやりたい人はGitHubへどうぞ(ゲス顔):https://github.com/mmorise/Worldexit
以下SHACHIさんによるありがたい較解説 DL合成すごい…(地)
NSFvs WORLD
NSF
低音の詰まった感じ(over-smoothing)がく、クリアアタック感がある音です。
適正音域であれば、音質的な外れがほぼく、品質も安定して高いため、通常はこちらがお勧めです。
WORLD
ピッチシフト・フォルマントシフトなどの加工に強く、適正音域から大きく外れた音にも強いです。
リアルタイム合成が可なため、将来的にはGUIでの調声時に
(省略しています。全て読むにはこのリンクをクリック!)

急上昇ワード

おすすめトレンド