DiffSingerとは、浅い拡散メカニズム(拡散モデル)を利用した歌声合成である。
概要
DiffSingerは2021年に論文が発表され、2022年1月17日にPytorch版の公式実装がGithubで公開された。その後OpenVPI版のフォークが作成された。現在最新版はVer2.4.0である。
更に他のユーザーによりOpenVPI版を元にGoogleColabで利用できる学習にノートブックや
個人のPCで利用可能な学習ツールDiffTrainerが公開されている。
個人で作成可能なAI歌唱合成として人気があり様々なユーザーから音源が配布されている。
対応エディターは現在OpenUtauのみのため利用にはOpenUtauが必須である。
関連リンクに各種リポジトリ、ツールのリンクを掲載しています。
利用方法
DiffSingerの音源(音響モデル)を簡単に利用するにはOpenUtauを利用する必要がある。
- 最新版のOpenUtauダウンロードする。
- OpenUtauのWikiのDiffSinger supportページから
nsf_hifigan vocoderをダウンロードする。 - nsf_hifigan.oudepをOpenUtauのメインウィンドウにドラッグアンドドロップで
インストールすることで利用可能になる。 - お好きな音源をダウンロード
メインウィンドウにドラッグアンドドロップでインストールすることで利用可能になる。
特徴
まず、DiffSingerは拡散モデルではあるが
画像作成AIと異なり無作為に大量に音声データを収集して作る必要はない。
主な特徴としてマルチスピーカーと言われる物があり、
一つの音源に複数の声質や複数の言語を学習できる。
学習データを相互に組み合わせることで日本語話者の声で英語やフランス語、
中国語話者や英語話者で日本語といったクロスリンガルを実装可能である。
また、声質を別々に学習させることでUTAUで言う統合音源のような事もできる。
OpenUtauで声質を操作する場合は表情編集部分のCLR:VoiceColorタブのラジオボタンで
ノートごとに設定できる。
他にも表情設定から選択している音源の表情を追加できる。
追加したVoiceColorはカーブ(曲線)編集の形を取っており
カーブを書き換えることで声質の適応度合いや声質を混ぜる事ができる。
- Gender(フォルマント)
- Tension(声の強弱、息の量)
- Energy(声の強弱)
- Breathiness(息の量)
- Voicing(有声化度合い)
- Velocity(発音速度)
- Pitch Expressiveness(ピッチ表現力)
関連動画
日本語話者による音源
他言語話者による音源
Youtubeやbillbillでより多種多様な音源が公開、配布されている
関連リンク
関連項目
親記事
子記事
- なし
兄弟記事
- UTAU
- SynthesizerV
- ソフトウェアシンガー
- NEUTRINO(歌声合成エンジン)
- バーチャルシンガーソフトウェア
- VoiSona
- ボカロ
- ボカロイベント(ネット)
- ボカロイベント(リアル)
- ボカロ・歌声合成ソフトウェア関連タグ
- ボカロ界の出来事の一覧
- ボカロ曲
- VOCALOID
- Maghni AI
- ワンダーホルン(音声合成)
▶もっと見る
- 2
- 0pt


