DiffSinger単語


ニコニコ動画でDiffSingerの動画を見に行く
ディフィシンガー
1.3千文字の記事
  • 2
  • 0pt
掲示板へ

DiffSingerとは、浅い拡散メカニズム(拡散モデル)を利用した歌合成である。

概要

DiffSingerは2021年に論文が発表され、2022年1月17日にPytorch版の公式実装Github開された。その後OpenVPI版のフォークが作成された。現在最新版はVer2.4.0である。

更に他のユーザーによりOpenVPI版を元にGoogleColabで利用できる学習ノートブック
個人のPCで利用可学習ツールDiffTrainerが開されている。

個人で作成可AI歌唱合成として人気があり様々なユーザーから音が配布されている。

対応エディター現在OpenUtauのみのため利用にはOpenUtauが必須である。

関連リンクに各種リポジトリ、ツールリンクを掲載しています。

利用方法

DiffSingerの音(音響モデル)を簡単に利用するにはOpenUtauを利用する必要がある。

  1. 最新版のOpenUtauダウンロードする。
  2. OpenUtauWikiのDiffSinger supportページから
    nsf_hifigan vocoderをダウンロードする。
  3. nsf_hifigan.oudepOpenUtauメインウィンドウにドラッグアンドドロップで
    インストールすることで利用可になる。
  4. お好きな音ダウンロード
    メインウィンドウにドラッグアンドドロップでインストールすることで利用可になる。

特徴

まず、DiffSingerは拡散モデルではあるが
画像作成AIと異なり作為に大量に音データを収集して作る必要はない。

な特徴としてマルチスピーカーと言われる物があり、
一つのに複数の質や複数の言語を学習できる。

学習データを相互に組み合わせることで日本語話者の英語フランス語
中国語話者や英語話者で日本語といったクロスリンガル実装である。

また、質を別々に学習させることでUTAUで言う統合音のような事もできる。

OpenUtau質を操作する場合は表情編集部分のCLR:VoiceColorタブのラジオボタン
ノートごとに設定できる。

他にも表情設定から選択している音の表情を追加できる。
追加したVoiceColorカーブ曲線)編集の形を取っており
カーブを書き換えることで質の適応度合いや質を混ぜる事ができる。

他にもの音によって以下の表情をカーブ編集で操作できる。

関連動画

ニコニコ動画投稿されている配布、アップデート動画

日本語話者による音源

他言語話者による音源

Youtubebillbillでより多種多様な音開、配布されている

関連リンク

関連項目

関連記事

親記事

子記事

  • なし

兄弟記事

【スポンサーリンク】

  • 2
  • 0pt
記事編集 編集履歴を閲覧

ニコニ広告で宣伝された記事

この記事の掲示板に最近描かれたお絵カキコ

お絵カキコがありません

この記事の掲示板に最近投稿されたピコカキコ

ピコカキコがありません

DiffSinger

まだ掲示板に書き込みがありません…以下のようなことを書き込んでもらえると嬉しいでーす!

  • 記事を編集した人の応援(応援されると喜びます)
  • 記事に追加して欲しい動画・商品・記述についての情報提供(具体的だと嬉しいです)
  • DiffSingerについての雑談(ダラダラとゆるい感じで)

書き込みを行うには、ニコニコのアカウントが必要です!