音声合成とは、ソフトウェアなどによって人間の声を模した人工の音声を作ることである。
音声合成をおこなうソフトとして、SofTalk(ゆっくりしていってね!!!)やVOCALOID、VOICEROIDなどがニコニコ内外で有名である。
概要
音声合成ソフトというのは、テキストなどによって入力した言葉を読み上げさせるソフトである。
合成音声を作りだす技術として様々な技法が存在するが、あらかじめ記録されている音声データを入力した文字から呼び出し、それらをつなげることで音声を作り出すものが代表的である。
例えば『こんにちは』と入力すると、それを『こ』『ん』『に』『ち』『は』と分解した単語にする。
これらを分析してソフト内に記録された『こ』、『ん』、『に』、『ち』、『は』の音声を呼び出し、それらを順に並べてくっつけ『こんにちは』という音声を作ち出す。
ただし、ただ単語と単語をくっつけただけの『こんにちは』のままでは音のつなぎ目や強弱、抑揚や発音などが不自然になってしまうので、比較的自然に聞こえるよう内部処理をして『こんにちは』という音を作り出している。
この時の音声を合成する技法や、使用している音源によって各社様々なソフトが存在する。
また、VOCALOIDやUTAUのように歌唱をさせる事だけに特化した専用のソフトウェアも存在する。
※ちなみに、人間の肉声は使用せず、人間の声音に近い音声周波を作り出すフォルマント合成という技法も存在する。例:CeVIO、Sinsy
歴史
紀元前~19世紀前半
音声合成そのものの歴史は古く、何世紀にも渡る人類の夢であった。
発明への試みの多くは楽器から始まり、西アフリカに代表されるトーキングドラム等といった代物が開発された。その後、複雑な機構が開発できるような技術が発展した文明などの手によって音声合成を試まれ、何度も母音を発音させられる機械等が発明された。1791年になるとヴォルフガング・フォン・ケンペレンの手により、母音だけでなく子音も発音できる機構が発表され、より人間の発音に近い音声合成を求められる時代となってきたことにより、この発表された機構を利用したおもちゃなどの開発や更なる技術開発へと発展した。
1930年代、ベル研究所のホーマー・ダドリーによりヴォコーダーが開発。現在でもレコーディングや映画、アニメなどに用いられている「独特な機械的な声」を演出できる技術、携帯電話をはじめとする通信用の音声圧縮技術として用いられるその源流となった。
コンピューターの時代へ
ついに1950年代の終盤。コンピューターを用いた音声合成が開発された。
そして、1961年。ベル研究所にてIBM 704を使用し、世界初のコンピューターでの音声合成が行われ、『デイジー・ベル』という曲を歌わせることに成功。この成功はVOCALOIDの祖先の祖先ともいえ、『2001年宇宙の旅』でHAL 9000がこの曲を歌うなど逸話も多い。
その後、1980年代に入ると更にコンピューターへの音声合成の導入・開発が行われ、Mac、AmigaOS、Windowsなどのオペレーションシステム(OS)で使用することができた。
特にこの中でFlash黄金期前後にインターネットを使用していた、インターネット老人会に属するものならば、MacのPlainTalkの音声を聞いたことがないものはいないだろう。2000年代、日本ではゴノレゴをはじめとしたPlainTalkを使用したFlashが有名なものでもいくつか存在し、当時多くの2ちゃんねらーなどを魅力した。
VOCALOID、くまうた、ゆっくり・・・
2000年に入ると後に"VOCALOID"と呼ばれるものの開発プロジェクト「DAISYプロジェクト」が始動。
このプロジェクト名も先述のベル研究所にてIBM 704が歌った『デイジー・ベル』になぞらえている。
2003年にはVOCALOIDとして名前が確立し、発表。2004年にはイギリスを皮切りに日本など世界各国での販売をおこなった。この年、日本では『MEIKO』が発売され、バーチャルイスントゥルメント市場では大ヒットと言われる本数を売り上げることができた。
またその影では2003年にプレイステーション2で"くまうた"が登場。VOCALOIDの先駆けとして、個人が作詞をして歌わせる遊びとそのシステムがこの時点で国内で既に確立していた。
喋らせる技術に関しても進歩を続けており、2006年に"AquesTalk"、2007年には"AITalk"が開発される。"AquesTalk"は後にSofTalkや棒読みちゃんの元に、"AITalk"は後にVOICEROIDの元になった。
そして2007年、キャラクター・ボーカル・シリーズの第一弾として『初音ミク』が満を持して登場。黎明期のニコニコ動画でも一躍その名が知られるようになる。動画投稿サイトやSNS等、国内インターネットから始まってその後世界的なVOCALOIDブームを巻き起こした上に、2008年には飴屋P氏により「人力ボーカロイド」を行うための支援ツール"UTAU"も開発され、ここニコニコ動画をはじめとしたインターネットを舞台にプロ/アマ・国内/国外関係無く、オリジナル曲やMVなどを投稿し盛り上がる文化の土壌が形成された。
2009年になると"VOICEROID"がパッケージ化。2009年12月4日に初のVOICEROID『月読ショウタ』が発売された。2010年代に入ると『東北ずん子』『結月ゆかり』『琴葉茜・葵』などのキャラクターが人気となり、先に盛況を得ていたAquesTalk系音声合成ソフトを利用した「ゆっくり」系動画と並んでニコニコ動画にゆっくり実況プレイ、VOICEROID実況プレイなどの人気動画シリーズを生み出すこととなった。
初期の音声合成はまだ「独特な機械的な声」としてしか発声することはできなかったが、IBM 704を用いた実験以降も開発は現在までに続いている。また、近年の新たな研究・開発によりブレス(吐息)やより人間的な抑揚の再現、チューニングの精度向上などが進んでおり、更なる技術の発展が期待される分野である。
ニコニコ動画での立ち位置
ニコニコ動画では、これらの多彩な音声合成ソフトを使った動画が数多く投稿されており、人気ジャンルのひとつとして幅広く親しまれている。
また専用のソフトを介さずにユーザー自身が直接人力で音声加工を手がけて歌唱や読み上げを行っているものや、歌唱用音声合成ソフトを喋っているように見せる調整を行ったり読み上げ用音声合成ソフトに歌唱を行わせた動画も多数存在する。
前者の例→人力VOCALOID / 暴歌ロイド
後者の例→棒歌ロイド / トークロイド / HANASU / 歌うボイスロイド
各音声にはしばしば、VOCALOIDやゆっくりしていってね!!!などのイメージキャラクターが付随しており、他のキャラクターと垣根なく掛け合いをするなど、独自の文化や世界観を構築するに至っている。
主な音声合成ソフトの紹介
SofTalk(ソフトーク)
音声合成ミドルウェア「AquesTalk」を音声ライブラリとして使用しているフリーソフト。
ニコニコ動画では、ゆっくりしていってね!!!の声によく利用されている。
あくまでテキスト読み上げのソフトなので歌唱させる機能はないが、手作業の加工により歌唱させた動画も存在する。
→本気で歌うゆっくりシリーズ / 棒歌ロイド
VOICEROID(ボイスロイド)
AHSから発売されている音声合成ソフト。
株式会社エーアイが開発した業務用の音声合成エンジンである「AITalk」の派生ソフトである。
パッケージ化された音声は、当初は「AITalk」本来の男子声・女児声を使ったものであったが、
「VOICEROID+」「VOICEROID2」として新たに専用に収録、新規または既存のキャラクターを当てはめたバージョンも発売されている。
詳しくはVOICEROIDを参照。
なお販売会社が違うだけでVOICEROIDと同じAITalkからの派生ソフトである
・音街ウナTalk Ex(株式会社インターネット)
・ガイノイドTalk(株式会社ガイノイド)
・ギャラ子Talk(ヤマハ株式会社)
・A.I.VOICE(※株式会社エーアイの独自レーベル)
も便宜上、広義において「VOICEROID」のくくりに含まれることがある。
これはVOICEROIDという名称が「VOCALOID」と対となる存在として独特の位置にあること、AITalkという本来の名称がVOICEROIDほど一般に浸透していないこと、によるものが大きい。
VOCALOID(ボーカロイド)
入力した歌詞やメロディー、パラメータから歌声を生成するボーカルシンセサイザー。
VOCALOIDの音声合成エンジンはYAMAHAが開発したものであり、ライセンスを受けた各企業によって様々な音声データベースが作成され、パッケージ化されている。
各パッケージキャラクターごとの音声の違いは、ソフト中に組み込まれている音声データデースの違いによるもの。
また「VOCALOID01」「VOCALOID02」といったバージョンによって、使用されているエンジンにも違いがある。
詳しくはVOCALOIDを参照。
UTAU(ウタウ)
元々は人力VOCALOID支援ツールとして端を発する歌声合成のフリーソフト。
つまり50音をWAVEファイルとして録音しその張り合わせ(た音声ライブラリ)によって歌唱を行うのだが、その音源ライブラリは有志によって多種多数が公開・配布されており、この配布されている音源ライブラリを登録し使用することが一般的な利用方法。
連続音の音声ライブラリも配布されており、使用音源とその調整次第では有償の歌声合成ソフトに劣らない歌声合成も可能。
詳しくはUTAUを参照。
CeVIO(チェビオ)
トークと歌声の両方に対応している音声合成ソフト。2013年発表。
音声合成の仕組みとしては、人間の実音声を切り貼りして合成するVOCALOIDなどと異なり、人間が声を出す過程をシミュレートして音声を合成するものであり、口や喉の形、声の大きさや高さなどがパラメータとなる。
CeVIOの音声合成エンジンは名古屋工業大学が開発したものであり、ライセンスを受けた各企業によって様々な音声データベースが作成され、パッケージ化されている。
また、2021年には更にディープラーニング技術を組み込んだ「CeVIO AI」も発売されている。
詳しくはCeVIOを参照。
大百科に記事がある音声合成ソフト/サービスの一覧
ア行 | カ行 | サ行 |
---|---|---|
タ行 | ナ行 | ハ行 |
マ行 | ヤ行 | ラ行 |
|
||
ワ行 | その他 | ※ハードウェア |
関連動画
関連静画
関連ニコニコQ
関連項目
|
外部リンク
子記事
兄弟記事
- なし
- 13
- 0pt
- ページ番号: 4240041
- リビジョン番号: 3298687
- 編集内容についての説明/コメント: