コンテンツへスキップ
- Microsoftが公開する「VALL-E X」は、3秒間の音声サンプルから人の声を再現できる音声合成AI。
- VALL-E Xは、ソース言語の音声とターゲット言語のテキストを入力することで、異なる言語で音声を生成できる。
- MicrosoftはVALL-E Xの研究論文や概要を発表しているが、ソースコードや事前トレーニング済みのモデルは公開していない。
- 南洋理工大学の学生であるPlachta氏のチームがVALL-E Xを再現し、ソースコードとモデルをGitHubで公開している。
- Plachta氏のVALL-E Xは英語、中国語、日本語に対応している。
- Plachta氏のVALL-E XのデモはHugging Faceで体験できる。
- VALL-E Xを使用して生成された音声は、元の音声の声色に近いものが生成される。
- Plachta氏のVALL-E Xによって生成された音声の例は、GitHubのデモページでも公開されている。
日本語・英語・中国語でたった3秒の音声から人の声を再現可能なMicrosoftの「VALL-E-X」を独自にトレーニングしたゼロショットモデルが公開中
Microsoftが公開する「VALL-E」は、たった3秒間の音声サンプルから人の声を再現できる音声合成AIです。このVALL-Eで英語以外にも対応した「VALL-E X」を独自にトレーニングしたゼロショットモデルが、GitHubで公開されています。続きを読む…
ソース:https://gigazine.net/news/20230828-plachtaa-vall-e-x/
このVALL-E Xという音声合成AIのプロジェクトは、非常に興味深いものですね。たった3秒の音声サンプルから人の声を再現できるというのは驚くべき技術です。特に、VALL-E Xが日本語にも対応しているというのは素晴らしいです。Plachta氏のチームが独自にトレーニングしたモデルを公開してくれているおかげで、私たちも実際に体験することができます。生成された音声は元の音声に近いものがあり、その再現度にも感心しました。これからの音声合成技術の進化に期待が高まりますね。