Microsoft がわずか3秒の音声でその人の声をシュミレートする新しい AI を発表

HYPE BEAST

米「Microsoft（マイクロソフト）」が1月15日（現地時間）、人間が話す声のわずか3秒のデータをもとに、その人が話すようにシュミレートしてテキストを読み上げてくれるAI “VALL-E”を発表。「Microsoft」が“ニューラルコーデック言語モデル”と呼ぶVALL-Eの音声合成機能は、7,000人を超えるイングリッシュスピーカーによる60,000時間ものオーディオが含まれている「Meta」のLibri-Lightオーディオライブラリを利用してトレーニングされた。さらに、「Meta」が2022年10月に発表した“EnCodec”に基づいて構築されており、分析した人間の声を“EnCodec”で個別のトークンに分割し、トレーニングデータを使ってトークンが生成されるという。しかしながら、VALL-Eが適切に機能するには、3秒間のサンプルデータの音声がトレーニングデータの音声と正確に一致している必要がある。そのため「Microsoft」は、特定の単語の精度と発音を改善するために、モデルの開発を継続する予定とのこと。現在このコードは、ディープフェイクのリスクがあるため、オープンソースではな…

続きを読む>>Microsoft がわずか3秒の音声でその人の声をシュミレートする新しい AI を発表