たった数秒の音声データから音声合成が可能な「VoiceCraft」
たった数秒の音声データから音声合成が可能な「VoiceCraft」 テキサス大学オースティン校を中心とした研究チームが、訓練データにないタスクをこなすゼロショットでの音声編集や音声の合成ができるAIの「VoiceCraft」を発表しました。 VoiceCraft https://jasonppy.github.io/VoiceCraft_web/ 今回発表された「VoiceCraft」は、テキストと画像のマルチモーダルモデルから着想を得て、ゼロショットでのテキストから音声の出力(Text-to-Speech)や音声合成、音声の編集を可能にしたニューラルコーデック言語モデル(Neural Cod