1分の録音データから声のクローンを作れます。カナダのAIスタートアップLyrebird発表 

tag:


カナダのAI(人工知能)スタートアップLyrebirdは、人間の声を模倣し、イントネーションの変化によって感情を表現しながらテキスト読み上げができるアルゴリズムを発表しました。注目点は、模倣に必要な音声データはたった1分で十分ということ。昨年11月に同様の技術をAdobe社も発表しましたが、そのプロジェクトVoCoでは20分間の録音データが必要でした。

LYREBIRD | https://lyrebird.ai/

Eerie tech promises to copy anyone’s voice from just 1 minute of audio| https://thenextweb.com/apps/2017/04/24/eerie-tech-promises-promises-to-copy-anyones-voice-from-just-1-minute-of-audio/#.tnw_Dlriumhr

114a06b02f38d240a819db74ec557331_s

via: photo AC

ディープラーニング(深層学習)をもとにしたこのアルゴリズムは、音声のサンプルデータからその音声を定義づけるユニークキーを算出します。このキーがあれば、各キーに対応する音声で自由自在にスピーチが生成できるそうです。
またこのAPIは録音サンプルデータに雑音が入っていても、学習可能とのこと。

 

どんな音声?

ちなみにLyrebirdサイトのDemoページで、ドナルド・トランプ、バラク・オバマ、ヒラリー・クリントンの合成音声スピーチを聞くことができます。 2017-04-26_1000

 また様々な感情を表現したサンプルも聞くことができます。
2017-04-26_1001

 

悪用される心配は?

Lyrebirdの公式サイトではこの音声技術の倫理的問題について、「この音声合成技術を一般に公開し、だれでも利用可能にすることで、合成音声を悪用される被害を回避できるようにしたいのです。このような技術が存在し、だれかの声をコピーすることが可能であることを皆さんに知ってもらいたいのです。さらに言えば、近い将来音声記録は証拠として用いるには不十分になる可能性があるということについて、より注意換気したいのです。」と記載してあります。

2017-04-26_0945

 

現在はベータ版のみ公開されています。

 

 

 

 

 

 


Comments are closed.