Microsoft VALL-Eは、AI音声認識の素晴らしい、そして恐ろしい未来を示している

  • abmhh
  • 0 comments
Microsoft VALL-Eは、AI音声認識の素晴らしい、そして恐ろしい未来を示している
Ignite の Microsoft ロゴ
(画像提供:Future)

人工知能は2023年に脚光を浴びることが確実視されており、その漠然とした用語は最近ラスベガスで開催されたCESコンベンションで展示されたさまざまな形のハードウェアやソフトウェアに浸透しており、今後数か月でさらに多くの成果が期待されています。

Lenovo Legion Proなどの刷新されたハイエンドゲーミングノートPCは、Lenovo LAチップを搭載した機械学習を活用し、内部コンポーネントをインテリジェントに管理してパフォーマンスを最大限に引き出す機能を誇ります。同様の自動調整技術は既に他のデバイスにも搭載されているため、この豪華なタイトルは期待外れと言えるでしょう。

それでも、地平線に忍び寄りつつある AI の疑似知覚には別の側面があり、一般大衆に公開された場合、有用性と不正行為がほぼ同等にもたらされる可能性があります。

これまでは説得力がなくロボット的だった

AIを活用し、学習データに基づいて人間の音声を合成する手法は、以前から実用化されてきました。様々な企業が長年にわたりこの技術に取り組み、一般消費者にとってより自然で説得力のある音声を開発してきました。しかし、その成果はほとんどの場合、不気味の谷に陥っているのが現状です。

たとえ基盤となる技術がいかに優れていても、話し言葉の微妙なニュアンスを完璧に表現するのは至難の業です。私たちは皆、微妙なアクセントや抑揚さえも異なる様々な言語を話しており、二人の人間が全く同じ話し方をするということはまずあり得ません。

これは、合成音声がエンターテイメント用途でしか使われていない理由の 1 つであり、たとえば、短編動画で録音された音声を変更したり、人気映画のシーンのコメディ吹き替えで特定の有名なボディビルダーのアクセントを真似したりするといった用途が挙げられます。

健康・医療分野におけるより特化した応用は、この最先端技術のより深い活用を可能にし、発声障害を持つ人々がAIの助けを借りて再び自然な発声を行えるように支援します。スティーブン・ホーキング教授は、DECtalkベースの音声合成技術のデフォルト設定が既に彼のアイデンティティの一部となっていたため、彼の有名なロボット音声を別の音声に置き換える機会を断念したことで有名です。

Windows と Xbox の熱狂的なファンのための最新ニュース、レビュー、ガイド。

もし彼の若い頃の自然な話し声のより包括的な録音が利用可能であったなら、彼は最近の AI の進歩を活用できたかもしれないが、彼自身以外に確かなことは誰にも言えない。

マイクロソフトがVALL-Eを発表

VALL-E音声合成装置の図

VALL-E (画像提供:コーネル大学)

6万時間分の英語音声データを学習させた、VALL-Eと呼ばれる新しいAI合成ツールが、現在マイクロソフト傘下のコーネル大学の研究論文で詳細に発表されました。近年、AIがマイクロソフトにとって重要な焦点となっていることを考えると、このツールの存在自体は特に驚くべきものではありません。今回の真に驚くべき点は、システムが驚くほど説得力のある結果を生成するのに必要な入力がいかに少ないかという点です。わずか3秒の録音データから、元のメッセージとは全く関係のない全く新しいメッセージが生成されるのです。

GitHubで公開されているVALL-Eのデモには、誰でも試聴できる豊富な音声サンプルが含まれており、ぎこちなく不自然なものから完璧に近いものまで、実に様々です。この機械学習エンジンは現在、一般公開されていません。一方、Uberduckのような比較的初歩的な代替エンジンは、現状では楽しいおもちゃ程度の機能しか提供できていません。

デモの最後には、実験に関わった全員が結果に同意・承認したことを説明する一段落の倫理声明が掲載されており、この種の技術は常に全当事者の同意を得る必要があるという暗黙の警告が続いています。VALL-Eがわずかな参照データだけでこれほど興味深い結果をもたらしたことを考えると、オープンワールドでの活用には複雑な意味合いが伴います。

なりすましの含意

Lumiaスマートフォンを使用しているダニエル・ルビーノ

(画像クレジット:ダニエル・ルビーノ|Windows Central)

AIが現実の人間を模倣することに強い関心を持つと、まずはそれが人類をどのように豊かにするのかを想像してしまいます。より自然な話し方をすれば、ロボットのオペレーターに対する嫌悪感を和らげたり、公共スペースの情報パネルに新たな息吹を吹き込んだりできるかもしれません。一般的な情報提供業務を人間味あふれる機械に任せることができれば、消費者との雑談を省くことができるかもしれません。現状では、基本的なソフトウェアに向かってキーワードを叫ぶようなAIが進化を遂げているからです。

ディープフェイク動画はすでに論争を巻き起こしており、デジタルで人物になりすますには付随する音声が唯一欠けている部分だ。

音声合成が創造的および人道的分野に留まることを望む私としては、それがオーディオブックやコミカルなミームのコンテンツの生成にのみ適用されるという現実は、極めてありそうにありません。

たとえマイクロソフトが VALL-E の基本的な仕組みを公表しなかったとしても、十分な時間があれば、他の競合他社が間違いなく同等のものを発明するだろう。

残念なことに、子供の頃に大好きだったビデオゲームやテレビ番組の声優たちが次々と亡くなり、二度と彼らの象徴的な役を聞けなくなるという暗い現実が残されています。もし将来、クリエイティブな才能を持つ人々が自分の声を保存することに同意すれば、この種の技術は刺激的な用途に発展する可能性がありますが、常に悪用される可能性をはらんでいます。厳格なガイドラインと管理がなければ、音声合成の進化ごとに悪質ななりすましが行われる可能性は高まります。

こうした行きつ戻りつした考察は、AIに対する私の疑念を複雑にさせています。生成された音声が本当に問題になるほどリアルになるまで、どれくらいの時間がかかるのだろうかと常に考えてしまうのです。ディープフェイク動画はすでに同様の論争を巻き起こしており、人間をリアルに模倣するには、音声が欠けているのが実のところ事実上唯一の要素です。

慎重に進む

MWC での Microsoft ロゴ

MWCでのMicrosoft (画像提供:Future)

繰り返しになりますが、MicrosoftはAIの可能性を熟知しています。Bingの検索結果やOfficeスイート全体の機能強化を計画していると言われていることから、開発中の技術を買収して先行するのは理にかなっています。私が日々使っているハードウェアやソフトウェアを製造している企業の中で、AIがどのように成長していくのかを見るのは刺激的です。しかしながら、最終的には悪意のある個人やグループによって不穏な形で利用される可能性があるという懸念は常に拭えません。

私は今でもテクノロジーに夢中で、こうした進歩は、私たちの日常生活をどう向上させてくれるのか、いつも夢見させてくれます。とはいえ、成人してからは毎日のようにインターネットを使ってきましたが、新しいソフトウェアの意図と実際の使い方が一致しないこともあるのを目の当たりにしてきました。

いつか、私の肉体のない声がすべての記事を読み上げてくれる日が来るかもしれません。でも今は、MicrosoftがExcelスプレッドシートをもっと使いやすくするために何を計画しているのか見守るしかありません。もしかしたら、Cortanaがもっとおしゃべりに復活するかもしれません。どうなるかは分かりませんが。

ベンはWindows Centralのシニアエディターとして、テクノロジーのハードウェアとソフトウェアに関するあらゆる情報を網羅しています。最新のWindowsノートパソコン、カスタムゲーミングデスクトップの内部コンポーネント、そしてPCやXboxと互換性のあるあらゆるアクセサリを定期的にハンズオンで使用しています。ガジェットを分解して仕組みを解明することに生涯を捧げてきたベンは、家電量販店とテクニカルサポートで10年間の経験を積んだ後、テクノロジー専門のジャーナリズムの道へと進みました。