Microsoft は、静止画像を「話す」画像に変換できる最先端の AI ツールで OpenAI の Sora に対抗します。

知っておくべきこと
- Microsoft は、AI 機能を活用して静止画像を短いクリップに変換できる新しいツール、VASA をリリースしました。
- このフレームワークは、遅延が無視できるほど小さい 40 FPS で 512x512 ビデオをサポートします。
- マイクロソフトは、このツールを一般公開する前に、責任を持って使用されるようにするためのさまざまな手段を模索している。
Microsoft は最近、VASA を発表しました。これは、「単一の静止画像と音声オーディオ クリップを与えると、魅力的な視覚感情スキル (VAS) を備えた仮想キャラクターのリアルな会話顔を生成する」新しいフレームワークです。
VASA-1は、音声クリップと完璧に同期した唇の動きを生成することで、静止画像を短いクリップに変換できます。興味深いことに、この高度な最先端技術は、「顔の多様なニュアンスと自然な頭の動きを捉え、本物らしさと生き生きとした印象を与える」ことで、AIが生成した作品をリアルに再現します。
Microsoft の VASA はディープフェイクの蔓延を促進するでしょうか?
AIの台頭に伴い、ソーシャルメディアプラットフォーム上でディープフェイクが増加し、選挙に関するAI生成の誤情報も広まっています。さらに、静止画からリアルな顔や頭部の動きを再現した高画質動画を作成できるVASA-1のような高度なツールが登場したことで、インターネット上の事実に基づいた信頼できるニュースや情報にどのような影響が及ぶのか、大きな懸念が高まっています。
このツールは、512x512ピクセルの動画を最大40fpsでサポートし、遅延はごくわずかです。実は最近、LinkedInでMicrosoftのVASAで生成された動画に似た動画を見つけました。その動画は、声のトーン、唇の動き、頭の動きなど、いくつかの点でかなりずれていることに気づきました。
AIの活用が進むにつれ、VASAやDesignerのImage Creatorといったツールは、画像やクリップの生成能力を向上させるでしょう。これらのツールは構造設計の生成に優れているため、構造設計を時代遅れにしてしまう可能性があるため、建築環境業界の専門家の間では既に懸念が高まっています。
先日、カナダの人気ラッパーが、故人の遺族の許可なくAIを使って故人の声を使ったヴァースを生成し、それを楽曲に使用したという奇妙な事件を報じました。同様に、ディストラックのフロウは不自然でしたが、故人の声は不気味でした。
マイクロソフトは、ツールの提供物が責任を持って使用されるよう規制し、保証するための綿密な対策が整うまでは、「オンライン デモ、API、製品、追加の実装詳細、または関連する提供物」をリリースする予定はないとしている。
Windows と Xbox の熱狂的なファンのための最新ニュース、レビュー、ガイド。
ケビン・オケムワは、ケニアのナイロビを拠点とするベテランのテクノロジージャーナリストです。Windows Centralで業界の最新トレンドや動向を幅広く取材し、豊富な経験を有しています。イノベーションへの情熱と細部への鋭い洞察力を持つ彼は、OnMSFT、MakeUseOf、Windows Reportといった主要メディアに寄稿し、Microsoftエコシステムを取り巻くあらゆるトピックについて、洞察力に富んだ分析と最新ニュースを提供しています。常に変化するテクノロジーのトレンドを追っている暇な時は、世界を旅したり、音楽を聴いたりしています。