ハリウッド、気をつけろ!OpenAIの最新モデルは、1分間のリアルなAI動画を生成しているが、いくつか重大な欠陥がある…
知っておくべきこと
- OpenAIは最近、ビデオ生成機能を備えたSoraと呼ばれる新しいAIモデルを発表しました。
- テキストからビデオへの変換モデルは、高品質を維持し、ユーザーのプロンプトに従いながら、最長 1 分間のビデオを生成できます。
- しかし、ソラは複雑なシーンの物理をシミュレートし、原因と結果の具体的な例を理解するのに苦労しています。
今年初め、マイクロソフトのビル・ゲイツ氏とOpenAIのサム・アルトマン氏が「Unconfuse Me」ポッドキャストで対談しました。二人の革命的なリーダーは、アルトマン氏の解雇と再雇用、GPT-5の開発、スーパーインテリジェンスなど、ChatGPTメーカーを取り巻くあらゆる話題について議論しました。
サム・アルトマン氏は、多くのユーザーから最も要望が多かったビデオ機能を、同社のAI搭載チャットボットに搭載する可能性についても言及した。また、この追加機能は既存の音声モードと画像生成機能をさらに強化するものだと付け加えた。
そして今、この情報を共有してからわずか1か月後、OpenAIはSoraと名付けられた新しいテキスト動画変換モデルを発表しました。このAIモデルは「画質を維持しながら、ユーザーの指示に従いながら、最長1分間の動画を生成できる」とのことです。
テキストプロンプトから1分間の動画を作成するモデル「Sora」の発表: https://t.co/SZ3OxPnxwz pic.twitter.com/0kzXTqK9bG 2024年2月15日
このモデルはすぐに誰でも利用できるわけではないことに注意が必要です。OpenAIは、このツールを「レッドチーム」と呼ばれる、危害やリスクの可能性のある領域を評価するビジュアルアーティスト、デザイナー、映画制作者に限定して配布しています。
さらに、これにより、映画業界の熟練した専門家がフィードバックを提供し、OpenAI がモデルを進化させ、改善するための新しい方法を提案する手段が生まれます。
Soraは、複数のキャラクター、特定の種類のモーション、そして被写体と背景の正確な詳細を含む複雑なシーンを生成することができます。このモデルは、ユーザーがプロンプトで要求した内容だけでなく、それらが物理世界にどのように存在するかまで理解します。
オープンAI
このモデルは言語を深く理解しており、テキストプロンプトを解釈してリアルなキャラクターを正確に生成することができますが、OpenAI はモデルにもかなりの弱点があることも認めています。
同社は、このモデルが複雑なシーンの物理特性をシミュレートする際に課題に直面する可能性があると指摘した。また、因果関係の具体的な事例を理解するのにも苦労する可能性がある。OpenAIがこの前提をさらに説明するために示した例によると、「人がクッキーを一口食べたとしても、その後、クッキーに噛み跡が残らない可能性がある」という。
Windows と Xbox の熱狂的なファンのための最新ニュース、レビュー、ガイド。
Soraは、「登場人物とビジュアルスタイルを正確に再現する」複数のショットを含む動画を生成する機能も備えています。しかし、プロンプトの空間的な詳細に関しては、不十分な場合があります。例えば、右と左を判別したり、時間の経過とともに起こる特定の出来事を判別したりするのが困難な場合があります。
AIはより多くの職業を時代遅れにするかもしれない
厳しい経済状況に加え、雇用の安定に悪影響を与える要因として、生成型AIが僅差で二番目に挙げられます。Microsoft CopilotやChatGPTといったAI搭載チャットボットは、既にジャーナリストの仕事を奪っています。複数の報道機関がこれらのAIチャットボット導入のために従業員の一部を解雇し、大混乱に陥った事例も見受けられます。マイクロソフトは、ジャーナリストがAIを導入する将来のニュースルームで活躍できるよう、スキルを身につけるための新しいプログラムを導入しました。
関連: AI生成記事がフードバンクを観光名所として推奨
MicrosoftのDesigner(旧Bing Image Creator)のImage CreatorのようなAI搭載ツールでさえ、プロジェクトの設計能力が向上しています。これにより、建築関連の仕事が不要になり、時代遅れになる可能性があります。
確かに、Soraで生成された動画を誰かに見せられたとしても、AIが生成したものだとは想像もできなかったでしょう(それほど素晴らしい動画です)。動画の長さは現在1分までに制限されていますが、お気に入りの番組のエピソード全体を生成できるようになるのは時間の問題です。
OpenAIは、モデルを一般公開する前に、誤情報や憎悪的なコンテンツ、偏見の発生を防ぐための綿密な対策に取り組んでいることを明らかにした。
ケビン・オケムワは、ケニアのナイロビを拠点とするベテランのテクノロジージャーナリストです。Windows Centralで業界の最新トレンドや動向を幅広く取材し、豊富な経験を有しています。イノベーションへの情熱と細部への鋭い洞察力を持つ彼は、OnMSFT、MakeUseOf、Windows Reportといった主要メディアに寄稿し、Microsoftエコシステムを取り巻くあらゆるトピックについて、洞察力に富んだ分析と最新ニュースを提供しています。常に変化するテクノロジーのトレンドを追っている暇な時は、世界を旅したり、音楽を聴いたりしています。