Google GeminiはChatGPTをバックミラーに収めようとしている

知っておくべきこと
- Google が AI エコシステムを強化する新しい AI モデル (GPT-4 と GPT-3 を比較) をリリースしたため、AI 競争が激化しています。
- Google のベンチマークでは、Gemini がいくつかのパフォーマンス メトリックで GPT-4V を上回っていることが示されています。
- Gemini には、Ultra、Pro、Nano の 3 つの形式があります。
- Pixel 8 Proは、Gemini Nanoを通じてGeminiを実装する最初のPixelになります。
- Gemini Pro は、12 月 13 日より Google AI Studio の Gemini API を通じて利用可能になります。
OpenAI で最近、サム・アルトマン氏が解雇され、その後再雇用されるという騒動がありましたが、Google は事態の悪化を察知したに違いありません。というのも、わずか数週間後に Google は GPT-4V よりも強力と思われる新しい AI モデルを発表したからです。
Googleは、Google AIの未来としてGoogle Geminiを発表しました。本日よりBardに搭載され、まもなくGoogleのすべてのAI製品に搭載される予定です。Ultra、Pro、Nanoの3種類のサイズが用意されたGemini 1.0は、他のGoogle製品と同様に、あらゆる場所で活用できるよう設計されています。
Google Geminiとは何ですか?
GoogleはGeminiを「これまでで最も高性能で汎用性の高いモデル」と呼んでいます。これはGoogleのAI製品群を支えるバックエンドモデルであり、3つのサイズでリリースされることが決定されました。
- Gemini Ultra — 非常に複雑なタスクに対応する、Google 最大かつ最も高性能なモデル。
- Gemini Pro — 幅広いタスクにスケーリングできる Google のベスト モデル。
- Gemini Nano — デバイス上のタスクに最適な Google のモデル。
GoogleがGeminiについて謳っているパフォーマンス数値の中には、かなり印象的なものもありますが、テクノロジーの世界で学んだことの一つは、メーカーのベンチマークを信用してはいけないということです。とはいえ、実際に動作しているGeminiの有効性に疑問を抱くのは難しいでしょう。X(Twitter)の@rowancheungがGeminiの動作動画を投稿していますが、その結果はまさに驚異的です。
🚨速報:Google DeepMindがChatGPTの最大のライバルであるGeminiを発表しました。Geminiは、MMLUで人間の専門家を上回り、90%以上のスコアを獲得した最初のマルチモーダルAIです。pic.twitter.com/A7It1hPKGQ 2023年12月6日
Google Gemini のパフォーマンスはどうですか?
Googleは、公開したベンチマークを通じて、Geminiを世界最高のAIモデルだと宣伝しています。これらのベンチマークが第三者機関によるテストに耐えれば、少なくともOpenAIがChatGPT-5をリリースするまでは、Geminiが市場のトップに立つでしょう。現在の経済構造における大きな法則は、企業が最高の製品を求めて競争する中で、消費者が勝利を収めることが多いということです。
ジェミニはOpenAIがイノベーションを推進し続けるよう促すべきだが、明らかに、AIを原子力に例えるサティア・ナデラのようなCEOたちからも、安全性を適切に考慮しない無謀な研究に対する懸念の声が上がっている。
ジェミニ ウルトラは、数学、物理学、歴史、法律、医学、倫理など 57 の科目を組み合わせて世界知識と問題解決能力の両方をテストする MMLU (大規模マルチタスク言語理解) で人間の専門家を上回る成績を収めた初のモデルです。
グーグル
Google Geminiは、Googleが示したほとんどのベンチマークでChatGPT-4Vを上回りました。時には4%以上の差をつけました。中でも最も興味深い名前のHellaSwagは、GeminiがChatGPT-4Vに比べてパフォーマンスが劣っていました。ベンチマークの全リストをご覧ください。
Windows と Xbox の熱狂的なファンのための最新ニュース、レビュー、ガイド。
スワイプして水平にスクロールします
能力 | ベンチマーク | 説明 | ジェミニウルトラ | GPT-4V |
---|---|---|---|---|
一般的な | MMLU | 57科目(STEM、人文科学などを含む)の質問の表現 | 90.0% CoT@32* | 86.4% 5発*(報告) |
推論 | ビッグベンチハード | 多段階の推論を必要とする多様な挑戦的なタスク | 3ショット成功率83.6% | 83.1% 3ショット(API)、 |
行2 - セル0 | 落とす | 読解力(F1スコア) | 82.4 変動ショット | 80.9 3ショット(報告) |
行3 - セル0 | ヘラスワグ | 日常的なタスクのための常識的な推論 | 10ショット成功率87.8%* | 95.3% 10発*(報告) |
数学 | GSM8K | 基本的な算数操作(小学校の算数問題を含む) | 94.4% maj1@32 | 5ショットCoT率92.0%(報告値) |
行 5 - セル 0 | 数学 | 難しい数学の問題(代数、幾何学、微積分学の基礎などを含む) | 53.2% 4ショット | 52.9% 4ショット(API) |
コード | ヒューマンエバル | Pythonコード生成 | 74.4% 0ショット (イタリア)* | 67.0% 無得点*(報告値) |
行7 - セル0 | ナチュラル2コード | Pythonコード生成。HumanEvalに似た新しいデータセットを公開。Web上には公開されていない。 | 74.9% 0ショット | 73.9% ゼロショット (API) |
行8 - セル0 | 行8 - セル1 | 8行目 - セル2 | 8行目 - セル3 | 8行目 - セル4 |
これらのスコアは印象的ですが、平均的な消費者にとってはあまり意味がないかもしれません。GoogleがPixel 8 ProにGemini Nanoを搭載させたことは、デバイス内タスクのモデルとして私にとってより刺激的です。多くのメーカーが、NVIDIAのTensorRT-LLMのようなデバイス内AI機能を自社製品に搭載し始めています。私にとって、これはAIの未来にとってより刺激的な展望です。真のパーソナルアシスタントがスマートフォンに搭載され、AIモデルを個々のニーズに合わせてカスタマイズできるようになるのです。
LLM AIの将来的な応用として最も有望で、実現性も高いと考えられるものの一つは、80年以上前のスタートレック以来、私たち皆が夢見てきたものです。それは、万国共通言語翻訳機です。ChatGPTはすでに翻訳機として機能しますが、翻訳を生成するにはかなり長い処理時間がかかります。現在では、俳優の声をそのままに、声優の声を別の言語に翻訳できるAIモデルが存在します。私はアニメだけでなく、日本や韓国のドラマも大好きなので、テレビのボタンを押すだけで、俳優の声を英語でリアルタイムに聞ける世界があれば最高です。巨大企業がAIの進化を競い合う中で、この現実はますます近づいています。
コルトンは、Windows Centralの読者とテクノロジーへの情熱を共有したいと願う、経験豊富なサイバーセキュリティ専門家です。最新のゼロデイ攻撃から企業を守る活動や、記事を通して自身の考えを発信する活動に携わっていない時は、家族と過ごしたり、PCやXboxでビデオゲームを楽しんだりしています。コルトンは購入ガイド、PC、デバイスの執筆に注力しており、新興テクノロジーやゲームのニュースについて話し合うことを常に歓迎しています。