マイクロソフトは、「rStar-Math」が小規模言語モデル(SLM)がOpenAI o1の数学的推論能力に匹敵、あるいはそれを上回ることを実証したと述べている。+4.5%

  • abmhh
  • 0 comments
マイクロソフトは、「rStar-Math」が小規模言語モデル(SLM)がOpenAI o1の数学的推論能力に匹敵、あるいはそれを上回ることを実証したと述べている。+4.5%
Android フォン上の OpenAI ロゴ。
OpenAIのロゴ。 (画像提供:ゲッティイメージズ | SOPA Images)

マイクロソフトは、 rStar-Mathと呼ばれる新しい推論技術を最近開発したことで、小規模言語モデル(SLM)において飛躍的な進歩を遂げた可能性がある。この技術はSLMの機能を強化し、OpenAIのo1推論モデルの数学推論能力に匹敵し、あるいは凌駕することを可能にする。しかも、上位モデルからの抽出なしに。

arXiv.org に掲載された研究論文によると、

「rStar-Math は、モンテ カルロ ツリー検索 (MCTS) を通じて「深い思考」を実行することでこれを実現します。MCTS では、数学ポリシー SLM が SLM ベースのプロセス報酬モデルによってガイドされるテスト時の検索を実行します。」

MCTSを通じて、 rStar-Mathは複雑なタスクやクエリを段階的に批判的に分析できるため、SMLによる数学問題の解決が容易になります。さらに、研究者たちは、モデルに自然言語記述やPythonコードを含む思考の連鎖を示すよう要求することで、深い思考をさらに一歩進めています。

この手法には、SLM トレーニングを悩ませる問題を軽減するために設計された次の 3 つの革新が特徴となっています。

  • 新しいコード拡張 CoT データ合成方法では、広範な MCTS ロールアウトを実行して、ポリシー SLM のトレーニングに使用される段階的に検証された推論軌跡を生成します。
  • 単純なステップレベルのスコア注釈を回避し、より効果的なプロセス選好モデル (PPM) を生み出す、新しいプロセス報酬モデル トレーニング方法。
  • ポリシー SLM と PPM をゼロから構築し、反復的に進化させて推論機能を向上させる自己進化レシピ。

研究論文ではさらに、74万7千問の数学問題に対して数百万通りの合成解法を用いた4回の自己進化について詳細に説明されており、rStar-Mathは数学推論を最先端レベルにまで向上させます。公開されたベンチマークによると、この技術はQwen2.5-Math-7Bを58.8%から90.0%に、Phi3-mini-3.8Bを41.4%から86.4%にスケールアップしました。興味深いことに、これによりSMLはOpenAIのo1推論モデルをそれぞれ+4.5%と+0.9%上回りました。最終的に、この技術は問題の3.3%を解き、アメリカ招待数学試験(AIME)の高校生参加者の中で上位20%に入りました。

Hugging Faceは、研究者たちがrStar-MathをGitHubで公開する計画を強調しました。しかし、論文の研究者の一人であるLi Lyna Zhang氏は、コードは「オープンソースリリースに向けた審査プロセス中」であると示唆しました(Venture Beat経由)。「リポジトリは今のところ非公開です。今後の展開にご期待ください!」と研究者は付け加えました。

Windows と Xbox の熱狂的なファンのための最新ニュース、レビュー、ガイド。

マイクロソフトは昨年4月、GPT-3.5と同等の機能を備えながらも、より小型の軽量AIモデル「Phi-3 Mini」を発表しました。GPT-4や他の大規模言語モデル(LLM)よりも少ないデータで学習しますが、Llama 2などの大規模モデルよりも優れた性能を発揮します。

続きを読む: OpenAI o1はコーディングの棺に打ち込む最後の釘になるかもしれない

マイクロソフトの画期的な技術は、規模が大きければ良いというわけではないことを証明し、効率性とパフォーマンスの向上につながる可能性を秘めています。これは、次世代AIモデルを稼働させるために必要な膨大な計算リソースに関する懸念の一部に対処します。

ケビン・オケムワは、ケニアのナイロビを拠点とするベテランのテクノロジージャーナリストです。Windows Centralで業界の最新トレンドや動向を幅広く取材し、豊富な経験を有しています。イノベーションへの情熱と細部への鋭い洞察力を持つ彼は、OnMSFT、MakeUseOf、Windows Reportといった主要メディアに寄稿し、Microsoftエコシステムを取り巻くあらゆるトピックについて、洞察力に富んだ分析と最新ニュースを提供しています。常に変化するテクノロジーのトレンドを追っている暇な時は、世界を旅したり、音楽を聴いたりしています。