お気に入りのCopilot機能をOllamaに置き換えようとしたが、失敗した（ある意味）

Howero
abmhh
0 comments

ウェブページの要約作成においては、Copilot は依然として絶対的な王者です。（画像提供：Windows Central）

子どもを産んでから、この世界で学んだことの一つは、時間は貴重だということです。具体的には、私が毎日読むウェブページの量のことです。リサーチ、ニュースやレビューを読む、特定のデータを抽出するなど、この業界で働いていると、大量のコンテンツを読むことになります。

Copilotは要約作成に非常に優れており、どんどん良くなっています。以前は、何を探しているのか、どのような形式で情報を取得したいのかを細かく指定する必要がありました。今では、Copilotが全てを完璧に、しかもうまくやってくれます。

しかし、私は最近、Copilot、ChatGPT、Google Gemini などに全面的に頼るのではなく、Ollama や LM Studio などのローカル AI をもっと実験しています。

この機能を再現する方法の多くはPythonを使用しているようです。少しいじくり回すことには抵抗はありませんが、今回は、私が求めている機能を実現できるシンプルでブラウザベースの方法があるかどうかを確認したかったのです。

良いニュースは、何かを見つけたことです。悪いニュースは、このタスクに関してはまだCopilotほど優れていないということです。

後ろにはOllama、前にはPage Assist

サイドバーの Page Assist を使用して、Ollama を利用した現在開いている Web ページを操作します。 — Page Assistは、ブラウザ上でOllamaのフロントエンドとして動作し、現在開いているウェブページを操作できる素晴らしいアプリです。(画像提供: Windows Central)

解決策を探していたところ、Chromeウェブストア（またはMicrosoft Edgeアドオン）にあるブラウザ拡張機能「Page Assist」を見つけました。これは単なる拡張機能ではなく、OllamaのGUIフロントエンドとして機能するフル機能のウェブアプリです。

非常に便利で、機能が満載です。ここにはない機能もあるかもしれませんが、それが何なのかはまだ分かりません。地元のLLMとのやり取りや管理が非常に楽になり、公式のOllamaアプリよりも大幅に進化しています。

Windows と Xbox の熱狂的なファンのための最新ニュース、レビュー、ガイド。

とはいえ、ここで私が興味を持っているのは完全なインターフェースではありません。金の卵はサイドバーにあり、現在開いているウェブページを操作できる機能があります。見つけました！

Page AssistはOllamaのインストールを自動的に認識しますが、Webページと通信させるにはもう少し作業が必要です。RAGが必要です。

Page Assist を使用して Ollama に新しいモデルをダウンロードします。 — Page Assistを使用すると、Ollamaアプリやコマンドラインにアクセスすることなく、新しいモデルを追加できます。(画像提供: Windows Central)

検索拡張世代。私自身もまだ理解できていないので、説明はしません。IBMのこちらの記事など、私が説明するよりもずっと分かりやすい記事はたくさんあります。

Page Assistを使ってWebページと通信するには、Ollamaに埋め込みモデルを取り込む必要があります。アプリはNomic Embedを推奨しているので、簡単にできます。そこで、Page Assistの設定から「モデルの管理」メニューを開き、新しいモデルを追加して、ボックスに「nomic-embed-text:latest」と入力しました。

残りのステップは、サイドパネルの起動方法を理解することです。デフォルトでは、右クリックメニューにあります。つまり、話したいページを開いて右クリックし、サイドパネルを開いてチャットを始めることができます。

良いですが、Copilotほど良くはありません

視覚を備えた LLM を使用して、Ollama 搭載の Page Assist で開いている Web ページ上の画像を説明します。 — Gemma 3やLlama 3.2 Visionなどの視覚機能を備えたLLMをお持ちであれば、Page Assistを使ってページ上の画像についても説明できます。ただし、必ずしも正しく理解できるとは限りません。(画像クレジット: Windows Central)

実際に機能するのでしょうか？はい、機能します。ただし、残念ながらCopilotほどは機能しません。

まずは良い点から。様々なモデルを使ってテストしたところ、確かに記事を要約できました。モデルが大きいほど、精度も向上します。gemma3:1bがgpt-oss:20bと同等のことができると考えるのは愚かなことです。しかし、ウェブ記事の要約という点では、私の期待通りの働きをしてくれています。

画像認識機能を持つモデルを読み込めば、画像認識も行われます。上の画像のように、小さなモデルを使うべきではなかったかもしれません。しかし、画像認識やOCRなどの機能は問題なく動作します。

ここまでは順調です。しかし、最大の問題は、ウェブページから別のページに移動したことを認識してくれないようです。私の使い方は、速読モードの場合はサイドパネルを開いたままにして、ページを移動するたびにプロンプトを再表示することです。

Windows Central の記事を要約して Copilot と Ollama を比較すると、明らかに Copilot の方が質が高く、応答形式も優れています。 — 同じWindows Centralの記事を要約するように求められた際の、Copilotとgpt-oss:20bの違いの例。(画像提供: Windows Central)

新しいチャットを開始したり、モデルに前の記事を忘れるように指示したりしない限り、新しい記事を見て要約しても、前の記事の内容に基づいて同じことを繰り返してしまいます。致命的というわけではありませんが、煩わしいです。

これまで試したどのモデルも、Copilotほど詳細な品質分析を提供してくれませんでした。もちろん要約が欲しいところですが、Copilotは最初から具体的な指示を出さなくても、より詳細な要約を提供してくれます。

時間をかけてもっと良いものを作れるようになるとは思いますが、それはこれからの課題です。そして、これはスピードと利便性が重要です。Copilotははるかに会話的なのに対し、これらのローカルモデルは非常に実務的な印象です。

今回のケースでCopilotが気に入っているもう一つの点は、フォローアップの質問をいくつか提供してくれることです。いつも使っているわけではありませんが、時々、ひらめきが起こり、その質問の一つが、私が考えもしなかった視点を提示してくれることがあります。

オンラインAIに固執するかもしれないケース

Windows Central の記事の副操縦士による要約で、3 つのフォローアップの質問が表示されています。 — Copilot からのフォローアップ提案は気に入っています。(画像提供: Windows Central)

オンラインAIではなくローカルAIを使うべき理由はいくつかあります。しかし、今回の場合、要約してもらいたいウェブページを読むにはオンラインである必要があります。ですから、現状のままでうまく機能する限り、使い続ける理由はありません。

それでも、皆さんにはローカルAIについて調べてみることを強くお勧めします。個人的には、今、その大きな部分は教育です。毎日何か新しいことを学んでいます。

この記事で論じてきたことを実践していく中で、Ollamaの新しいお気に入りの使い方も見つけました。Page Assistは素晴らしいので、今後、その機能をもっと深く掘り下げてみて、もっと詳しく書くつもりです。

でも、仕事中は、この作業にはオンラインツールを使うつもりです。少なくとも今のところは。

リチャード・ディバインは、10年以上の経験を持つWindows Centralの編集長です。元プロジェクトマネージャーであり、長年のテクノロジー愛好家でもある彼は、2011年にMobile Nationsに入社し、Windows Centralに加え、Android CentralやiMoreでも活躍しています。現在は、このサイトであらゆる種類のPCハードウェアとレビューの取材を担当しています。Mastodonでは、mstdn.social/@richdevine でフォローできます。