マイクロソフトの新しい音声合成機能は、より「リアルで、生き生きとして、魅力的」です。

知っておくべきこと
- Microsoft は最近、会話シナリオ向けに設計された 4 つの「超リアルな」音声合成音声を導入しました。
- これらには、en-US-AndrewNeural、en-US-BrianNeural、en-US-EmmaNerual、zh-CN-YunjieNeural が含まれ、米国東部、東南アジア、西ヨーロッパの 3 つのリージョンでパブリック プレビューが利用可能です。
- マイクロソフトは、新しい音声が「リアルな音声インタラクションを必要とするあらゆるアプリケーション」を補完するものになると自慢している。
- 新しい音声は、インタラクションをよりリアルで魅力的なものにすることで、インタラクションの強化に役立ちます。
マイクロソフトによると、AIとその能力が世界中で飛躍的に発展するにつれ、「テキスト読み上げ音声における自然さと表現力」への需要が高まっているという。同社は最近、en-US-AndrewNeural、en-US-BrianNeural、en-US-EmmaNerual、zh-CN-YunjieNeuralの4つの新しい音声を発表した。
同社は、新しい音声は会話シナリオ向けに設計されており、ユーザーインタラクションが「よりリアルで、生き生きとして、魅力的」になることを目指していると述べた。4つの新しい音声は、米国東部、東南アジア、西ヨーロッパの3つの地域でパブリックプレビューとして利用可能となっている。
一般的な目的のために設計された既存の音声と会話に最適化された新しい音声の違いをわかりやすくするために、Microsoft は、新しく組み込まれた音声のさまざまな特徴を紹介するデモもいくつか含めました。
Microsoft は、Azure Speech SDK、REST API を使用し、Azure Bot Framework の機能を活用して新しい音声合成 (TTS) 音声を使用できるインテリジェント ボットを開発することで、Azure OpenAI 経由で既存のアプリケーションに音声を統合できると説明しました。
私たちはまず、それぞれの音声のペルソナを、まるで実在の人物のように作り上げることから始めました。まるで親しみやすく人生に対して楽観的で、常に他者を助け、興味深い知識や実用的な知識を共有することに熱心です。音声の話し方は、まるでお茶を飲みながら知り合いと会話しているような、自然で誇張のないトーンです。さらに、AI音声の品質向上のため、音声合成(TTS)モデリング技術を継続的に強化しています。DelightfulTTS 2やMuLanTTSといった最新プロジェクトでは、AI音声とプロの人間の録音との品質差を大幅に縮め、これまで以上に自然でリアルな音声を実現しました。これらの技術革新は、これらの新しいAI音声の基盤となっています。
マイクロソフト
自然で表現力豊かなタッチを加える
AIは数々の成功と挫折を経験してきましたが、後者の傾向が顕著です。チャットボットの知能が低下し、精度とユーザー数も減少しているという報告が複数あります。
新しい音声のデビューは、このトレンドにプラスの影響を与えるかもしれません。マイクロソフトは「140以上の言語と地域をカバーする400種類以上のニューラル音声を提供」しており、その数は今後拡大していくと思われます。
Windows と Xbox の熱狂的なファンのための最新ニュース、レビュー、ガイド。
ケビン・オケムワは、ケニアのナイロビを拠点とするベテランのテクノロジージャーナリストです。Windows Centralで業界の最新トレンドや動向を幅広く取材し、豊富な経験を有しています。イノベーションへの情熱と細部への鋭い洞察力を持つ彼は、OnMSFT、MakeUseOf、Windows Reportといった主要メディアに寄稿し、Microsoftエコシステムを取り巻くあらゆるトピックについて、洞察力に富んだ分析と最新ニュースを提供しています。常に変化するテクノロジーのトレンドを追っている暇な時は、世界を旅したり、音楽を聴いたりしています。