今日、アップルの開発者たちは、音声アシスタントがコマンドを理解し反応する方法を根本的に変え、改善するという世界的な目標を掲げている。
同社の研究者は最近、ReALM(Reference Resolution as Language Modeling)と呼ばれる人工知能システムを一般向けに発表した。
専門家たちに課せられた課題のひとつは、人が母国語で与えた命令をニューラル・ネットワークが理解する能力を抜本的に向上させること、そして、これらの命令に迅速かつ効率的に反応し、実行することだった。
開発者たちは、ReALMが状況の文脈からしか理解できない曖昧なコマンドや多値のコマンドを解読できることを実現した。 しかし、このソフトウェアは現在、デバイスと人との間に最も直感的で自然な関係を提供することができる。
ニューラルネットワークや音声アシスタントの主な問題のひとつは、話し言葉や書き言葉の仮定、言い回し、比喩、その他の要素を十分に高いレベルで理解・解釈できないことだった。
また、現代のニューラルネットワークには 、”it”、”they”、”that “といった、人々がテキストを簡単にナビゲートするために使用する代名詞を理解するという問題もある。
例えば、あるユーザーがSiriに 「冷蔵庫にあるものからヘルシーなレシピを探して。
ReALMを使えば、デバイスは画面上の情報(冷蔵庫の中身)を理解するだけでなく、あなたの個人的な好み(キノコが嫌い)も記憶する。 これらのパラメータを適応させることで、レシピ検索のコンテキストを広げることができる。
ReALMはすでにこの問題を部分的に解決し始めている。人工知能が、人が話した言葉とスマートフォンの画面に表示されたオブジェクトを結びつけることができるからだ。
アップルの新しいAIシステムは、ある瞬間に画面に表示されている内容に基づいて、デジタルアシスタントとの効果的な対話を可能にする。 正確で明確な指示は必要ない。 これにより、スマートフォンを使って音声で車を操作するドライバーや、特別なニーズを持つユーザーなど、さまざまな状況でデジタルアシスタントがより効果的に活用できるようになる。
こうしてReALMは画面を再構築し、オブジェクトとその位置を分析する。 このプロセスによって、視覚的なコンテクストにマッチした画面のテキスト表現を作成することができる。
言語モデリングとしてのリファレンス・レゾリューションは、まずユーザーのデバイス画面に何が表示されているかを分析する。 その後、人工知能は1分前に描かれた内容に対応するテキストを画面上のオブジェクトの形で作成し、その内容を視覚的に表示するとともに、オブジェクトである画面上の部分にタグを付ける。
ReALMは、文脈、特定の語彙、およびそれらの間の関係を理解するためにLLMを使用する。
ReALMの利点:
- は、実用的なリンク認識システムの理想的なソリューションである;
- はGPT-4よりはるかに使いやすく、ほぼ同じレベルのパフォーマンスを発揮する;
- GPT-3.5をバイパスすることもできる;
- は、すべてのタイプのデータセットでMARRSモデルを上回る。
ReALM-250Mモデルは良好で驚くべき結果を示している:
- 会話理解度 – 98.7%;
- タスクの総合的な理解 – 99.8%;
- 画面上での作業効率90.6%;
- 不可視ドメインの処理 – 97.2%.
ReALMの能力は素晴らしいが、その最大の利点は、アップルが自社のデバイスに人工知能を搭載することを好んでいる点にある。
このように、ReALMはiPhoneや同社の他のデバイス専用に設計されている。
会話、アプリの使用パターン、さらには環境センサーなど、あなたのデバイスのデータから学習することで、ReALMはあなた独自のニーズに合わせた超パーソナライズされたデジタル・アシスタントを作り出す可能性を秘めている。