アップル、Siriの音声入力に新しいアプローチ!口の動きで命令を読み取る

Siriがユーザーの口の動きを読み取り、より高度な音声認識を実現するための「リップリーディングプログラム」の開発に取り組んでいることが明らかになりました。Apple Insiderの報道によれば、この特許は今年の初めに提出され、特定の「モーションデータ」が言葉やフレーズと一致するかどうかを検証する内容が記されています。

特許文書のイラストでは、ユーザーが発する一連の基本的な音声コマンド(例:「Hey Siri」「スキップ」「次の曲」)に対して、Siriが口の動きを認識し、コマンドの精度を向上させることが示唆されています。既存の音声認識技術にはいくつかの課題があることは知られています。特に、周囲の騒音や他のセンサーの影響で音声が歪んでしまう場合や、バッテリーや処理能力を過度に消費する問題などが挙げられます。

興味深いのは、このシステムはカメラを使用せず、iPhone内部のモーションセンサーを利用して口や頭の動きを検知するということ。さらに、このモーションセンシング技術は、AirPodsや「スマートグラス」にも統合される予定で、それに伴ってデータがiPhoneに転送されるとされています。

特に、Appleのスマートグラスは以前からの期待の一つでしたが、今回の特許はそれに関連したものである可能性も考えられます。この技術の実現には、人間の口の動きに関する大量のデータが必要とされており、Siriは既にiPhone上でユーザーの音声を認識する能力を持っています。さらに、最近のiOSのアップデートでは、ユーザーの音声プロファイルをキャプチャし、テキスト変換も可能となりました。

AIの進化が期待される中、Appleは多くの特許を申請していますが、そのすべてが実際の製品として市場に出るわけではありません。ただ、この特許の内容は非常に具体的で、将来的な実装の可能性が高いと考えられます。一方で、AppleのAI技術は競合他社に比べていくぶん遅れを取っているとの指摘もあります。サプライチェーン専門家のMing-Chi Kuo氏は、Appleが今後このようなディープラーニングモデルを製品に導入する可能性は低いとの見解を示しています。

しかし、Appleが「Apple GPT」というコードネームで内部チャットボットを開発しているとの情報も飛び込んできており、Siriのさらなる進化や他のアプリとの統合が期待されています。

* AIトピックでは、知的財産に関する最新のトピック情報をAIにより要約し、さらに+VISION編集部の編集を経て掲載しています。

コメントを残す