エージェントがあなたのウソを見破る？

2020.11.04

ユーザーの感情や態度を読み取る音声応答デジタルエージェント

エージェントがあなたのウソを見破る？

ユーザーが発話する音声を受け付けて、その音声の内容に応じて情報処理を実行する情報処理装置（デジタルエージェント）は、SiriやAlexa、Cortanaなど、一般的な存在になりつつあります。これらのデジタルエージェントは、キーボードやタッチパネルでの情報入力によらず、ユーザーの声に応答して各種の指示や情報を処理することができることは、広く知られているところです。

しかし、これまでの技術では、ユーザーから単純な支持や文字列情報を受け付けて処理することはできても、ユーザーの感情や態度など、文字化できない情報を読みとることはできませんでした。なぜなら、ユーザーの感情等は、発話内容以外の情報にも表れるからです。

そこで、ユーザーの発話から発話内容以外の情報を読み取ることのできるデジタルエージェントが開発されました。エージェントの情報処理方法の一例を挙げると、まず、従来の技術でも可能な、ユーザーの発話内容の特定を行います。このとき、エージェントは音声信号中にユーザーの声が含まれていない時間や、意味をなさない「あのー」とか「えー」などの発声をしている時間を『思考時間』として特定します。この思考時間や、ユーザーの声の大きさなども併せて評価して、ユーザーの応答の確からしさの推定を行うのです。

例えば、思考時間が極端に短い場合などは「ほとんど考えずに応答しているな」と判断し、確信度を低く評価することができるといいます。声の大きさが大きいときは確信度を上げるということも可能です。エージェントは、このようなパラメータを総合的に評価して、ユーザーの応答が「本気」、「確信なし」、「嘘」などといった基準にあてはめ、この結果に基づいて返答の発言内容を変化させることができるようになりました。

このような技術が一般化されると、今後デジタルエージェントに問いかけるときは相手に気に入られるように、こちらが気を使うことになるかもしれませんね。

■従来の課題

ユーザーが発話する音声を受け付け、その音声の内容に応じ情報処理を実行する情報処理装置が知られている。しかし従来の装置では、ユーザーの“音声内容以外の情報（感情や態度など）”を読み取ることは困難であった。

■本発明の効果

本発明の情報処理装置は、ユーザーの音声の中の音声内容以外の情報を読み取ることができる。無音時間（音声信号中にユーザーの声が含まれていないと判定される時間）やフィラー時間（ユーザーが意味をなさない発声をしていると判定される時間）などの解析を通じて、ユーザーがどのような感情を抱いているのか、どのような状態にあるかなどを判定することができる。さらに、具体的には、エージェントからの質問に対する回答が、本気、確信なし、嘘などを予測できる。

■特許請求の範囲のポイントなど

本発明のポイントを下記に示す。

ユーザーの声を集音して得られる音声信号を取得する音声信号取得部と、取得された音声信号を用いて、ユーザーの声が含まれていない時間、及びユーザーが意味をなさない発声をしている時間のそれぞれを独立に評価対象時間として特定する時間特定部と、特定されたユーザーの声が含まれていない時間、及びユーザーが意味をなさない発声をしている時間の双方に応じた出力を行う出力部、を含むことを特徴とする情報処理装置。

本発明の更なるポイントとして、以下が挙げられる。
・前記時間特定部は、取得された音声信号を用いてユーザーの発話内容を認識する処理を実行し、発話内容の認識に失敗した音声信号に対応する時間をユーザーが意味をなさない発声をしている時間として特定することを特徴とする。
・前記出力部は、特定された評価対象時間と、取得された音声信号から認識されたユーザーの発話内容とに応じた出力を行うことを特徴とする。

■全体構成

本発明の情報処理装置の構成を図１に基づいて説明する。

【図１】情報処理装置の構成を示す構成ブロック図

・情報処理装置１は、例えば家庭用ゲーム機や携帯型ゲーム機、パーソナルコンピュータ、スマートホン等であって、図１に示すように、制御部１１と、記憶部１２と、インタフェース部１３とを含んで構成されている。また、情報処理装置１は、表示装置１４、マイクロホン１５、スピーカー１６、及びカメラ１７と接続されている。

・制御部１１はＣＰＵ等を含んで構成され、記憶部１２に記憶されているプログラムを実行して各種の情報処理を実行する。記憶部１２は、ＲＡＭ等のメモリデバイスを含み、制御部１１が実行するプログラム、及び当該プログラムによって処理されるデータを格納する。インタフェース部１３は、情報処理装置１が表示装置１４、マイクロホン１５、スピーカー１６、及びカメラ１７との間で各種の情報を授受するためのインタフェースである。

・表示装置１４は、家庭用テレビ受像機や液晶ディスプレイ等であって、情報処理装置１が出力する映像信号に応じた画像を画面上に表示する。マイクロホン１５は、情報処理装置１のユーザーが発する声を集音して得られる音声信号を、情報処理装置１に対して出力する。スピーカー１６は、情報処理装置１が出力する音声信号に従って音声を鳴動させる。カメラ１７は、ユーザーの様子を示す映像を撮像し、撮像された映像を情報処理装置１に入力する。

本発明の情報処理装置１が実現する機能について、図２を用いて説明する。

【図２】情報処理装置の機能を示す構成ブロック図

・情報処理装置１は、機能として、エージェント処理部２１、音声信号取得部２２、音声認識部２３、及び思考時間特定部２４を含んで構成されている。これらの機能は、制御部１１が記憶部１２に記憶されたプログラムに従って動作することにより実現される。

・エージェント処理部２１は、ユーザーとコミュニケーションを行う仮想的なエージェントを実現し、エージェントによるユーザーとの会話処理を実行する。具体的に、エージェント処理部２１は、音声認識部２３によって特定されるユーザーの発話内容を受け付ける。

・音声認識部２３は、音声信号取得部２２が取得した音声信号を解析することによって、ユーザーの発話内容を特定する。このような発話内容の特定は、統計的手法や動的時間伸縮法など、各種公知の音声認識技術などを用いて実現できる。・思考時間特定部２４は、音声信号中にユーザーの声が含まれていない時間、及びユーザーが意味をなさない発声をしている時間の少なくとも一方を思考時間として特定する。

■細部

思考時間特定部２４によって特定される思考時間の一例を、以下の図面を用いて説明する。

【図３】情報処理装置が特定する指向時間の一例

・ユーザーは、エージェントの質問が再生された後、２秒間沈黙し、３秒間「うーん」というフィラーを発声し、その後に質問の回答を始めている。この場合、思考時間特定部２４は思考時間を５秒間と特定する。なお、ここでは無音時間とフィラー時間がこの順に一度ずつ検出されているが、無音時間とフィラー時間は複数回表れることもあり得る。

また、無音時間とフィラー時間は逆の順序で表れる場合もある。これらの場合も、思考時間特定部２４は、無音時間、及びフィラー時間のいずれかと判定される時間が続いていれば、これらの無音時間及びフィラー時間を合算した時間を思考時間として特定するものとする。

エージェントの発言の後に情報処理装置１が実行する処理の流れの一例について、図４のフロー図を用いて説明する。

【図４】情報処理装置が実行する処理の流れの一例を示すフロー図

・まず音声信号取得部２２が、マイクロホン１５が集音した音声信号を取得する（Ｓ１）。音声認識部２３及び思考時間特定部２４は、処理対象の単位時間に含まれる音声信号中にユーザーの音声が含まれるか否かを判定することによって、無音時間を特定する（Ｓ２）。

・無音時間であると特定された場合、Ｓ７に進む。無音時間ではないと特定された場合、音声認識部２３が処理対象の単位時間に含まれる音声信号から特徴量を算出することによって、音素モデルとのマッチングを行う（Ｓ３）。

・マッチングに失敗した場合、すなわち音声信号がいずれの音素モデルにもマッチしないと判定された場合、思考時間特定部２４は処理対象の単位時間がフィラー時間であると特定する（Ｓ５）。一方、音素モデルとのマッチングに成功した場合、音声認識部２３はマッチング結果に従って処理対象の単位時間にユーザーが発した音声の音素を特定する（Ｓ６）。

・その後、まだ未処理の単位時間があれば、次の単位時間を処理対象としてＳ２からＳ６の処理が繰り返される（Ｓ７）。Ｓ１で取得した音声信号を分割して得られる全ての単位時間について以上説明した処理が終了すれば、Ｓ８の処理に進む。

・次に音声認識部２３が、Ｓ３における音素モデルとのマッチング結果を用いて単語モデルや言語モデルとのマッチングを実行することにより、ユーザーの発話内容を特定する（Ｓ８）。続いて思考時間特定部２４が、Ｓ２における無音時間の特定結果、及びＳ５におけるフィラー時間の特定結果を用いて、思考時間を特定する（Ｓ９）。

・その後、エージェント処理部２１は、Ｓ９で特定された思考時間及びＳ８の発話内容に基づいて次のエージェントの発言を決定する（Ｓ１０）。そして、決定した発言内容を表す音声信号を生成、出力する（Ｓ１１）。

展望、結語

本特許に記載の発明によれば、これまで課題とされていたユーザーの音声の中の“音声内容以外の情報”を解析することができ、より高い確度でユーザーの感情を認識することが可能となる。例えば、ヘルスケア（例えば、痛みなどの病気の把握）や小売業界（商品の広告・宣伝）などにおける多種多様なニーズに応えることができるかもしれない。世に与える貢献は非常に大きいものと推察される。

■概要

出願国：日本発明の名称：情報処理装置
出願番号：特願2017-551560
特許番号：特許第6585733号
出願日：2016年9月08日
公開日：2017年5月26日
登録日：2019年9月13日
出願人：株式会社ソニー・インタラクティブエンタテインメント
経過情報：2019年に特許が登録され、現在も特許は維持されている
その他情報：本特許の出願国は日本及び米国である
IPC：G10L

＜免責事由＞
本解説は、主に発明の紹介を主たる目的とするもので、特許権の権利範囲（技術的範囲の解釈）に関する見解及び発明の要旨認定に関する見解を示すものではありません。自社製品がこれらの技術的範囲に属するか否かについては、当社は一切の責任を負いません。技術的範囲の解釈に関する見解及び発明の要旨認定に関する見解については、特許（知的財産）の専門家であるお近くの弁理士にご相談ください。

Latest Posts 新着記事

コラム

11月に出願公開されたAppleの新技術〜PCに健康状態センサーをつけるとどうなるのか〜

はじめにもし、あなたが毎日使っているノートパソコンが、仕事や勉強をしながらそっとあなたの健康状態をチェックしてくれるとしたら、どう思いますか？これまで、私たちが使ってきたノートパソコンのような電子機器には、ユーザーの体調をモニターするような高度なセンサーはほとんど搭載されていませんでした。Appleから11月に出願公開された発明は、その常識を覆す画期的なアイデアです。キーボードの横にある、普段...

2025.12.05

トピック

AI×半導体の知財戦略を加速　アリババが築く世界規模の特許ポートフォリオ

かつてアリババといえば、EC・物流・決済システムを中心とした巨大インターネット企業というイメージが強かった。しかし近年のアリババは、AI・クラウド・半導体・ロボティクスまで領域を拡大し、技術企業としての輪郭を大きく変えつつある。その象徴が、世界最高峰AI学会での論文数と、半導体を含むハードウェア領域の特許出願である。アリババ・ダモアカデミー（Alibaba DAMO Academy）が毎年100本...

2025.11.23

トピック

翻訳プロセス自体を発明に──Play「XMAT®」の特許が意味する産業インパクト

近年、生成AIの普及によって翻訳の世界は劇的な変化を迎えている。とりわけ、専門文書や産業領域では、単なる機械翻訳ではなく「人間の判断」と「AIの高速処理」を組み合わせた“ハイブリッド翻訳”が注目を集めている。そうした潮流の中で、Play株式会社が開発したAI翻訳ソリューション「XMAT®（トランスマット）」が、日本国内で翻訳支援技術として特許を取得した。この特許は、AIを活用して翻訳作業を効率...

2025.11.23

トピック

特許技術が支える次世代EdTech──未来教育が開発した「AIVICE」の真価

学習の個別最適化は、教育界で長年議論され続けてきたテーマである。生徒一人ひとりに違う教材を提示し、理解度に合わせて学習ルートを変化させ、弱点に寄り添いながら伸ばしていく理想の学習プロセス。しかし、従来の教育現場では、教師の業務負担や教材制作の限界から、それを十分に実現することは難しかった。この課題に真正面から挑んだのが未来教育株式会社だ。同社は独自の AI学習最適化技術で特許を取得し、その...

2025.11.23

トピック

抗体医薬×特許の価値を示した免疫生物研究所の株価急伸

東京証券取引所グロース市場に上場する免疫生物研究所（Immuno-Biological Laboratories：IBL）の株価が連日でストップ高となり、市場の大きな注目を集めている。背景にあるのは、同社が保有する抗HIV抗体に関する特許をはじめとしたバイオ医薬分野の独自技術が、国内外で新たな価値を持ち始めているためだ。バイオ・創薬企業にとって、研究成果そのものだけでなく知財ポートフォ...

2025.11.23

トピック

農業自動化のラストピース──トクイテンの青果物収穫技術が特許認定

農業分野では近年、深刻な人手不足と高齢化により「収穫作業の自動化」が急務となっている。特に、いちご・トマト・ブルーベリー・柑橘など、表皮が繊細な青果物は人の手で丁寧に扱う必要があり、ロボットによる自動収穫は難易度が極めて高かった。そうした課題に挑む中で、株式会社トクイテンが開発した “青果物を傷付けにくい収穫装置” が特許を取得し、農業DX領域で大きな注目を集めている。今回の特許は単なる「収穫機...

2025.11.23

トピック

＜社説＞地域ブランドの危機と希望――GI制度を攻めの武器に

国が地理的表示（GI：Geographical Indication）保護制度をスタートしてから10年が経つ。ワインやチーズなど農産物を地域の名前とともに保護する仕組みは、欧米では産地価値を国境を越えて守る知財戦略としてすでに大きな成果を上げてきた。一方、日本でのGI制度は、導入から10年が経った今ようやくその重要性が幅広く認識される段階に差し掛かったと言える。農林水産省によれば、2024年時点...

2025.11.23

トピック

保育データの構造化とAI分析を特許化　ルクミー「すくすくレポート」技術の本質

保育業界におけるDXが本格的に進む中、ユニファ株式会社が展開する「ルクミー」は、写真・動画販売や登降園管理、午睡チェックシステムなどを通じて保育の可視化と効率化を支えてきた。その同社が開発した保育AI™「すくすくレポート」が特許を取得したことは、保育現場のデジタル化における大きな節目となった。「すくすくレポート」は、子どもの日々の成長・発達をAIが分析し、保育士の観察記録を補助...

2025.11.23