説明者が話しているのはココ! 画面上の説明箇所を素早く推定する技術

遠隔地での資料説明は、該当部分が伝わりにくい

企業などで会議を行う際、ディスプレイに資料を映し出し、それを見ながら代表者が説明する機会は多いと思います。最近では、遠隔地にいる相手とネットワークを用いて資料を共有し、参加者同士で意見を出し合うことも珍しくありません。その際、資料の内容を相手に「正しく」「すばやく」「分かりやすく」伝えることが求められます。

「今の説明は資料のどの部分を指しているのか」「どの部分を強調したいのか」は、マウスカーソルなどで指し示すことができます。しかし、マウスカーソルは小さくて見づらく、また、説明者が手指しで示した箇所などは、遠隔地にいる相手にうまく伝えることができません。 従来、 「読み上げ音声から頻度の高い単語を抽出する」などの方法はありましたが、話し始めの少ない言葉から即座に説明箇所を推定することは難しく、また、現状の音声認識技術では最大1割程度の誤認識が生じるという課題がありました。

音声認識技術の活用で、会話内容をリアルタイムに推定

富士通研究所では以前より、業務コミュニケーションの効率化を目指しており、資料を用いたコミュニケーションにおいて、音声認識技術を活用して会話内容をリアルタイムに推定し、適切な情報を提供するコミュニケーション支援システムを開発しています。先日、電子会議の共有資料などと説明音声の内容を照らし合わせ、説明に該当する箇所をリアルタイムかつ高精度に推定する技術を開発しました。

音声認識において、「多彩」「声」「トーン」など、語長が「3」以下の短い単語は、類似した発音が多く、誤認識を生じやすい傾向にあります。そこで、それらの語長が短い単語を周囲の隣接する単語と結合し、1つの単語として音声認識辞書に登録することで、誤認識を約60%低減しました(注1)。また、資料内で一定距離以上説明箇所が離れると、その箇所に説明が遷移する頻度が急激に低くなるという特徴から、次の説明箇所の範囲を絞り、少量の言葉しか認識されていない状態でも説明に該当する箇所を高精度に推定します。

(注1)富士通研究所の従来技術と比較。

説明順序の特徴と言葉の頻度を用いた説明箇所推定

遠隔会議におけるコミュニケーション支援システムとして有効

この技術を適用し、遠隔会議で使用するスライドを共有資料とし、説明音声に対応する資料中の該当箇所を強調表示する自動ポインティングシステムを試作して評価を実施したところ、推定精度が70%から97%へ向上しました(注2)。マウスカーソルなどによる従来のポインティング方法との比較評価では、説明の分かりやすさが3割向上し、表示の煩わしさが半減するという結果が得られ、遠隔会議におけるコミュニケーション支援システムとして有効であることが確認できました。

富士通研究所は、開発技術を適用した遠隔コミュニケーション支援システムの実用化を目指し、大学等と教育用途での実証実験を進めています。さらに、富士通が開発した視線を検出する技術や翻訳技術を組み合わせ、コールセンターでのFAQ関連情報の提供によるオペレーターの作業支援や窓口業務支援、教育支援など様々なシーンへの展開を図り、業務の効率化に繋げていきます。

(注2)説明開始から約2秒で説明箇所の強調表示を行う設定にした場合。

遠隔会議における説明箇所の自動ポインティングシステム