母校支援

「ゆっくり再生」で公平な会話コミュニケーションを実現

聞き取りにくい会話をスムーズに!「ゆっくり再生」の実用研究

2019年に報告された新型コロナウィルス感染症(COVID-19)の影響で、多くの人々がオンラインでのコミュニケーションを選ぶようになりました。また、テレワークやオンライン授業、オンライン診療が急増し、オンラインコミュニケーションの便利さが広く受け入れられるようになりました。

私たちの研究(システムデザイン工学部*1 デザイン工学科 信号処理研究室)では、研究テーマの一つとして、周囲とのコミュニケーションに前向きながらも、聞き取りに問題があるために会話に取り残されがちな方々のために、「音声をゆっくり再生することでスムーズに会話に参加できる環境の実現」を目指しています。
*1 東京電機大学 システムデザイン工学部

利用者の目線に立ち、快適で充実した生活をデザインできる技術者の育成を目的とする学部。(東京電機大学システムデザイン工学部HPよりhttps://www.dendai.ac.jp/about/undergraduate/system_design/

このゆっくり再生の手法は、音声の高さをそのままにして話速だけを変える「話速変換技術」を使用しています。これによって聞き取りが容易になり、意思疎通もスムーズに行えるようになります。しかし、この技術を会話に適用する際には、音声遅延が生じるため、順番交替、つまり会話のやり取りが難しくなるという問題がありました。(図1) 

この図では、話し手Aさんが「ありがとう。またね。」と発話し、Bさんが「どういたしまして」と応答した会話です。この会話に、話速変換を適用すると『同時発話』のトラブルが起こることがあります。

図1 話速変換技術による会話の同時発話イメージ

同時発話の問題について、少し詳しくこの図を見ていきましょう。

Aさんの発話(1段目)を1.5倍に伸ばして時間を延長した場合、支援対象者である聞き手のBさんは、音声をゆっくりと再生したAさんの音声を聴取しています(2段目)。すると最初の発話「ありがとう」を聴き終えるまでにはAさんの発話終了時刻に対して0.5秒の遅延が生じます。

Bさんは、「ありがとう」を聞き終わってから、「どういたしまして」と0.5秒後に応答しましが、これがAさんの「またね」と同時発話になっています。

Aさん側では「ありがとう」の発話後、1秒間待ってもBさんから応答がなかったため、「またね」と後続の発話をしています。これが同時発話の現象です。

話速変換を会話に使用すると音声遅延が一定ではなく、話し手は聞き手の聴取終了時刻を予測するのが難しくなることがあり、聞き手も話し手の発話終了時刻や次の発話の有無を予測するのが困難になります。そのため、特に会話の話し手が変わる(順番交替)ときに、同時発話による『話衝突』や『不自然な沈黙』が生じストレスを感じます。

研究開始から20年、会話に適用するための実用研究へ

この研究は20年近く続けています。研究当初は、音声を「ゆっくりにする」あるいは「早くする」を、高音質かつ高速に音声処理を行う技術の研究をしていましたが、ここ数年は、会話に適用するための実用研究にシフトしています。

私たちの最近の研究では、話速変換会話の順番交替時における発話衝突の回避策を実装しています。ゆっくりとした再生の支援を必要としない人が、自身の音声を受聴する手法が有効であることを示した「聴覚フィードバック[1])を、さらに発話中は妨害にならない「視覚フィードバック[2]」による遅延を把握する手法も実装しました。以下、研究が完了した要素技術となったアイデアの概要を3点紹介します。

1.聴覚フィードバック

自分の発話がどれだけ遅れて相手に伝達されたかを知るために、話速変換された音声の一部を話し手にも再生し把握する手法(聴覚フィードバック [1])。ただし、自分が発話中の箇所は再生しない(図2)。

図2 聴覚フィードバックでの聞き手の聴取状態を把握する機能

[1] 斎藤博人,徳永弘子,橋本恵理子,武川直樹,“リアルタイム話速変換を用いた会話における音声ループバックの効果”,電子情報通信学会 , ヒューマンコミュニケーション基礎研究会, 信学技報 , Vol. 115, No. 35, HCS2015-9, pp. 67-72, (2015)

2.視覚フィードバック

オンライン通話の場合、画面上に相手が聴いているゆっくりな音声がどれだけ残っているかを画面上のメータで把握する手法(図3 視覚フィードバック)。

[2] 斎藤博人,熊谷功介,徳永弘子,武川直樹 , “ 話速変換会話における遅れ時間の可視化とその効果 ”, 信学論 D, Vol.J101-D, No.2, pp.348–358, (2018)

3.音声と映像の同期再生

ゆっくりとした音声と同期し、映像も音声に合わせてゆっくり再生加工する、リップシンクがとれた映像で会話ができる方式を開発し、その効果を公表[3]。

[3]  斎藤博人,小山内一樹,徳永弘子,武川直樹,“話速変換を利用する会話における映像同期手法とその効果”,信学論 A, Vol.J102-A, No.2, pp.59–67, (2019)

これらの成果は,話速変換を利用する会話で生じた個々のトラブルを解決する手段として実装しましたが、会話場の特徴によってフィードバックの特性に応じた使用を考えています。例えば、ディベートやプレゼンテーション等の「話し手が優位な場面」では視覚フィードバックが有効、雑談やディスカッション等の「参与者同士が対等な場面」では聴覚フィードバックと視覚フィードを切り替えて利用するのが適当と予想しています。

現在の研究課題 対等なコミュニケーションの実用化を目指す

現在は、話速変換を使用した会話でも、支援対象者には、相手が実際にゆっくり話していると感じられるようなインタフェースを設計・開発をしています。これにより、支援を受けていると感じさせることなく、話し手にも遅延に対する違和感を与えず、すべての人が公平にコミュニケーションできる環境を目指しています。

そのためには、話速変換技術とそれを会話に適用するためのインタフェースを実装し、現実の利用環境での会話分析など、技術のみならずユーザの使いやすさを実現するための会話分析まで幅広い研究が必要です。


図4 実験用 話速変換会話システム(上:ユーザ用、下:実験者用)

現状は、図4の実験用システムで研究を進めています。引き続き工学技術を応用した実用化に向けた評価(ユーザによる評価も含む)・実装のフェーズになり、今後以下の課題に着手する予定です。

1.多くの利用者に会話を収録し、会話実験での使いやすさの評価
2.実用アプリケーションの開発とサービス提供環境の構築

本研究では、支援対象者と健常者の対等なコミュニケーションが実現されるものです。人間同士のコミュニケーションの多様な場に応用が可能で、その意義は高いと考えています。

システムデザイン工学部 デザイン工学科
教授 斎藤博人