多彩な声や言葉のトーンで感情やニュアンスまでを伝える音声合成技術

感情の表現までを伝える新しい技術

人間の声を人工的に作りだす音声合成技術。高速道路の交通情報放送、市町村の防災行政無線、美術館や博物館の展示ガイダンス音声、電話での自動音声ガイダンス、カーナビなど、身の周りでさまざまに利用されています。初期のものはいかにも「コンピュータがしゃべっている」感じでしたが、最近では技術が進化し、「人が話している」のと同じように自然に文章を読み上げることができています。このため、音声合成技術の利用シーンはますます広がっています。

現在広く利用されている音声合成技術でも、人が話す声の「トーン」は表現が難しいものがあり、これまでは「感情」や「ニュアンス」はなかなか伝えきれないことがありました。富士通の新しい音声合成技術は、表現力豊かに分かりやすく情報を伝えることができます。

音声合成に必要なサンプル音声の量は従来の30分の1!「もっと緊迫感を」など声の特徴をパラメーターで調整

声のトーンや言葉のニュアンスまでを伝えられるようになった背景には、「音声合成をもっと世の中の役に立てたい」という思いがありました。従来の音声合成技術では、サンプルとなる膨大な文章をナレーターが読み上げて収録し、元データを作成。それらを必要に応じて、繋ぎあわせて音声を合成していたため、大量のサンプルデータの準備に時間も手間もかかっていました。

新しい技術では、収録した音声から「声質」「イントネーション」「間の取り方」といった特徴を抽出し、それらをパラメーターに変換して音声を合成します。例えば、パラメーターを調整して「もっと緊迫感を持たせたい」といった場合の音声も簡単に合成できます。

これにより、緊迫感のある声や怒った声などを表現できるので、言葉のニュアンスまでも伝えることができます。『カワイイ声』や『よく通る声』といった音声も合成できるようになりました。

サンプルの音声があれば、パラメーターを調節して、目的にあった強さの音声を合成できます。また、あらかじめ収録する、サンプルの音声の量が従来の30分の1程度まで減り、短期間で音声合成の新しい声を作成できるようにもなります。

この方法なら、例えばアニメのキャラクター、企業の社長などの声を収録し、その音声を合成しておけば、あとはパソコンに好きな文章やセリフを入力するだけで、その人の声で自然に読み上げることも可能です。

また、病気で声を失ってしまう可能性のある人が、あらかじめ声を収録しておけば、いつでも自分の声で合成し、会話を行うことも可能となるのです。

音声合成技術を様々な利用シーンで世の中の役に立つ技術へと進化させたい――。その第一歩が始まっているのです。

今回の研究員
斎藤 淳哉
富士通研究所 メディア処理システム研究所
スピーチ&ランゲージテクノロジ研究部