音声認識について考える - 音声の内部構造によるパターン認識の研究 - 作者 Shun English Japanese |
<音声認識について考える>
<メッセージ>
音声科学の研究は、日常生活に役立つ成果をもたらしています。これからさらに発展するためには、まだ完全に明確になっていない音声認識の原理の解明が不可欠のように感じています。<音声のパターン認識についての簡単な説明>
もっとも簡単なパターン認識
の方法は、お手本と見比べて同じものなら、それと判断するものである。例えば、日本語の片かなの「あ」を認識することを
考えてみよう。右の図を見て欲しい。パターン認識する機械に、入力されたもの(右の手書きの「あ」)を、お手本(左の楷書の「あ」)とところどころ見比べ
てみて、だいたい同じものならば、入力されたものを「あ」と判断する。このパターン認識の方法は、入力されるものが、お手本とそれほど違わないときには上
手く働くのだが、現実の世の中はそう甘くはない。 さて、人が発声する声をマイクを使ってAD変換してコンピューターに取りんだ波形(縦軸が入力電圧の振幅、横が時間mS) の例を見てみよう。右図は3人分の「あ」の発声の波形の一部分を示す。3つの波形を比べれ見ると分かるとうり、同じ「あ」の発声であっても、波形の形は似 ているようであり、また、違いありそうなことが分かる。つまり、実際の音声の波形は人や話し方で違いがあるのである。 もし、お手本を1個だけもっていたとしても、音声は人や話し方によって違いがあるので、認識が上手くいきそうにないことが推測できる。音声認識のソフトで 事前に学習するのは、その人や環境(マイクやアンプの周波数特性や話し方 例えば緊張しているとか)に合うようにお手本をチューニングする作業をしているのだ。 通常、音声の波形そのものをパターン認識に使うことは少なく、より適した尺度に変換したものを使うことが多い。例えば、音声波形を周波数分析す ると、右図のように、幾つかの周波数で強さのピーク(ホルマントと呼ばれる)があらわれることが知られている。 ピークの逆の現象(抑圧される部分)も知られている。古くから、これらの特徴が音に「い」とか「あ」とかなどの意味付けしていると言われている。 さらに、時間の経過の順に周波数分析の結果を並べていくと、音声信号のなかのピークの周波数や強さなどは時間的になだらかに変動しているこ とがわかる。逆に、人工的に変動しない音声をつくってみるとよく聞き取れない。 人がどのように音声から「あ」とか「い」とか「か」などを識別判断しているのかについては、長い間 数々の研究が行われているが、100%明確に説明でき る認識理論は まだ ないと言うのがホントのところであろう。 音声の波形の生成を理解してみよう 日本語5母音の特徴 子音の発生 音声の内部構造によるパターン認識とは 音声研究のリンク集 音のコントラスト |
(注)上図の2つは、スペクトルの変化度合いを見やすくするため、音声のLPC分析による周波数分析の結果を描いている。 |
<音声の波形を分析する>
音声の波形は幾つかの構成成分に分解できるようだ。右の図は、人が「あ」と発
声したものをコンピューターに取りこんで、ある周波数帯域ごとの成分を計算し
て、構成成分を求めたものである。赤色のぎざぎざした波形が、もと
の「あ」の波形である。その下の、第0成分から第3成分までの4つの波形が示してあるが、この4つの波形を全部足し合わせて合成すると、おおよそ、赤色の
もとの「あ」の波形の形になる。青色の波形は主に発声時の喉の振動から起因する成分で、音程の高さを決める。下の灰色の波形は、喉の振動がトリガーとなっ
て発生するより高い振動数をもつ信号たちで、喉の信号が起点する周期で、バースト状に発生する。さらによく観察すると、それは、単純な正弦波ではない。 「あ」は、より高い振動数をもつ何段かの階層的な成分により構成されていたが、次に、「い」を見てみよう。「い」の場合は、主に、土台となる成分(右図で は青色の第1成分)と、それにまとわりつく雑音の様なごちゃごちゃした信号(右図では灰色の第2成分)から、構成される。仮に、「い」から第2成分を差し 引くと、「う」に聞こえる。 次に、「え」の場合を見てみよう。「え」は、主に、それだけ聞くと「お」に聞こえる第1成分と、「え」を特徴付ける第2成分から構成されるようだ。第3成 分を付加することで より「え」ぽっく聞こえるようになる。 以上に示したものは安定した波形の一部分を抜き出したものである。実際の発声時には、動的な生成が行われて安定した波形になっていく。波形の安定した部分 よりむしろ、動的に生成が行われる部分の方で、人は音節の判別していると思われる。このことが、連続発声したものから一部分を抜き取って聞くと(連続音で 聞こえた音節と違った)別の音節の音に聞こえる現象を説明する手がかりになると予想している。 動的な変動を観察するために、ちょっと分かりにくいが、単音節の発声の初期の過渡的な部分の波形の例(「あ」、「い」、「う」、「え」、「お」)をリンクしておこう。 |
さて、「あ」は元気がいい波形たちを誘起させるが、逆に音を抑圧する物もある。下図は、ま行の「む(mu)」の前半の子音部分と後半の母音部分を比較し たものである。子音部分と母音部分は、同じ周期性をもった成分(灰色)をもっている。しかし、子音部分では母音部分に比べて振幅の大きさが極端に小さく、抑え込 まれていることが分かる。母音部分になって、抑えこみから解放されて、青色の波形ともども元気がある波形なる。 参考に、単音節の「ま(ma)」を発声したときのmからaへの変化の波形をリンクし ておこう。 |
一般的に、子音部分はまったく同じと言う訳ではなく、後続する母音に引きずられて(後続する母音の特徴を内にもつように)変形する傾向があるようだ。 |
< 日本語5母音の特徴 >
母音は声道の共鳴周波数のホルマントによって特徴付けされていると言うのが通説であるが、ここでは、ちょっと違う見かたをしてみよう。< 子音の発生 >
母音は共鳴現象として説明できるが、子音の発生のためには、いくつかの追加の音源が必要になる。< 音声の内部構造によるパターン認識とは>
話す人や体調や周囲の環境によって音声の波形は色々と変わる。お手本となる絶対的なリファレンス値がある訳ではない。音源の種類 | 効果 | ||
---|---|---|---|
共鳴効果 | 時間的な変化 | 鼻効果 | |
声門音源 | ✔ | ✔ | |
乱流音源 | ✔ | ✔ |
効果の種類 | 特徴 | |
---|---|---|
共鳴効果 | 共振周波数 | フォルマント周波数 |
共鳴の強さ | フォルマントの利得(ゲイン) | |
時間的な変化 | 中心周波数の変化 | |
鼻効果 | 標準的な音源や共鳴に比べて損失あり |
むかしのホームページ
Open Directory プロジェクトの ミラー(2017年3月時点) |
W3CによるHTMLの Web文法チェッカー |
このWEBサイトを閲覧して頂きありがとうございました。 |
since 2005.7.17 |