音声認識について考える　－内部構造によるパターン認識の研究

音声認識について考える

- 音声の内部構造によるパターン認識の研究 -
作者 Shun

English Japanese

<音声認識について考える>

<メッセージ>

　音声科学の研究は、日常生活に役立つ成果をもたらしています。これからさらに発展するためには、まだ完全に明確になっていない音声認識の原理の解明が不可欠のように感じています。
特定の音素の組が存在する理由を口の構造に結びつけてその特徴を理解することで、同じ意味のパターンの形が多様に変化する、パターンの多様性を説明できないかどうか考えています。
本来の理想的な形から、それが現実の世界では多種多様に崩れていると云う描写です。
このページが何かの参考になれば幸いです。

<音声のパターン認識についての簡単な説明>

もっとも簡単なパターン認識の方法は、お手本と見比べて同じものなら、それと判断するものである。例えば、日本語の片かなの「あ」を認識することを考えてみよう。右の図を見て欲しい。パターン認識する機械に、入力されたもの（右の手書きの「あ」）を、お手本（左の楷書の「あ」）とところどころ見比べてみて、だいたい同じものならば、入力されたものを「あ」と判断する。このパターン認識の方法は、入力されるものが、お手本とそれほど違わないときには上手く働くのだが、現実の世の中はそう甘くはない。

さて、人が発声する声をマイクを使ってＡＤ変換してコンピューターに取りんだ波形（縦軸が入力電圧の振幅、横が時間ｍS）
の例を見てみよう。右図は３人分の「あ」の発声の波形の一部分を示す。３つの波形を比べれ見ると分かるとうり、同じ「あ」の発声であっても、波形の形は似ているようであり、また、違いありそうなことが分かる。つまり、実際の音声の波形は人や話し方で違いがあるのである。もし、お手本を１個だけもっていたとしても、音声は人や話し方によって違いがあるので、認識が上手くいきそうにないことが推測できる。音声認識のソフトで事前に学習するのは、その人や環境（マイクやアンプの周波数特性や話し方　例えば緊張しているとか）に合うようにお手本をチューニングする作業をしているのだ。
　
通常、音声の波形そのものをパターン認識に使うことは少なく、より適した尺度に変換したものを使うことが多い。例えば、音声波形を周波数分析すると、右図のように、幾つかの周波数で強さのピーク（ホルマントと呼ばれる）があらわれることが知られている。
ピークの逆の現象（抑圧される部分）も知られている。古くから、これらの特徴が音に「い」とか「あ」とかなどの意味付けしていると言われている。
　
さらに、時間の経過の順に周波数分析の結果を並べていくと、音声信号のなかのピークの周波数や強さなどは時間的になだらかに変動していることがわかる。逆に、人工的に変動しない音声をつくってみるとよく聞き取れない。

人がどのように音声から「あ」とか「い」とか「か」などを識別判断しているのかについては、長い間　数々の研究が行われているが、１００％明確に説明できる認識理論は　まだ　ないと言うのがホントのところであろう。

音声の波形の生成を理解してみよう

日本語5母音の特徴

子音の発生

音声の内部構造によるパターン認識とは

音声研究のリンク集

音のコントラスト

（注）上図の２つは、スペクトルの変化度合いを見やすくするため、音声のLPC分析による周波数分析の結果を描いている。

No.16 作成　2015年9月24日
変更　2019年1月12日

　音声認識のパターン認識の方法は周波数特性であるスペクトルまたはその逆変換であるケプストラムを単位としてパターンを比較することが多く行われているが、パターンを比較する単位としてはもっと細かく見ないと十分に違いが見えてこないように思える。そこで、より詳しく、音声の周波帯域ごとの成分と波形の時間変化について観察してみよう。

<音声の波形を分析する>

　音声の波形は幾つかの構成成分に分解できるようだ。右の図は、人が「あ」と発声したものをコンピューターに取りこんで、ある周波数帯域ごとの成分を計算して、構成成分を求めたものである。赤色のぎざぎざした波形が、もとの「あ」の波形である。その下の、第０成分から第３成分までの４つの波形が示してあるが、この４つの波形を全部足し合わせて合成すると、おおよそ、赤色のもとの「あ」の波形の形になる。青色の波形は主に発声時の喉の振動から起因する成分で、音程の高さを決める。下の灰色の波形は、喉の振動がトリガーとなって発生するより高い振動数をもつ信号たちで、喉の信号が起点する周期で、バースト状に発生する。さらによく観察すると、それは、単純な正弦波ではない。

「あ」は、より高い振動数をもつ何段かの階層的な成分により構成されていたが、次に、「い」を見てみよう。「い」の場合は、主に、土台となる成分（右図では青色の第１成分）と、それにまとわりつく雑音の様なごちゃごちゃした信号（右図では灰色の第２成分）から、構成される。仮に、「い」から第２成分を差し引くと、「う」に聞こえる。

次に、「え」の場合を見てみよう。「え」は、主に、それだけ聞くと「お」に聞こえる第１成分と、「え」を特徴付ける第２成分から構成されるようだ。第３成分を付加することで　より「え」ぽっく聞こえるようになる。

以上に示したものは安定した波形の一部分を抜き出したものである。実際の発声時には、動的な生成が行われて安定した波形になっていく。波形の安定した部分よりむしろ、動的に生成が行われる部分の方で、人は音節の判別していると思われる。このことが、連続発声したものから一部分を抜き取って聞くと（連続音で聞こえた音節と違った）別の音節の音に聞こえる現象を説明する手がかりになると予想している。

動的な変動を観察するために、ちょっと分かりにくいが、単音節の発声の初期の過渡的な部分の波形の例（「あ」、「い」、「う」、「え」、「お」）をリンクしておこう。

さて、「あ」は元気がいい波形たちを誘起させるが、逆に音を抑圧する物もある。下図は、ま行の「む(mu)」の前半の子音部分と後半の母音部分を比較したものである。子音部分と母音部分は、同じ周期性をもった成分（灰色）をもっている。しかし、子音部分では母音部分に比べて振幅の大きさが極端に小さく、抑え込まれていることが分かる。母音部分になって、抑えこみから解放されて、青色の波形ともども元気がある波形なる。
参考に、単音節の「ま(ma)」を発声したときのmからaへの変化の波形をリンクしておこう。

　一般的に、子音部分はまったく同じと言う訳ではなく、後続する母音に引きずられて（後続する母音の特徴を内にもつように）変形する傾向があるようだ。

No.7b 作成　2007年5月13日

< 日本語5母音の特徴 >

母音は声道の共鳴周波数のホルマントによって特徴付けされていると言うのが通説であるが、ここでは、ちょっと違う見かたをしてみよう。

日本語の５つの母音のなかで、「あ」と「う」の２つは基本的な存在である。

「あ」の特徴は、２つの波を使って口からの音の放射効率が最大(*1)になるように、放射する波が近接してできるだけ揃うになっているのが特徴である（参考）。この波の高調波も、揃って高い周波数領域に現れる。スピーカーで例えるならばホーンスピーカーの効果に類似したものである。
(*1)最大放射の原理では、同じぐらいの大きなピークが複数個　並ぶ。

逆に、「え」は、舌によって放射する波をわざと調整して、低い方はペアがなく、高い周波数領域の方だけ、波が近接して揃うようにしている（参考）。

「お」の音は、効果を複合した音で、「あ」の音を起点として、それに「う」の効果をつなぎ合わせたものである（参考）。又は、「う」と「あ」の位置を逆転させた等価なものもある。

「う」は色の無い音である。（口の中で）響いたことを示す、（３つ以上の）複数の波（高調波）がたっている。キーとなる近接した揃った波のペアが見当たらないか、あったとしても大きな唸りがない。どちらかと言うと特徴がないのが特徴なので、「う」はいろいろな形が存在する（参考）。

「い」は、「う」に更にノイズっぽい高域の成分を重畳した構造である（参考）。このノイズっぽい高域成分は口先の空間が狭くなって風が流れることによって生じるものであり、口先を狭めての発声であることを伝える。

日本語の母音の特徴として、以上のように推理している。

2管モデル・3管モデルによる声道の推定のこころみ

No.16 作成　2019年3月25日

< 子音の発生 >

母音は共鳴現象として説明できるが、子音の発生のためには、いくつかの追加の音源が必要になる。
音源としては、母音で使った声門の振動パルス以外に、舌や歯や（喉）などで発生する乱流音が加わる。
乱流音の物理現象は複雑な微分方程式群で記述され理解しがたいが、大変大雑把であるが定性的には、
(1)発生する音のおおよその周波数は、”(そこの息の）速度/（そこの代表的な）長さ”で評価される。
つまり、吐き出す息の速度を速くする（息の流れを通す空間を狭くする）、長さの次元のもの（例：歯の隙間）を短くすれば、より高い周波数の乱流音が発生することになる。
(2)乱流音が発生するための閾値がある。息が吹いていれば常に乱流音が発生している訳ではなく、
（レイノルズ数が）ある大きさを超えることが必要だ。速度の加速が観測される信号の周期（周波数）の変化として表れてくる。

母音は、声門の振動パルス音源と単純な2管共鳴モデル（又は3管）を使って　かなり粗いものであるが、近似できた。子音の場合は、乱流音を作りだすもの（狭所や障害物）が一つの敷居となって管が分割され、より複雑な周波数特性になると考えられる。（音源が喉の場合を除いて）口の中で舌や歯などがある物理的な配置関係から、純粋な母音の共鳴状態とは、共存できない。

また、乱流音が共鳴効果と協働する場合、息の速度を加速上昇させいくとその共振周波にあたる付近で信号の波高値が大きくなる現象がみられる。（レゾナ・スキャン）

観測された（非定常の）信号から、周囲との共鳴効果も含め、その発生した乱流の場所を特定することが、子音の認識と考えられる。

2管声道モデルと乱流音の代用ノイズ源による摩擦音の「さ」音の生成のこころみ

2管声道モデルと乱流音の代用ノイズ源と爆風インパルス波による破裂音の「が」「か」音の生成のこころみ

2管声道モデルと鼻の効果を含む音源による鼻音の「な」「ま」音の生成のこころみ

No.6 作成　2019年2月20日

< 音声の内部構造によるパターン認識とは>

話す人や体調や周囲の環境によって音声の波形は色々と変わる。お手本となる絶対的なリファレンス値がある訳ではない。
観測された音の裏には、その生成過程である内部構造が隠されていると考える。例えば、観測された表面的な特徴量を耳に聞こえた音の波とした場合、ヒトの喉などの音源からその聞こえた波が生成されるまでの過程を内部構造と呼んでみよう。

「音声を生成する器官の作りや可動範囲の制約下で、
　その発生音が分離して認識できる条件を満たすため、
　意味ある音を生成する器官の配置は突き当りや停留点などにならざるおえない。
　そのため音素に対応するその配置構造は幾つかの種類に限定される（量子化される）。」

「構造で結びついて互いに制約されているため、音声を特徴つける各パラメーター（例：フォルマントの周波数の組など）はそれぞれ自由な独立した値は取れない。」

との予想のもと、画像の中の顔認識のように、
観測された音声信号の中の、代表的な特徴点を簡単化した模型に（多少無理やり）当てはめることにより、どの配置構造によって生成されたものかを調べることでパターン認識するものである。

音源と効果の種類
音源の種類	効果
音源の種類	共鳴効果	時間的な変化	鼻効果
声門音源	✔		✔
乱流音源	✔	✔

効果の種類	特徴
共鳴効果	共振周波数	フォルマント周波数
共鳴効果	共鳴の強さ	フォルマントの利得（ゲイン）
時間的な変化	中心周波数の変化
鼻効果	標準的な音源や共鳴に比べて損失あり

音声のバンド・パス・フィルター・バンクによる分析とその応用

初期　2010年7月31日
改定 No.6 2019年4月23日

むかしのホームページ

音声信号の内部構造に基づく音声認識の研究

「音声認識について考える」のエピローグ

DFTと位相    SCILABを使って固有値と固有ベクトルを求める    ディエンファシス（de- emphasis）IIR フィルタ

直線位相ＦＩＲフィルター     1次IIRフィルタの係数の推定    ヒルベルトの関係と最小位相    最小位相FIRフィルタ

「音声の波形の生成を理解する」の目次音声波形のサンプル-日本語の５０音の単音の波形データの例

Chainerを使って 2次 IIR ノッチフィルターを学習できるか    FFTによるアップサンプリング(PYTHON)

No.137（J版）改版　2019年1月12日

Thanks


Open Directory プロジェクトのミラー（2017年3月時点）	W3CによるHTMLの Web文法チェッカー

このWEBサイトを閲覧して頂きありがとうございました。

since 2005.7.17

最終更新日2022年9月3日