実用化されている(確率論に基づく)認識手法と、(まだ仮説である)構造論によって説明?できて欲しい内容の比較である。


実際に行われている確率論に基づく認識手法
(仮説の)構造論による説明
1段
色々なものに当てはまるように多種多様な音響モデルを準備しておく。
姿形はみな似ているが、寸法や形状が異なる、共通の構造をもつ。
2段
発生する確率が高いモデルを見つける計算をする。 
口腔の構造によって規定される固有値がある。
分布が密集しているところに相当する。(母音)

固有値間を遷移するしかたも規定される。(子音)
3段 単語(または文章)へ、うまくあてはまるるものを見積もる。
(未定義)

結局、実際の計算は、2段叉はそれ以上の階層をもつ、(非線形の)最適解を探す問題に帰着する。1段の非線形最適化問題を解くにもそれなりの計算パワーが必要である。2段から 成る組み合わせの最適化問題を解くなるとかなり大変なことになることが予想されるので、計算効率を良くする何らかの工夫が必要となるだろう。

同時のすべての(最適)解を求めることは諦めて、他の段は暫定値で固定しておいて、ある段で変数パラメータの値を振って適切な解を求めそれを暫定の固定として、それを交互に何度もおこなうことで、全体的に妥当な解に落とし込んでいけないであろうか?


また、音の構造を知っていればこうあるべきだということが分かるので、マイクから拾った音に適応フィルターのようなものを施して途中でくっついた脂肪のようなものを取り除き、音のキー(鍵)だけを取り出すことができないであろうか?




No.3 作成 2013年1月14日