研究計画書

2022年2月14日 2月15日 8月10日





OUJの情報学プログラムへの入学の検討で、研究計画書を考えてみた。
結局、ビッグデータがある訳でもなく、チームで分担してプジェクトを回す訳でもなく、
指導教員のご意見?を聞きながら、個人で孤独な作業をすることになり、おのずと出来ることは限られるだろう。
論分の書き方を勉強するのであれば、十分かもしれないが。



研究内容
DNNを一括で評価しないで、三段論法のように各段階で評価する。
第1段 有音の判定するDNN  意味のある音(ノイズなどは除く)の判定
第2段 目標とする音色の選択するDNN  数ある音から目標とするものを選びだす
第3弾 位置の特定  目標の音がある時間を特定する

この方法の
メリット ブラックボックスになりやすい一般的なDNNに対して、動作を論理立てて説明できやすくなる。
デメリット 各段の構成を決めるのに人間が介在する必要があるため、自動的に特徴を学習することは期待できない。

過去の研究
  1. ina/foss CNN-based audio segmentation toolkit 開始位置の精度に100~200mSと幅がある。
  2. NVIDIA MarbleNet (VAD) 入力にMFCCを利用したEND-TO-ENDタイプ。正解率九十数パーセント程度。
  3. 音声 区間検出技術の最近の研究動向(2009年)
  4. 脳の画像・音声処理戦略を解き明かすスパースモデリング

音の先頭の検出できぐあいを見ていると、これ以上end-to-endのDNNも追及しても仕方がないような気もする。
動作を説明し易いように、スパースモデリングを利用しでDNNへの入力の種類を工夫することかな。適切に入力を形作ることはDNNは苦手なはずだから。
本当にやりたいことは、観測されてたものから必然性を形作ることではなく、既知の必然性を盛り込む手法かな。




2022年8月追記:
研究内容
「母音の発話スペクトルから管共振模型の推定による母音の簡略的な図式による理解」

この方法の
メリット 簡略化された図式を使うので理解しやすい(はず)。
デメリット 声道の詳細な寸法は求めるこはできない。

関連する研究
  1. A method for estimat-tract shape from a target speech spectrum 反復法により詳しく推定している
  2. Statistical Approach to Vocal Tract Transfer Function Estimation Based on Factor Analyzed Trajectory HMM
  3. ESTIMATION OF VOCAL TRACT AREA FUNCTION FROM VOLUMETRIC MAGNETIC RESONANCE IMAGING MRI画像データを利用して断面積を検証
  4. On Short-Time Estimation of Vocal Tract Length from Formant Frequencies
  5. Estimating vocal tract length from formant frequency data using a physical model and a latent variable factor analysis. P61 ポスター
  6. Singing Voice Separation and Vocal F0 Estimation based on Mutual Combination of Robust Principal Component Analysis and Subharmonic Summation こちらは声道推定ではないが、F0と歌唱の分離についての論文

既にほとんどの内容をWebGitHubで公開しているので、もし論文で発表するときは追加の改良ネタが必要だね。


index