音のコントラスト
1.説明
真空管の非線形的な効果が、音(の塊)に作用して、音(の輪郭)を目だ出せるケースがある。
この現象は単音(たとえばsin音)に対しては無効で、例えば調波構造をもつような、音(の塊)に対して有効である。
高調波歪と云うよりは、混変調による効果ではないかと考えている。
視覚的に表現すると、物体の表面を少しざらざらにして姿を目立つようにする感じ(コントラストを強くする)。
混変調が大きすぎると ごちゃごちゃになって 逆に分かりにくくなる。
この音(の塊)に対する効果は、従来の線形モデルだけでは扱えないので、
非線形に起因するこの効果を扱えるモデル(理論)を考える必要がある。
2.解析的な分析
解析的に分析できる何かうまい手法がないかと探していたところ、非線形性をフーリエ変換で評価している手法を見つけた。
この展開ができれば、2倍の高調波、3倍の高調波、・・・とうまく結びつけられそうであるが、実際の音楽信号をフィッティングさせるのは意外と難しい。
非線形性とフーリエ変換・スペクトルのお話
冷静に考えてみると、非線形が働く区間だけを見ている限り、非線形の現象で発生した信号なのか、もとの信号を線形の強調フィルターで持ち上がったものなのか、区別することは難しい。それは慣性力と重力が等価だと云う等価原理に似ている。
3.音を塊として認識するには
調波構造が(少しづつ)変化していくことによって、変化しない背景と差が生じて、それを塊だと認識できるのではないだろうか。それは、動画の認識で、背景の中で物体が(少しづつ)変化して動くことで、その塊を認識できるのと似ている。
無論、既知のパターン形状を知っていれば推測できるだろう。但し、変化がない短時間の観測だけでは、単に背景に描かれた模様なのか、はたまた、独立して動くもの(塊)なのかの 区別はつかない。
4.DNNとアナログ・フロントエンド
解析的に攻めていこうとすると、条件が多くなるほど式の記述が複雑になって扱えなくなってしまう。それに対して、DNNは柔軟に対応できる可能性がある。
但し、DNNのデメリットとして、
(ここで扱おうとしているような)微妙な違いを認識するには不向き(活性化関数の特性やpooling処理などからも明らか)
U-NETのように分解能を改良したDNNも利用されているが、微妙な違いを区別できるかというと不満がある。
(すべてに対して)理論的に正しく動くことが保証されない(学習結果に対して行き当たりばったり的に動いている可能性がある)
対象が広く汎用的に利用できることがDNNのメリットであるが、このことと相反することなのかもしれない。
がある。
DNNで微細なものを扱うため、微細な違いからなる無限個の量子化された状態(embedding layer)を導入すればよさそうだが、多分、状態数が多くなりすぎて上手くいかない。
アナログ的な前処理(=アナログ・フロントエンド)(微細な違いを大きな違いにハイライトするような)が必要となるのだろうと予想する。
2番目のデメリットに対しては、生成のからくりが分かっていれば、人工的に正しいサンプルと偽サンプルを大量に作って、DNNに学習させる方法が考えられる。
5.音のN原色
色には3原色がある。昔しから、音の原色として、和音とキーを考えるアイデアはあったようだ。色は3個だが、音はより多くの原色が存在する。
和音とキーによって音を展開(検出)することは、ヒトの聴覚系の処理の中では行われていることの一部であろう。
6.音の根源となる意識
どこかに(共通となるような?)レファレンスとなる根源的な意識?が存在し、それを基準にして、音の印象(変化の度合い)が定まっていく。
レファレンスからの変化(伝達関数のようなもの)を計算するとき、適応フィルターの係数のように完全に一意には定めきれないなので、
人によって印象の受け方が異なるのだろう。
レファレンスからの変化は、入力から次へ一方的に進むような伝達関数ではなく、ソース側と伝達側が相互に関係しながら動的に平衡(バランス)点に移行していくので、多分、(解けないぐらい)複雑な方程式になるのだろう。
その過程で単独のときの位置からの特徴点の変動(例:極の移動)や、波形の立ち上がり立ち下りの変形(例:周波数視点では高調波の[系列]が発生しているように見える)つまり非線形効果が生じるのだろう。
No.10 2020年8月13日