Q1:librosastft里导出的矩阵实部部分,官方描述是the magnitude of the frequency(频率的幅度), 是不是就是对应我们平时说的振幅/音量的意思呢?但是这个矩阵的值,又和我用librosaamplitude_to_db导出的矩阵的值不一样,这让我很疑惑;
A1: 频率的幅度不代表音响,时域波形的增幅才代表音量。
Q2:有没有什么办法可以提取每一个采样点/帧的频率以及该频率对应的时长呢?我之前的想法是用stft导出频率和相位,然后用相位和频率的关系计算出时间差,但是stft似乎导出的不是频率因此也不可行。。。有什么建议吗?
A2: 一个采样点有没频率概念,频率的概念是一秒内采样点的个数,画个语谱图出来,应该就能明白了。
Q3:librosa里面有没有什么办法可以获取一段音频某一采样点/帧的基波呢?
A3: 求基频好像有,librosayin和librosapyin用于基本频率估计。你可以参考 API手册 。
------------------------------------------------------------------------
再次感谢@凌逆战的悉心指教!
Reference:
1 >语音频谱图只是音频信号的一种表现形式吧
如果你是想问语音频谱图怎么转换成时域信号:
频谱只是时域的一个转换表现形式,输出信号本身没有任何变化的
如果你是想问频谱信号通过什么形式成为语音:
频谱信号通过对其进行抽样,量化,再转为模拟信号,就可成为语音信号使用冲激响应不变法优点:1,模拟频率到数字频率的转换时线性的。2,数字滤波器单位脉冲响应的数字表示近似原型的模拟滤波器单位脉冲响应,因此时域特性逼近好 缺点:会产生频谱混叠现象,只适合带限滤波器
双线性变换法优点:克服多值映射得关系,可以消除频率的混叠
缺点:是非线性的,在高频处有较大的失真。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)