用Wigner变换分析鸟类歌曲(WDF)

2021-06-14 11:30:56

您需要巧妙地使用WASD和Qerf键来移动和缩放/缩小。

当我正在寻找有趣的音频变换时,我遇到了Wigner分发功能(或只是WDF)。维基百科的示例看起来确实有趣,它是“出售”作为一个“提供了最高可能的时间VS频率分辨率,该函数在数学上是在不确定原理的限制内”,因此“当信号不是时,其WDF很难实施。“结果,WDF比普通FFT更难实现。

它做了一个有趣的技巧:在各个时间点,它反转了音频信号并将其乘以正常的前进版本。这是有道理的,因为时刻t的周期性信号与本身的时间倒置版本局部相关,但是在WDF中,这种相关性不是时界时,因此如果信号是1小时,则WDF将乘以两个1小时的信号计算只有一个价值在T.乍一看毫无意义,因为随机捐款远离当前的时刻将使WDF随机作出WDF,但仔细看来,如果那些远离捐款确实是随机的,他们将取消每个人其他,他们(在某种程度上)。右侧的复杂指数有效地是正向倒置相关性的通常的FFT。

所以它并没有在常规FFT之上添加任何复杂性。然而,在实践中,WDF是一个极度嘈杂的功能,比普通FFT更富有洞察力。下面是用不同方法可视化的鸟录制(Xeno-canto.org/33539)。

FFT与HANN窗口功能。这实际上等同于CWT,因为后者与带有略微不同的高斯窗口的FFT或多或少相同。与CWT不同,计算FFT不涉及任何心理体操。

普通FFT频谱图,1024箱为48 kHz。像素化因为只有300左右的箱子捕获有用的0..8 kHz范围。

“连续FFT”光谱图,使用DFT移位定理和通常的矩形窗口功能,从而产生这些真矩形衍射图案。

WDF有时能够产生有趣的谱图,但在大多数情况下,它是不可用的嘈杂。与FFT频谱图不同,WDF在较大的窗口上获得更多精确:频线变得更薄,以牺牲它们周围添加更多噪音。下面是不同的小提琴样本:每帧为FFT谱图,以及两个WDF谱图,每帧为2048和4096个样本。

出于某种原因,WDF在简单的西藏碗声音上是前方的数英里(结果不是那么简单)。这是相同的500毫米的声音,0..3 kHz范围(使用?wdf = 1& alog = 3&箱= 4096 args):

我不小心发现了一个懒惰的ffmpeg -i bird.mp3 bird.ogg产生音频伪影。即使他们在不见声中,它们也可以在谱图上很容易地看到。

有趣的结论是指定正确的比特率(48K)实现了最高质量和最小的文件大小作为奖励。即使是额外的“最佳压缩”选项也没有明显的效果。刚刚-compression_Level 10产生工件,因为FFMPEG为某种原因将BitRate设置为64K。我无法得到-codec:libvorbis产生良好的结果。它必须以某种方式工作,因为libvorbis用于mp3文件,但我无法覆盖正确的ffmpeg选项集。这是获胜者命令行: