完善音高感知

完善音高感知
图1:Pitch model overview模型结构示意图dnn被训练来估计嵌入在现实世界背景噪声中的语音和音乐声音的F0。网络接收声学刺激的模拟听觉神经表征作为输入。绿色轮廓描述了示例卷积滤波器核在时间和频率上的范围(分别为水平和垂直维度)。b基频(F0)为200hz的谐音的模拟听觉神经表征。声音波形如图所示,其功率谱如图所示。波形在时间上是周期性的,周期为5ms。频谱是谐波的(即包含基频的倍数)。网络输入是瞬时听觉神经发射速率的数组(用灰度表示,颜色越浅表示发射速率越高)。 Each row plots the firing rate of a frequency-tuned auditory nerve fiber, arranged in order of their place along the cochlea (with low frequencies at the bottom). Individual fibers phase-lock to low-numbered harmonics in the stimulus (lower portion of the nerve representation) or to the combination of high-numbered harmonics (upper portion). Time-averaged responses on the right show the pattern of nerve fiber excitation across the cochlear frequency axis (the “excitation pattern”). Low-numbered harmonics produce distinct peaks in the excitation pattern. c Schematics of six example DNN architectures trained to estimate F0. Network architectures varied in the number of layers, the number of units per layer, the extent of pooling between layers, and the size and shape of convolutional filter kernels d Summary of network architecture search. F0 classification performance on the validation set (noisy speech and instrument stimuli not seen during training) is shown as a function of training steps for all 400 networks trained. The highlighted curves correspond to the architectures depicted in a and c. The relatively low overall accuracy reflects the fine-grained F0 bins we used. e Histogram of accuracy, expressed as the median F0 error on the validation set, for all trained networks (F0 error in percent is more interpretable than the classification accuracy, the absolute value of which is dependent on the width of the F0 bins). f Confusion matrix for the best-performing network (depicted in a) tested on the validation set. Credit: DOI: 10.1038/s41467-021-27366-6

麻省理工学院神经科学家的新研究表明,自然的音景塑造了我们的听觉,优化了我们最常遇到的各种声音。

该杂志12月14日报道了一项研究自然通讯在美国,由麦戈文大脑研究所副研究员乔希·麦克德莫特领导的研究人员使用计算建模来探索影响人类听力的因素.他们的模型的音调感知与人类非常相似,但只有在使用音乐、声音或其他自然声音进行训练时才会如此。

人类识别音调的能力——本质上是声音重复的频率——赋予音乐旋律和口语细微差别。虽然这可以说是人类听力研究得最好的方面,但研究人员仍在争论是哪些因素决定了音高感知的特性,以及为什么某些类型的声音比其他类型的声音更敏锐。McDermott也是麻省理工学院大脑与认知科学系的副教授,也是麻省理工学院大脑、思想和机器中心(CBMM)的研究员,他对了解我们的神经系统如何感知音调特别感兴趣,因为人工耳蜗植入器向重度耳聋患者的大脑发送关于声音的电信号,并不能很好地复制人类听力的这一方面。

“人工耳蜗可以做一个漂亮的帮助人们理解语言,尤其是在安静的环境中。但他们真的不能很好地再现音调的感觉,”马克·萨德勒说CBMM研究员,共同领导了该项目,也是K. Lisa Yang综合计算神经科学中心的就职研究生。“了解听力正常的人音高感知的详细基础很重要的原因之一是,我们可以更好地了解我们如何在假体中人工重现这种感觉。”

人工听觉

音调感知始于耳蜗,这是内耳中的蜗牛形结构,声音的振动在这里被转化为然后通过.耳蜗的结构和功能决定了我们如何听到以及听到什么。虽然还无法通过实验来验证这一想法,但麦克德莫特的团队怀疑我们的“听觉饮食”也可能会影响我们的听力。

资料来源:麻省理工学院

为了探索我们的耳朵和环境是如何影响音高感知的,麦克德莫特、萨德勒和研究助理雷·冈萨雷斯建立了一个被称为.神经网络是一种广泛应用于自动语音识别和其他人工智能应用的机器学习模型。尽管人工神经网络的结构大致类似于大脑中神经元的连通性,但工程应用中使用的模型实际上与人类的听觉方式不同,因此该团队开发了一种新模型来再现人类的音高感知。他们的方法将人工神经网络与现有的哺乳动物耳朵模型结合起来,将机器学习的力量与生物学的见解结合起来。萨德勒解释说:“这些新的机器学习模型真的是第一个可以被训练来完成复杂的听觉任务,并且实际上在人类的表现水平上做得很好。”

研究人员通过要求神经网络识别训练集中声音的重复率来训练它估计音调。这让他们可以灵活地改变音调感知发展的参数。他们可以操纵呈现给模型的声音类型,以及在将这些声音传递给神经网络之前处理这些声音的耳朵的属性。

当模型使用对人类很重要的声音(如语音和音乐)进行训练时,它学会了像人类一样估计音调。“我们很好地复制了人类感知的许多特征……这表明它使用了来自声音和耳蜗表征的相似线索来完成任务,”萨德勒说。

但当模型使用更多的人造声音或在没有任何背景噪音的情况下训练时,它的行为就非常不同了。例如,Saddler说:“如果你对这个没有任何竞争噪音源的理想世界进行优化,你可以学习一种似乎与人类非常不同的音高策略,这表明也许人类的音高系统确实是为了处理有时噪音掩盖部分声音的情况而优化的。”

研究小组还发现,在耳蜗中启动的神经信号的时机对音高感知至关重要。麦克德莫特解释说,在健康的耳蜗中,神经细胞与到达内耳的声音振动同步准确地发出信号。当研究人员在他们的因此,神经信号的时间与传入声音产生的振动的相关性不那么紧密,音调感知偏离了正常的人类听力。

麦克德莫特说,在研究人员努力开发更好的人工耳蜗时,考虑到这一点很重要。“这在很大程度上表明生产正常沥青他说:“我们需要一种方法来重现听觉神经中的精细计时信息。”“现在,他们还没有这样做,而且要实现这一点还存在技术挑战,但建模结果确实非常清楚地表明,这就是你必须做的事情。”

更多信息:Mark R. Saddler等人,深度神经网络模型揭示了音高感知中周边编码和刺激统计的相互作用,自然通讯(2021)。DOI: 10.1038 / s41467 - 021 - 27366 - 6
期刊信息: 自然通讯

所提供的麻省理工学院

本文转载自麻省理工学院新闻(web.mit.edu/newsoffice/),这是一个很受欢迎的网站,涵盖有关麻省理工学院研究、创新和教学的新闻。

引用: perfection pitch perception(2021, 12月20日)检索自2022年12月19日//www.pyrotek-europe.com/news/2021-12-pitch-perception.html
这份文件受版权保护。除为私人学习或研究目的而进行的公平交易外,未经书面许可,不得转载任何部分。内容仅供参考之用。

进一步探索

音调不完美?大脑如何解码音调可能改善人工耳蜗植入

112股票

对编辑的反馈