2017年2月20日

研究人员开发了噪音引起的单词误解多媒体语料库

英语“耳误”的新语料库 — María Luisa García Lecumberri和Martin Cooke，是巴斯克地区大学语言和语音研究小组的一个实验室。来源:Nuria González。UPV / EHU

完全安静的环境实际上是非常罕见的。大多数时候，会有一些环境噪音，包括交通、机器或谈话。母语人士如果对某一特定语言有丰富的使用经验，以及所处的语境，他们就有很强的能力重建被噪音所掩盖的部分信息。然而，错误仍然不时发生。由García Lecumberri博士、Ikerbasque研究教授Martin Cooke及其合作者组成的研究小组已经确定了3207个“一致的”混淆。之所以说混淆是一致的，是因为在每种情况下，都有相当数量的听众同意。这种类型的混淆在构建语音感知模型时非常有价值，因为任何能够犯同样错误的模型都很可能经历与人类听众相同的过程。

这项研究对212名听众进行了30多万次刺激演讲噪音条件。由此产生的语料库是唯一的一种英语语言，可在http://spandh.dcs.shef.ac.uk/ECCC/．对于每一个混淆，语料库包含语音和声音的波形，一组听众所听到的记录，以及音位转录。不同类型的混淆在语料库中经常出现。在最简单的情况下，很明显，噪音掩盖了混淆单词的某些部分，迫使听者提出一个最符合可听到片段的单词(例如，“wooden”→“wood”;“pánico”→“pan”)或者用一个音代替另一个音(“ten”→“pen”;“眉毛→法拉”)。在其他情况下，听者似乎结合了噪音本身的元素(“钱包”→“允许”;"ciervo"→"invierno")。最后，研究人员还发现了一些奇怪的情况，在产生的单词和混淆之间几乎没有关系(“modern”→“suggest”;“guardan→pozo”)。 In these cases, the interaction of the speech and noise signals is complex, and therefore interesting.

García Lecumberri博士说:“这些研究有助于揭示潜在的机制言语知觉我们对这些过程了解得越多，我们就能在技术和临床层面上提供更多的帮助听众听力受损的人演讲理解问题。”该组织还为西班牙语开发了一个类似的语料库，可以从同一个网页上访问。“西班牙语和英语的混淆有相似之处也有不同之处:西班牙语是一种高度屈折的语言，导致单词词尾位置的混淆更多;英语中单音节单词的数量更多，词尾辅音的组合也更丰富，这就导致在这个位置出现更多的替换型错误。”然而，这两种语言都显示了相似的模式混乱各种类型的噪音，有些声音比其他声音保存得更好。