这世界上不止小编一个人有过这样的疑虑,想必有很多人有过这样的疑虑:
1、镜子里的我和照片里的我,感觉长得不一样。
2、使用录音设备,不小心点开了自己的语音,感觉声音变了。
对于照片的差异性,可以从光影角度来讲,对于不认同“自己”,是可以找到共鸣的,毕竟你拿着照片,有人会认同你的看法。
但是,对于从声音设备来讲,就没有那麽多人认同了。
例如:一打电话,别人就知道是你了。可奇怪的是,用打电话的设备录音,自己却会“怀疑”自己的真实性。
为什么自己唱歌会觉得好听,声音也过得去。可是,身边的人都是附耳离去?
人说话时,声带的快速颤动不仅带动颅腔振动,也有喉咙振动,颈部皮肤、颅骨和口腔的震动,从而形成多处同步振动。
别人听到的声音则通过了空气的震动传导再进入听者的耳朵,刺激他们的鼓膜及内耳结构,将模拟波形转变为电信号,最终传递给大脑理解。
这个转化过程有一定的损耗,“我”的音色也会有所变化,别人的实际听感类似“回响”。
因此相对“我”的原声,别人听见“我”的声音变得纤薄干脆。
其实,除了你自己没人能够听到头骨传导的这部分声音。(可以用双手捂住耳朵,发音就可感受)
那么,“我”说话的声音是不是更接近于别人听到“我”的声音?
答案“是”。
但是,别人听到“我”的声音还是有些细微的差别。毕竟有时有人会问:“你谁啊?哦,原来是你。。。。。”
那么你一定好奇了,我的声音不一样,机器设备怎么能识别我的语音呢?
声音转换原理
首先,语音信号中的语言信息是按照短时幅度谱的时间变化模式来编码;其次,语音是可以阅读的,即它的声学信号可以在不考虑说话人试图传达的信息内容的情况下,用数十个具有区别性的、离散的符号来表示;最后,语音交互是一个认知过程,因而需要语言的语法、语义和语用结构支持。
而对于语音识别的预处理,则包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等,并涉及到语音识别基元的选取和端点检测问题。在之后的特征提取过程,就是用于提取语音中反映本质特征的声学参数,如平均能量、平均跨零率、共振峰等。
然后关键是训练阶段,即在识别之前通过让讲话者多次重复语音,从原始语音样本中去除冗余信息,保留关键数据,再按照一定规则对数据加以聚类,形成模式库。最后是模式匹配,这是整个语音识别系统的核心,它根据一定规则以及专家知识,计算输入特征与库存模式之间的相似度,判断出输入语音的语意信息。
换句话说,你的音色其实不会影响机器对你的语音识别能力。别再自欺欺人了,无论设备里的那个家伙的声音听起来多么不像“你”,事实就是你说的。
更多请关注:meibeiapp