语音输入法的关键技术之一是不是有傅里叶变换?
本帖最后由 meng0232 于 2024-7-14 15:13 编辑如题,想知道语音输入法是不是用了傅里叶变换进行语音区别,没学过傅里叶,不懂就问,就是了解一下用没用,
如果关键技术不是傅里叶转换,那语音识别的关键技术是什么? 傅里叶转换是我大学最难的一门课,没有之一。
那本教材是学校自己出的(上海交大),很薄,我记得只有75页。
老师讲课的时候听得云里雾去。考试前通宵攻读,读了3遍还有很多不理解。天快亮了,心想不好这次会挂科了。
突然如有神助,第四次,我开窍了!考试差点满分! 接收信号处理后等到的有效信号,对波形进行声学特征提取,提取关键信息和表达语言含义的特征信息的声学特征提取技术
办公室某语音控制饮水机;
开会的时候ta时不时会来几句语音 化解紧张气氛
现在大家都喜欢ta的误报
LSTM和RCNN吗? 还有小波变换吧 本帖最后由 Bunny_Girl 于 2024-7-14 15:50 编辑
元音部分需要滑动窗口的傅里叶变化
辅音部分还需要其它的,比如小波变换
这些都只是基础,不是关键
这些基础,比如matlab中都有现成的
fft,自己编码,一般用蝶型算法吧,有基2的、基4的、混合基的 我看b站说,现在语音识别用机器学习不需要先fft了,直接分析就行。 文心:
https://blog.csdn.net/qq_59747472/article/details/135889615
https://blog.csdn.net/ByteKnight/article/details/132136666
https://blog.csdn.net/2301_79325657/article/details/132876593
小波变换(Wavelet Transform)在语音识别领域是一种非常有用的技术,它能够有效地提取语音信号的特征,从而帮助提升语音识别的准确性和效率。以下是关于小波变换在语音识别中应用的一些详细介绍:
一、小波变换的基本原理
小波变换是一种时频分析方法,它可以将信号分解成一系列小波函数的线性组合。这些小波函数在时域和频域上都具有局部化特性,即它们能够在不同的时间和频率范围内对信号进行精细的分析。这种特性使得小波变换特别适合于处理非平稳信号,如语音信号。
二、小波变换在语音识别中的应用
特征提取:
语音信号是一种典型的非平稳信号,其时频特性随时间变化。小波变换可以将语音信号分解成多个子带,每个子带都包含不同频率范围内的信息。
通过分析这些子带的特征,如能量、熵、过零率等,可以提取出对语音识别有用的特征向量。
噪声抑制:
语音信号在传输过程中可能会受到各种噪声的干扰,如环境噪声、设备噪声等。这些噪声会严重影响语音识别的准确性。
小波变换可以利用其多尺度分析的特性,对语音信号进行去噪处理。通过选择合适的阈值,可以将噪声子带中的大部分噪声去除,同时保留语音信号的重要特征。
语音识别模型:
提取到的特征向量可以用于训练语音识别模型。常用的模型包括隐马尔可夫模型(HMM)、深度神经网络(DNN)等。
在训练过程中,模型会学习语音信号与文本之间的映射关系。在识别阶段,模型会根据输入的语音信号的特征向量,输出对应的文本或命令。
三、实例分析
以基于Matlab的离散小波变换(DWT)算法实现数字语音识别为例:
数据准备:
准备一段包含数字语音的音频文件,并使用Matlab的audioread函数将其读取为数字信号。
小波变换:
使用Matlab中的wavedec或dwt函数对语音信号进行小波变换,将其分解为多个子带。
特征提取:
对每个子带进行特征提取,如计算能量、熵等统计特征。
模型训练:
使用提取的特征向量训练一个分类器,如支持向量机(SVM)、决策树等。
语音识别:
在测试阶段,对新的语音信号进行同样的处理,并使用训练好的模型进行识别。
四、总结
小波变换在语音识别领域具有广泛的应用前景。通过其多尺度分析的特性,可以提取出对语音识别有用的特征向量,并有效地抑制噪声干扰。结合现代机器学习算法,可以实现高精度的语音识别系统。同时,随着技术的不断发展,小波变换在语音识别中的应用也将不断得到拓展和完善。 本帖最后由 Bunny_Girl 于 2024-7-14 16:52 编辑
armok. 发表于 2024-7-14 15:28
傅里叶转换是我大学最难的一门课,没有之一。
那本教材是学校自己出的(上海交大),我记得很薄,只有几十 ...
(引用自2楼)
比如像这样的:
上面的是短时傅里叶变换,频域坐标作对数处理了
下面的是小波变换,也是二次处理过的(为了看着方便)(只是部分,不是全部)
armok. 发表于 2024-7-14 15:28
傅里叶转换是我大学最难的一门课,没有之一。
那本教材是学校自己出的(上海交大),我记得很薄,只有几十 ...
(引用自2楼)
国内教材不行,好多学校是用国外的教材。日本人写的图解漫画系列的教材也是浅显易懂。 kaldi开源方案,国内基本在这个基础上开发的 Bunny_Girl 发表于 2024-7-14 16:28
比如像这样的:
上面的是短时傅里叶变换,频域坐标作对数处理了
下面的是小波变换,也是二次处理过的(为 ...
(引用自9楼)
很好奇版主上班做啥的?对信号处理这么熟悉 redworlf007 发表于 2024-7-14 17:03
国内教材不行,好多学校是用国外的教材。日本人写的图解漫画系列的教材也是浅显易懂。 ...
(引用自10楼)
傅里叶变换涉及非常复杂的数学计算。不是数学专业的人会很吃力。 本帖最后由 Bunny_Girl 于 2024-7-15 11:10 编辑
armok. 发表于 2024-7-15 10:40
傅里叶变换涉及非常复杂的数学计算。不是数学专业的人会很吃力。
(引用自13楼)
你想象一下,把信号波形放到一根长绳上,然后按相应的周期绕圈
绕圈出来的样子,就刚好是映射到极坐标上的样子了,绕圈的中心就是原点
每个相位角度上的信号幅值叠加累计,就可以得到一个显而易见的结果了
每个周期频率对应一个上述绕圈的结果
傅里叶只是最基础的时域转频域变换而已 armok. 发表于 2024-7-15 10:40
傅里叶变换涉及非常复杂的数学计算。不是数学专业的人会很吃力。
(引用自13楼)
那确实,得有数学基础。但是国外的教材真的比国内高校的教材好。
页:
[1]