meng0232 发表于 2024-7-14 15:10:36

语音输入法的关键技术之一是不是有傅里叶变换?

本帖最后由 meng0232 于 2024-7-14 15:13 编辑

如题,想知道语音输入法是不是用了傅里叶变换进行语音区别,没学过傅里叶,不懂就问,就是了解一下用没用,

如果关键技术不是傅里叶转换,那语音识别的关键技术是什么?

armok. 发表于 2024-7-14 15:28:19

傅里叶转换是我大学最难的一门课,没有之一。

那本教材是学校自己出的(上海交大),很薄,我记得只有75页。

老师讲课的时候听得云里雾去。考试前通宵攻读,读了3遍还有很多不理解。天快亮了,心想不好这次会挂科了。

突然如有神助,第四次,我开窍了!考试差点满分!

lb0857 发表于 2024-7-14 15:28:30

接收信号处理后等到的有效信号,对波形进行声学特征提取,提取关键信息和表达语言含义的特征信息的声学特征提取技术
办公室某语音控制饮水机;
开会的时候ta时不时会来几句语音    化解紧张气氛
现在大家都喜欢ta的误报

  

pasta2018 发表于 2024-7-14 15:29:30

LSTM和RCNN吗?

kv2004 发表于 2024-7-14 15:46:21

还有小波变换吧

Bunny_Girl 发表于 2024-7-14 15:46:34

本帖最后由 Bunny_Girl 于 2024-7-14 15:50 编辑

元音部分需要滑动窗口的傅里叶变化
辅音部分还需要其它的,比如小波变换
这些都只是基础,不是关键
这些基础,比如matlab中都有现成的
fft,自己编码,一般用蝶型算法吧,有基2的、基4的、混合基的

asma 发表于 2024-7-14 15:47:16

我看b站说,现在语音识别用机器学习不需要先fft了,直接分析就行。

kv2004 发表于 2024-7-14 15:53:39

文心:
https://blog.csdn.net/qq_59747472/article/details/135889615
https://blog.csdn.net/ByteKnight/article/details/132136666
https://blog.csdn.net/2301_79325657/article/details/132876593

小波变换(Wavelet Transform)在语音识别领域是一种非常有用的技术,它能够有效地提取语音信号的特征,从而帮助提升语音识别的准确性和效率。以下是关于小波变换在语音识别中应用的一些详细介绍:

一、小波变换的基本原理

小波变换是一种时频分析方法,它可以将信号分解成一系列小波函数的线性组合。这些小波函数在时域和频域上都具有局部化特性,即它们能够在不同的时间和频率范围内对信号进行精细的分析。这种特性使得小波变换特别适合于处理非平稳信号,如语音信号。

二、小波变换在语音识别中的应用

特征提取:

语音信号是一种典型的非平稳信号,其时频特性随时间变化。小波变换可以将语音信号分解成多个子带,每个子带都包含不同频率范围内的信息。
通过分析这些子带的特征,如能量、熵、过零率等,可以提取出对语音识别有用的特征向量。

噪声抑制:

语音信号在传输过程中可能会受到各种噪声的干扰,如环境噪声、设备噪声等。这些噪声会严重影响语音识别的准确性。
小波变换可以利用其多尺度分析的特性,对语音信号进行去噪处理。通过选择合适的阈值,可以将噪声子带中的大部分噪声去除,同时保留语音信号的重要特征。

语音识别模型:

提取到的特征向量可以用于训练语音识别模型。常用的模型包括隐马尔可夫模型(HMM)、深度神经网络(DNN)等。
在训练过程中,模型会学习语音信号与文本之间的映射关系。在识别阶段,模型会根据输入的语音信号的特征向量,输出对应的文本或命令。
三、实例分析

以基于Matlab的离散小波变换(DWT)算法实现数字语音识别为例:

数据准备:

准备一段包含数字语音的音频文件,并使用Matlab的audioread函数将其读取为数字信号。

小波变换:

使用Matlab中的wavedec或dwt函数对语音信号进行小波变换,将其分解为多个子带。

特征提取:

对每个子带进行特征提取,如计算能量、熵等统计特征。

模型训练:

使用提取的特征向量训练一个分类器,如支持向量机(SVM)、决策树等。

语音识别:

在测试阶段,对新的语音信号进行同样的处理,并使用训练好的模型进行识别。
四、总结

小波变换在语音识别领域具有广泛的应用前景。通过其多尺度分析的特性,可以提取出对语音识别有用的特征向量,并有效地抑制噪声干扰。结合现代机器学习算法,可以实现高精度的语音识别系统。同时,随着技术的不断发展,小波变换在语音识别中的应用也将不断得到拓展和完善。

Bunny_Girl 发表于 2024-7-14 16:28:31

本帖最后由 Bunny_Girl 于 2024-7-14 16:52 编辑

armok. 发表于 2024-7-14 15:28
傅里叶转换是我大学最难的一门课,没有之一。

那本教材是学校自己出的(上海交大),我记得很薄,只有几十 ...
(引用自2楼)

比如像这样的:
上面的是短时傅里叶变换,频域坐标作对数处理了
下面的是小波变换,也是二次处理过的(为了看着方便)(只是部分,不是全部)

redworlf007 发表于 2024-7-14 17:03:06

armok. 发表于 2024-7-14 15:28
傅里叶转换是我大学最难的一门课,没有之一。

那本教材是学校自己出的(上海交大),我记得很薄,只有几十 ...
(引用自2楼)

国内教材不行,好多学校是用国外的教材。日本人写的图解漫画系列的教材也是浅显易懂。

akey3000 发表于 2024-7-14 17:28:30

kaldi开源方案,国内基本在这个基础上开发的

Stm32Motor 发表于 2024-7-15 10:37:52

Bunny_Girl 发表于 2024-7-14 16:28
比如像这样的:
上面的是短时傅里叶变换,频域坐标作对数处理了
下面的是小波变换,也是二次处理过的(为 ...
(引用自9楼)

很好奇版主上班做啥的?对信号处理这么熟悉

armok. 发表于 2024-7-15 10:40:12

redworlf007 发表于 2024-7-14 17:03
国内教材不行,好多学校是用国外的教材。日本人写的图解漫画系列的教材也是浅显易懂。 ...
(引用自10楼)

傅里叶变换涉及非常复杂的数学计算。不是数学专业的人会很吃力。

Bunny_Girl 发表于 2024-7-15 11:03:31

本帖最后由 Bunny_Girl 于 2024-7-15 11:10 编辑

armok. 发表于 2024-7-15 10:40
傅里叶变换涉及非常复杂的数学计算。不是数学专业的人会很吃力。
(引用自13楼)

你想象一下,把信号波形放到一根长绳上,然后按相应的周期绕圈
绕圈出来的样子,就刚好是映射到极坐标上的样子了,绕圈的中心就是原点
每个相位角度上的信号幅值叠加累计,就可以得到一个显而易见的结果了
每个周期频率对应一个上述绕圈的结果

carefree1986 发表于 2024-7-15 11:24:14

傅里叶只是最基础的时域转频域变换而已

redworlf007 发表于 2024-7-15 11:53:26

armok. 发表于 2024-7-15 10:40
傅里叶变换涉及非常复杂的数学计算。不是数学专业的人会很吃力。
(引用自13楼)

那确实,得有数学基础。但是国外的教材真的比国内高校的教材好。
页: [1]
查看完整版本: 语音输入法的关键技术之一是不是有傅里叶变换?