搜索
bottom↓
回复: 15
打印 上一主题 下一主题

语音输入法的关键技术之一是不是有傅里叶变换?

[复制链接]

出0入0汤圆

跳转到指定楼层
1
发表于 2024-7-14 15:10:36 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 meng0232 于 2024-7-14 15:13 编辑

如题,想知道语音输入法是不是用了傅里叶变换进行语音区别,没学过傅里叶,不懂就问,就是了解一下用没用,

如果关键技术不是傅里叶转换,那语音识别的关键技术是什么?

阿莫论坛20周年了!感谢大家的支持与爱护!!

曾经有一段真挚的爱情摆在我的面前,我没有珍惜,现在想起来,还好我没有珍惜……

出16390入6832汤圆

2
发表于 2024-7-14 15:28:19 来自手机 | 只看该作者
傅里叶转换是我大学最难的一门课,没有之一。

那本教材是学校自己出的(上海交大),很薄,我记得只有75页。

老师讲课的时候听得云里雾去。考试前通宵攻读,读了3遍还有很多不理解。天快亮了,心想不好这次会挂科了。

突然如有神助,第四次,我开窍了!  考试差点满分!

出1325入193汤圆

3
发表于 2024-7-14 15:28:30 | 只看该作者
接收信号处理后等到的有效信号,对波形进行声学特征提取,提取关键信息和表达语言含义的特征信息的声学特征提取技术
办公室某语音控制饮水机;
开会的时候  ta时不时会来几句语音    化解紧张气氛  
现在大家都喜欢ta的误报

  

出0入13汤圆

4
发表于 2024-7-14 15:29:30 来自手机 | 只看该作者
LSTM和RCNN吗?

出0入12汤圆

5
发表于 2024-7-14 15:46:21 来自手机 | 只看该作者
还有小波变换吧

出0入86汤圆

6
发表于 2024-7-14 15:46:34 来自手机 | 只看该作者
本帖最后由 Bunny_Girl 于 2024-7-14 15:50 编辑

元音部分需要滑动窗口的傅里叶变化
辅音部分还需要其它的,比如小波变换
这些都只是基础,不是关键
这些基础,比如matlab中都有现成的
fft,自己编码,一般用蝶型算法吧,有基2的、基4的、混合基的

出420入0汤圆

7
发表于 2024-7-14 15:47:16 来自手机 | 只看该作者
我看b站说,现在语音识别用机器学习不需要先fft了,直接分析就行。

出0入12汤圆

8
发表于 2024-7-14 15:53:39 来自手机 | 只看该作者
文心:
https://blog.csdn.net/qq_59747472/article/details/135889615
https://blog.csdn.net/ByteKnight/article/details/132136666
https://blog.csdn.net/2301_79325657/article/details/132876593

小波变换(Wavelet Transform)在语音识别领域是一种非常有用的技术,它能够有效地提取语音信号的特征,从而帮助提升语音识别的准确性和效率。以下是关于小波变换在语音识别中应用的一些详细介绍:

一、小波变换的基本原理

小波变换是一种时频分析方法,它可以将信号分解成一系列小波函数的线性组合。这些小波函数在时域和频域上都具有局部化特性,即它们能够在不同的时间和频率范围内对信号进行精细的分析。这种特性使得小波变换特别适合于处理非平稳信号,如语音信号。

二、小波变换在语音识别中的应用

特征提取:

语音信号是一种典型的非平稳信号,其时频特性随时间变化。小波变换可以将语音信号分解成多个子带,每个子带都包含不同频率范围内的信息。
通过分析这些子带的特征,如能量、熵、过零率等,可以提取出对语音识别有用的特征向量。

噪声抑制:

语音信号在传输过程中可能会受到各种噪声的干扰,如环境噪声、设备噪声等。这些噪声会严重影响语音识别的准确性。
小波变换可以利用其多尺度分析的特性,对语音信号进行去噪处理。通过选择合适的阈值,可以将噪声子带中的大部分噪声去除,同时保留语音信号的重要特征。

语音识别模型:

提取到的特征向量可以用于训练语音识别模型。常用的模型包括隐马尔可夫模型(HMM)、深度神经网络(DNN)等。
在训练过程中,模型会学习语音信号与文本之间的映射关系。在识别阶段,模型会根据输入的语音信号的特征向量,输出对应的文本或命令。
三、实例分析

以基于Matlab的离散小波变换(DWT)算法实现数字语音识别为例:

数据准备:

准备一段包含数字语音的音频文件,并使用Matlab的audioread函数将其读取为数字信号。

小波变换:

使用Matlab中的wavedec或dwt函数对语音信号进行小波变换,将其分解为多个子带。

特征提取:

对每个子带进行特征提取,如计算能量、熵等统计特征。

模型训练:

使用提取的特征向量训练一个分类器,如支持向量机(SVM)、决策树等。

语音识别:

在测试阶段,对新的语音信号进行同样的处理,并使用训练好的模型进行识别。
四、总结

小波变换在语音识别领域具有广泛的应用前景。通过其多尺度分析的特性,可以提取出对语音识别有用的特征向量,并有效地抑制噪声干扰。结合现代机器学习算法,可以实现高精度的语音识别系统。同时,随着技术的不断发展,小波变换在语音识别中的应用也将不断得到拓展和完善。

出0入86汤圆

9
发表于 2024-7-14 16:28:31 | 只看该作者
本帖最后由 Bunny_Girl 于 2024-7-14 16:52 编辑
armok. 发表于 2024-7-14 15:28
傅里叶转换是我大学最难的一门课,没有之一。

那本教材是学校自己出的(上海交大),我记得很薄,只有几十 ...
(引用自2楼)


比如像这样的:
上面的是短时傅里叶变换,频域坐标作对数处理了
下面的是小波变换,也是二次处理过的(为了看着方便)(只是部分,不是全部)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

出0入36汤圆

10
发表于 2024-7-14 17:03:06 来自手机 | 只看该作者
armok. 发表于 2024-7-14 15:28
傅里叶转换是我大学最难的一门课,没有之一。

那本教材是学校自己出的(上海交大),我记得很薄,只有几十 ...

(引用自2楼)

国内教材不行,好多学校是用国外的教材。日本人写的图解漫画系列的教材也是浅显易懂。

出100入312汤圆

11
发表于 2024-7-14 17:28:30 来自手机 | 只看该作者
kaldi开源方案,国内基本在这个基础上开发的

出50入135汤圆

12
发表于 2024-7-15 10:37:52 | 只看该作者
Bunny_Girl 发表于 2024-7-14 16:28
比如像这样的:
上面的是短时傅里叶变换,频域坐标作对数处理了
下面的是小波变换,也是二次处理过的(为 ...
(引用自9楼)

很好奇版主上班做啥的?对信号处理这么熟悉

出16390入6832汤圆

13
发表于 2024-7-15 10:40:12 来自手机 | 只看该作者
redworlf007 发表于 2024-7-14 17:03
国内教材不行,好多学校是用国外的教材。日本人写的图解漫画系列的教材也是浅显易懂。 ...
(引用自10楼)

傅里叶变换涉及非常复杂的数学计算。不是数学专业的人会很吃力。

出0入86汤圆

14
发表于 2024-7-15 11:03:31 来自手机 | 只看该作者
本帖最后由 Bunny_Girl 于 2024-7-15 11:10 编辑
armok. 发表于 2024-7-15 10:40
傅里叶变换涉及非常复杂的数学计算。不是数学专业的人会很吃力。
(引用自13楼)


你想象一下,把信号波形放到一根长绳上,然后按相应的周期绕圈
绕圈出来的样子,就刚好是映射到极坐标上的样子了,绕圈的中心就是原点
每个相位角度上的信号幅值叠加累计,就可以得到一个显而易见的结果了
每个周期频率对应一个上述绕圈的结果

出0入4汤圆

15
发表于 2024-7-15 11:24:14 来自手机 | 只看该作者
傅里叶只是最基础的时域转频域变换而已

出0入36汤圆

16
发表于 2024-7-15 11:53:26 来自手机 | 只看该作者
armok. 发表于 2024-7-15 10:40
傅里叶变换涉及非常复杂的数学计算。不是数学专业的人会很吃力。
(引用自13楼)

那确实,得有数学基础。但是国外的教材真的比国内高校的教材好。
回帖提示: 反政府言论将被立即封锁ID 在按“提交”前,请自问一下:我这样表达会给举报吗,会给自己惹麻烦吗? 另外:尽量不要使用Mark、顶等没有意义的回复。不得大量使用大字体和彩色字。【本论坛不允许直接上传手机拍摄图片,浪费大家下载带宽和论坛服务器空间,请压缩后(图片小于1兆)才上传。压缩方法可以在微信里面发给自己(不要勾选“原图),然后下载,就能得到压缩后的图片。注意:要连续压缩2次才能满足要求!!】。另外,手机版只能上传图片,要上传附件需要切换到电脑版(不需要使用电脑,手机上切换到电脑版就行,页面底部)。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|Archiver|amobbs.com 阿莫电子技术论坛 ( 粤ICP备2022115958号, 版权所有:东莞阿莫电子贸易商行 创办于2004年 (公安交互式论坛备案:44190002001997 ) )

GMT+8, 2024-8-15 07:47

© Since 2004 www.amobbs.com, 原www.ourdev.cn, 原www.ouravr.com

快速回复 返回顶部 返回列表