请教下现在的语音识别模块哪种好？

isakura · 发表于 2019-3-14 14:33:57

1、不联网的，识别率怎么样？

2、联网的，识别率，价格怎么样？

====

不会特定指定人，针对不同用户，就按照普通话来参考....

是否需要录音步骤？

====

有在用的吗？请推荐几个型号...

isakura · 发表于 2019-3-14 14:34:27

命令的话是产品固定几个命令...

weiwei4 · 发表于 2019-3-14 17:53:00

科大讯飞的联网模块用过，感觉一般般，简单几个命令问题不大
对数字这些的识别比较差一点

xad74 · 发表于 2019-3-14 19:56:41

芯唐 ISD9160

fghfguytu · 发表于 2019-3-14 20:02:46

同样关注，最近要上语音识别

蛋定 · 发表于 2019-3-14 21:06:03

感谢4楼的资料。

isakura · 发表于 2019-3-14 21:09:26

xad74 发表于 2019-3-14 19:56
芯唐 ISD9160

你用过吗？效果效果怎么样

dukelec · 发表于 2019-3-14 21:21:46

xad74 发表于 2019-3-14 19:56
芯唐 ISD9160

看介绍说支持很多语言，文档提到的语言列表没有找到，应该支持粤语的吧？

xad74 · 发表于 2019-3-15 09:29:11

isakura 发表于 2019-3-14 21:09
你用过吗？效果效果怎么样

没用，当时想用来着后来各种原因就没继续。主要是它的指令只能由厂商指定，没法自己生产

chenwei1919 · 发表于 2019-3-15 09:43:36

关注下，不久用得到

nanfang2000 · 发表于 2019-3-15 12:00:25

ISD9160我买了板子，结果找不到官方资料，谁有语音识别的资料吗？官方固件只有二进制文件，不知道怎么定义自己的命令

xyz543 · 发表于 2019-3-15 13:44:00

那 ISD9160 后面是要带 VFI 才能做语音识别的应用，而没带字或只带 FI 的就只能录放音的应用了。
我两种板子都有，这 ISD9160 语音识别的官方资料也有，直接向官网销售索取，
或是找这楼主去要去，我手上的这资料一大坨，但都已被我改为繁体版。
故建议有需求的人直接官网去索取，给的资料中有项工程模板就是这 ISD9160 板上的固件源码，我早些年已试过了！．．．

isakura · 发表于 2019-3-15 15:17:24

xyz543 发表于 2019-3-15 13:44
那 ISD9160 后面是要带 VFI 才能做语音识别的应用，而没带字或只带 FI 的就只能录放音的应用了。
我两种板 ...

谢谢，试过觉得准确度怎么样？

xyz543 · 发表于 2019-3-15 16:59:38

isakura 发表于 2019-3-15 15:17
谢谢，试过觉得准确度怎么样？

那个板上的例程记得貌似就是个开灯与关灯而已，我只上电测试完两分钟后收起放着了，至于没 VFI 的那片板连电都还没上过！哈～

Canbus007 · 发表于 2019-5-28 14:54:33

关于语音识别的识别率：
首先得要根据自己的应用环境的噪声来看，总体来说每个语音识别模块都会一个在环境噪声的指标前提下给出一个参考识别率（比如:在60DB环境噪声，识别距离1米，能达到80%）
我接触，且对比过的离线单模组方案，识别有讯飞、思必驰、出门问问、云知声、互问、新塘；同样单MIC的方案互问的识别率最好；
在线方案的，科大讯飞，去年谈是授权费起码15W以上，另单模组（硬件部分）的费用另算（40几RMB）;
另外还有出软解码方案--嵌入到自己的固件中，也有授权费；
总的来说，当前的语音识别这块发展还是比较快，技术上难度最大要解决如何让设备听得懂，降噪等算法各有个的千秋，其次，就是语义理解转换，再就是成本；

bbandpp · 发表于 2019-7-10 13:14:27

Canbus007 发表于 2019-5-28 14:54
关于语音识别的识别率：
首先得要根据自己的应用环境的噪声来看，总体来说每个语音识别模块都会一个在环境 ...

大侠，离线这块测试下来，有稳定点的吗？

Canbus007 · 发表于 2019-7-10 13:43:36

bbandpp 发表于 2019-7-10 13:14
大侠，离线这块测试下来，有稳定点的吗？

具体需求？
用在哪里？单MIC还是多MIC？
使用的环境噪声多少？
是固定位置唤醒还是需要移动状态也能有效唤醒？
需要语音打断吗？
是否需要唤醒词？
成本是否敏感？

bbandpp · 发表于 2019-7-10 13:48:50

Canbus007 发表于 2019-7-10 13:43
具体需求？
用在哪里？单MIC还是多MIC？
使用的环境噪声多少？

酒店房间内，成本稍微有点敏感，MIC没概念

Divingbear · 发表于 2019-7-10 19:01:46

你这个问题问的太宽泛了，不好回答啊。
1.语音识别部分，现在多是云端处理识别过程，所以不联网的话，基本谈不上识别率。
2.如果你只是识别特定的一些指令的话，可以做本地识别引擎，如果对于指令进行特别的训练的话，在酒店房间内应该能达到95%以上的识别率。
其他内容，等你有具体问题了再说，

bbandpp · 发表于 2019-7-10 19:20:39

Divingbear 发表于 2019-7-10 19:01
你这个问题问的太宽泛了，不好回答啊。
1.语音识别部分，现在多是云端处理识别过程，所以不联网的话，基本 ...

有没好的芯片方案推荐的，今年冒出很多酒店语音离线面板，不知道用的什么方案

leolink · 发表于 2019-7-10 19:59:43

LD3320 非特定人员特定语句命令识别，语句指令好像是50条，可以在线改变语句指令

Divingbear · 发表于 2019-7-11 09:52:27

bbandpp 发表于 2019-7-10 19:20
有没好的芯片方案推荐的，今年冒出很多酒店语音离线面板，不知道用的什么方案 ...

你这种应用方式，属于离线语音识别，我不是太熟悉。
简单处理的话，就是麦克风拾音，然后经过ADC，将数字音频信号与语音模型对比，然后给出匹配和不匹配的结论。
如果要考虑效果更好的话，可以考虑多路麦克风阵列，判定角度方位，进行适当位置的波束增强；
ADC处理可以考虑科胜讯或者芯唐的语音类ADC芯片，会有一定的降噪抑制干扰的功能，外加自动增益控制功能，
可以一定程度上提高音频的可识别性。
另外上位机应用方面，我懂的不多，请大佬们说说，我感觉你这个应用，在硬件方面实现不难，如果需要提高识别率的话，只要在语音输入的信噪比方面多用点儿心就好。主要是语音识别引擎的本地化处理方面，工作量会比较大。

roversicon · 发表于 2019-12-20 15:09:27

离线语音最大的好处就是对隐私的保护，另外就是无需复杂的联网操作，我们应用在语音台灯，风扇，语音遥控器上比较多，技术的更新比较快，识别的准确度和远场的能力都在提高，但也存在一点误触发的情况

Mr.D · 发表于 2019-12-20 21:37:29

百度百科官方解释

FAE 英文field application engineer的缩写，也叫现场技术支持工程师、售前售后服务工程师。

FAE不是产品研发人员，也不是业务员，而是介于两者之间，不仅有一定的客户源，还要有资深的产品知识和产品实际应用技术。

xiaoxu191 · 发表于 2019-12-21 17:15:15

ISD9160 基本上是玩具。
LD3320 非特定人员、特定语句命令识别，识别效果还行。但是必须环境安静，一点也不能抗噪声干扰，所以在实用场合一点也没有用，只是实验室的产品。另外，50条指令和唤醒词（必须要有）的改变需要对外部的单片机编程，操作不怎么方便。
科大讯飞就算了，抢钱。

naodanisme · 发表于 2019-12-21 21:18:13

Divingbear 发表于 2019-7-10 19:01
你这个问题问的太宽泛了，不好回答啊。
1.语音识别部分，现在多是云端处理识别过程，所以不联网的话，基本 ...

在策划一个接待展厅，规划识别讲解员的语音指令，在大屏上切换对应的场景信息。属于定制化项目需求。可以签协议合同费用可以私聊谈。是否可以聊聊，或者有满足这个需求的私聊。

naodanisme · 发表于 2019-12-21 21:19:34

naodanisme 发表于 2019-12-21 21:18
在策划一个接待展厅，规划识别讲解员的语音指令，在大屏上切换对应的场景信息。属于定制化项目需求。可以 ...

必须离线部署，因为确认过了，领导或者客人的对话可能涉及商业机密，因此不能联网。

Divingbear · 发表于 2019-12-23 09:37:12

naodanisme 发表于 2019-12-21 21:18
在策划一个接待展厅，规划识别讲解员的语音指令，在大屏上切换对应的场景信息。属于定制化项目需求。可以 ...

1.我做硬件的，只能从硬件方面给你一些建议，软件不太熟悉
2.首先你需要离线语音识别，离线语音识别的话，需要定制语音库，成本很高，钱少了人家估计都不愿意干。
3.其次，其实云端识别只是返回你的识别结果，你担心的领导谈话或者商业机密泄露的问题有些多余
4.在展示厅环境，人多声杂，建议不要使用远场语音，反而影响体验效果，使用两麦的近场识别效果更好

请教下现在的语音识别模块哪种好？

阿莫论坛20周年了！感谢大家的支持与爱护！！

本帖子中包含更多资源