搜索
bottom↓
回复: 27

请教下现在的语音识别模块哪种好?

[复制链接]

出0入14汤圆

发表于 2019-3-14 14:33:57 | 显示全部楼层 |阅读模式

1、不联网的,识别率怎么样?

2、联网的,识别率,价格怎么样?

====

不会特定指定人,针对不同用户,就按照普通话来参考....

是否需要录音步骤?

====

有在用的吗?请推荐几个型号...

阿莫论坛20周年了!感谢大家的支持与爱护!!

你熬了10碗粥,别人一桶水倒进去,淘走90碗,剩下10碗给你,你看似没亏,其实你那10碗已经没有之前的裹腹了,人家的一桶水换90碗,继续卖。说白了,通货膨胀就是,你的钱是挣来的,他的钱是印来的,掺和在一起,你的钱就贬值了。

出0入14汤圆

 楼主| 发表于 2019-3-14 14:34:27 | 显示全部楼层
命令的话是产品固定几个命令...

出0入13汤圆

发表于 2019-3-14 17:53:00 | 显示全部楼层
科大讯飞的联网模块用过,感觉一般般,简单几个命令问题不大
对数字这些的识别比较差一点

出0入0汤圆

发表于 2019-3-14 19:56:41 | 显示全部楼层
芯唐 ISD9160

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

出0入0汤圆

发表于 2019-3-14 20:02:46 | 显示全部楼层
同样关注,最近要上语音识别

出250入8汤圆

发表于 2019-3-14 21:06:03 | 显示全部楼层
感谢4楼的资料。

出0入14汤圆

 楼主| 发表于 2019-3-14 21:09:26 | 显示全部楼层

你用过吗?效果效果怎么样

出715入1076汤圆

发表于 2019-3-14 21:21:46 | 显示全部楼层

看介绍说支持很多语言,文档提到的语言列表没有找到,应该支持粤语的吧?

出0入0汤圆

发表于 2019-3-15 09:29:11 | 显示全部楼层
isakura 发表于 2019-3-14 21:09
你用过吗?效果效果怎么样

没用,当时想用来着后来各种原因就没继续。主要是它的指令只能由厂商指定,没法自己生产

出0入4汤圆

发表于 2019-3-15 09:43:36 | 显示全部楼层
关注下,不久用得到

出0入0汤圆

发表于 2019-3-15 12:00:25 来自手机 | 显示全部楼层
ISD9160我买了板子,结果找不到官方资料,谁有语音识别的资料吗?官方固件只有二进制文件,不知道怎么定义自己的命令

出0入34汤圆

发表于 2019-3-15 13:44:00 | 显示全部楼层
那 ISD9160 后面是要带 VFI 才能做语音识别的应用,而没带字或只带 FI 的就只能录放音的应用了。
我两种板子都有,这 ISD9160 语音识别的官方资料也有,直接向 官网销售 索取 ,
或是找 这楼主 去要去,我手上的这资料一大坨,但都已被我改为繁体版。
故建议有需求的人直接官网去索取,给的资料中有项工程模板就是这 ISD9160 板上的固件源码,我早些年已试过了!...

出0入14汤圆

 楼主| 发表于 2019-3-15 15:17:24 | 显示全部楼层
xyz543 发表于 2019-3-15 13:44
那 ISD9160 后面是要带 VFI 才能做语音识别的应用,而没带字或只带 FI 的就只能录放音的应用了。
我两种板 ...

谢谢,试过觉得准确度怎么样?

出0入34汤圆

发表于 2019-3-15 16:59:38 | 显示全部楼层
isakura 发表于 2019-3-15 15:17
谢谢,试过觉得准确度怎么样?

那个板上的例程记得貌似就是个开灯与关灯而已,我只上电测试完两分钟后收起放着了,至于没 VFI 的那片板连电都还没上过!哈~

出0入0汤圆

发表于 2019-5-28 14:54:33 | 显示全部楼层
关于语音识别的识别率:
首先得要根据自己的应用环境的噪声来看,总体来说每个语音识别模块都会一个在环境噪声的指标前提下给出一个参考识别率(比如:在60DB环境噪声,识别距离1米,能达到80%)
我接触,且对比过的离线单模组方案,识别有讯飞、思必驰、出门问问、云知声、互问、新塘;同样单MIC的方案互问的识别率最好;
在线方案的,科大讯飞,去年谈是授权费起码15W以上,另单模组(硬件部分)的费用另算(40几RMB);
另外还有出软解码方案--嵌入到自己的固件中,也有授权费;
总的来说,当前的语音识别这块发展还是比较快,技术上难度最大要解决如何让设备听得懂,降噪等算法各有个的千秋,其次,就是语义理解转换,再就是成本;

出0入4汤圆

发表于 2019-7-10 13:14:27 | 显示全部楼层
Canbus007 发表于 2019-5-28 14:54
关于语音识别的识别率:
首先得要根据自己的应用环境的噪声来看,总体来说每个语音识别模块都会一个在环境 ...

大侠,离线这块测试下来,有稳定点的吗?

出0入0汤圆

发表于 2019-7-10 13:43:36 | 显示全部楼层
bbandpp 发表于 2019-7-10 13:14
大侠,离线这块测试下来,有稳定点的吗?

具体需求?
用在哪里?单MIC还是多MIC?
使用的环境噪声多少?
是固定位置唤醒还是需要移动状态也能有效唤醒?
需要语音打断吗?
是否需要唤醒词?
成本是否敏感?

出0入4汤圆

发表于 2019-7-10 13:48:50 | 显示全部楼层
Canbus007 发表于 2019-7-10 13:43
具体需求?
用在哪里?单MIC还是多MIC?
使用的环境噪声多少?

酒店房间内,成本稍微有点敏感,MIC没概念

出0入0汤圆

发表于 2019-7-10 19:01:46 | 显示全部楼层
你这个问题问的太宽泛了,不好回答啊。
1.语音识别部分,现在多是云端处理识别过程,所以不联网的话,基本谈不上识别率。
2.如果你只是识别特定的一些指令的话,可以做本地识别引擎,如果对于指令进行特别的训练的话,在酒店房间内应该能达到95%以上的识别率。
其他内容,等你有具体问题了再说,

出0入4汤圆

发表于 2019-7-10 19:20:39 | 显示全部楼层
Divingbear 发表于 2019-7-10 19:01
你这个问题问的太宽泛了,不好回答啊。
1.语音识别部分,现在多是云端处理识别过程,所以不联网的话,基本 ...

有没好的芯片方案推荐的,今年冒出很多酒店语音离线面板,不知道用的什么方案

出150入0汤圆

发表于 2019-7-10 19:59:43 | 显示全部楼层
LD3320 非特定人员 特定语句命令识别,语句指令好像是50条,可以在线改变语句指令

出0入0汤圆

发表于 2019-7-11 09:52:27 | 显示全部楼层
bbandpp 发表于 2019-7-10 19:20
有没好的芯片方案推荐的,今年冒出很多酒店语音离线面板,不知道用的什么方案 ...

你这种应用方式,属于离线语音识别,我不是太熟悉。
简单处理的话,就是麦克风拾音,然后经过ADC,将数字音频信号与语音模型对比,然后给出匹配和不匹配的结论。
如果要考虑效果更好的话,可以考虑多路麦克风阵列,判定角度方位,进行适当位置的波束增强;
ADC处理可以考虑科胜讯或者芯唐的语音类ADC芯片,会有一定的降噪抑制干扰的功能,外加自动增益控制功能,
可以一定程度上提高音频的可识别性。
另外上位机应用方面,我懂的不多,请大佬们说说,我感觉你这个应用,在硬件方面实现不难,如果需要提高识别率的话,只要在语音输入的信噪比方面多用点儿心就好。主要是语音识别引擎的本地化处理方面,工作量会比较大。

出0入0汤圆

发表于 2019-12-20 15:09:27 | 显示全部楼层
离线语音最大的好处就是对隐私的保护,另外就是无需复杂的联网操作,我们应用在语音台灯,风扇,语音遥控器上比较多,技术的更新比较快,识别的准确度和远场的能力都在提高,但也存在一点误触发的情况

出0入0汤圆

发表于 2019-12-20 21:37:29 | 显示全部楼层
百度百科官方解释

FAE  英文field application engineer的缩写,也叫现场技术支持工程师、售前售后服务工程师。

FAE不是产品研发人员,也不是业务员,而是介于两者之间,不仅有一定的客户源,还要有资深的产品知识和产品实际应用技术。

出0入0汤圆

发表于 2019-12-21 17:15:15 | 显示全部楼层
ISD9160 基本上是玩具。
LD3320 非特定人员、特定语句命令识别,识别效果还行。但是必须环境安静,一点也不能抗噪声干扰,所以在实用场合一点也没有用,只是实验室的产品。另外,50条指令和唤醒词(必须要有)的改变需要对外部的单片机编程,操作不怎么方便。
科大讯飞就算了,抢钱。

出0入0汤圆

发表于 2019-12-21 21:18:13 来自手机 | 显示全部楼层
Divingbear 发表于 2019-7-10 19:01
你这个问题问的太宽泛了,不好回答啊。
1.语音识别部分,现在多是云端处理识别过程,所以不联网的话,基本 ...

在策划一个接待展厅,规划识别讲解员的语音指令,在大屏上切换对应的场景信息。属于定制化项目需求。可以签协议合同费用可以私聊谈。是否可以聊聊,或者有满足这个需求的私聊。

出0入0汤圆

发表于 2019-12-21 21:19:34 来自手机 | 显示全部楼层
naodanisme 发表于 2019-12-21 21:18
在策划一个接待展厅,规划识别讲解员的语音指令,在大屏上切换对应的场景信息。属于定制化项目需求。可以 ...

必须离线部署,因为确认过了,领导或者客人的对话可能涉及商业机密,因此不能联网。

出0入0汤圆

发表于 2019-12-23 09:37:12 | 显示全部楼层
naodanisme 发表于 2019-12-21 21:18
在策划一个接待展厅,规划识别讲解员的语音指令,在大屏上切换对应的场景信息。属于定制化项目需求。可以 ...

1.我做硬件的,只能从硬件方面给你一些建议,软件不太熟悉
2.首先你需要离线语音识别,离线语音识别的话,需要定制语音库,成本很高,钱少了人家估计都不愿意干。
3.其次,其实云端识别只是返回你的识别结果,你担心的领导谈话或者商业机密泄露的问题有些多余
4.在展示厅环境,人多声杂,建议不要使用远场语音,反而影响体验效果,使用两麦的近场识别效果更好
回帖提示: 反政府言论将被立即封锁ID 在按“提交”前,请自问一下:我这样表达会给举报吗,会给自己惹麻烦吗? 另外:尽量不要使用Mark、顶等没有意义的回复。不得大量使用大字体和彩色字。【本论坛不允许直接上传手机拍摄图片,浪费大家下载带宽和论坛服务器空间,请压缩后(图片小于1兆)才上传。压缩方法可以在微信里面发给自己(不要勾选“原图),然后下载,就能得到压缩后的图片。注意:要连续压缩2次才能满足要求!!】。另外,手机版只能上传图片,要上传附件需要切换到电脑版(不需要使用电脑,手机上切换到电脑版就行,页面底部)。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|Archiver|amobbs.com 阿莫电子技术论坛 ( 粤ICP备2022115958号, 版权所有:东莞阿莫电子贸易商行 创办于2004年 (公安交互式论坛备案:44190002001997 ) )

GMT+8, 2024-9-28 15:24

© Since 2004 www.amobbs.com, 原www.ourdev.cn, 原www.ouravr.com

快速回复 返回顶部 返回列表