语音识别芯片 声控芯片 LD3320 非特定人/单芯片/动态编辑识别列表 ICRoute
看看大家能用这个芯片设计制造出什么样好玩又实用的新产品。:)# 单芯片,非特定人,动态编辑识别列表的识别芯片LD332X系列,可以用于所有的电子产品,只需要最简单的51作为控制芯片即可工作。
#
# 目前已有的语音识别芯片,一般基于特定人语音识别技术,芯片在出厂后无法修改识别的条目只能识别出厂前预制的识别内容,并且识别率低。或者是基于DSP +RAM+Flash+加密芯片的方式,由DSP运行存储在Flash中的软件来实现语音识别功能。这样的模块由于是由多个芯片和PCB组成,成本高,外围电路复杂,二次开发不容易。
#
# LD332X(LD3320为例),基于非特定人语音识别技术,可以动态编辑识别条目列表,只需要把要识别的条目的内容,以字符串的形式传入芯片就可以进行识别。真正实现了单芯片的语音识别,芯片内置固化了完整的语音识别搜索引擎和完整的语音特征库,还集成了高精度AD和DA电路,外围只需要用51级别的主控MCU通过并口或者SPI链接到LD3320的芯片PIN上,把麦克风链接到LD332X的AD-PIN上,就可以实现语音识别功能。
http://cache.amobbs.com/bbs_upload782111/files_22/ourdev_505619.jpg
LD3320芯片外观 (原文件名:LD3320A-4.jpg)
#
# 这样,就可以在智能家电/智能玩具/MP3/数码像框/导航等多个消费类产品中进行应用。在智能家电中,可以用语音来操作和控制家电,
# 遥控器中,用语音来直接选择要看的电视频道。说一声“体育台”就可以。
# 玩具中,设置几乎无限的对话脚本。随着对话内容的改变,不断地去动态更新识别列表,使玩具的智能性和趣味性大大提高。
# Mp3中,歌曲拷贝同时,把歌曲名字传入LD332X,用户就可以语音点歌。
# 蓝牙耳机中,可以通过语音命令来实现更加复杂和人性化的操作。
#
#
# 封装为QFN48 (7*7*0.85mm)封装。工作电压3.3v。参考设计板为2层电路板。
#
# 具体的信息可以查询 www.icroute.com。
http://cache.amobbs.com/bbs_upload782111/files_22/ourdev_505621.jpg
LD3320加51完成语音识别功能的评估板 (原文件名:LD3320-Board-small.jpg) mark 想到,要是坐在马桶上,用语音吩咐马桶冲冲洗洗的,是不是很。。。有创意? 价格多少?
好像还能播放MP3 大概说个概念价嘛~~~ 好东西! mk 楼上及楼下谁发邮件去询问下价格啊 听起来不错。
不过,你不公报价格,别人怎么买啊? 谨慎的怀疑,IBM的viavoice 和微软投巨资花费数十年时间打造的语音识别软件在顶级4核电脑上也无法实现(达到一定实用水平),非特定人语语音识别,必须经过一定的训练才能实现初步识别.本人的电脑用VISTA系统自带的语音识别软件,训练了大半年年也只能达到玩具级别,距离实用还差得很远.
如果楼主介绍的芯片真能的达到非特定人,不用训练,能够动态准确识别50个单词以上,那可以算得上是跨时代的产品了! 好东西,如果是真的话。 这个东西我喜欢,不知道可不可以申请样片呀 回复【9楼】 universal
这是两个不同的概念:
Viavoice是听写系统,想要达到的是语音技术的终极目标:直接让计算机听懂和理解人的说话。
而目前商用的语音识别,ASR,是基于关键词语列表的识别技术。
(具体关于这个的解释可以参考网站:http://www.icroute.com/web_cn/Tech_ASR.html)
所以在这里说50个识别条目,是说这个芯片支持用户自由编辑50个识别条目
这个技术目前完全可以商用,在很多手机中的“语音王”“语音拨号”的概念就是这种应用的典型。
只是在手机中,是软件的形式,需要借助手机的ARM处理器的强大运算能力,以及大量的RAM。
而提供这样的单芯片,是摆脱了软件对于CPU和RAM FLAsh的倚赖。
可以把这样的技术应用在所有有51的电子产品中就可以了。
目前有语音识别的硬件模块:
一种是用特定人的方式,在模块出厂前,就需要把识别的关键词的内容固定下来,模块出厂后不能再动态修改这些关键词语。
另一种是用一颗DSP加一颗Flash加一颗RAM加一颗管理加密芯片,共同完成语音识别功能。这样实际上是用软件的方式加一个硬件模块去提供语音识别功能。成本和对系统设计的复杂度有高的要求。
还有一种也是提供一颗合适的DSP加上PC机上的软件,每次要变化识别列表内容时,就在PC机上用软件生成需要的软件和特征库,然后下载到DSP中使用。
(个人认为:至少目前,在可以看见的技术范围内,看不到听写系统可以有进步的可能。因为在语音识别学术界,近十几年没有算法模型上的突破了。)
【9楼】 universal
谨慎的怀疑,IBM的viavoice 和微软投巨资花费数十年时间打造的语音识别软件在顶级4核电脑上也无法实现(达到一定实用水平),非特定人语语音识别,必须经过一定的训练才能实现初步识别.本人的电脑用VISTA系统自带的语音识别软件,训练了大半年年也只能达到玩具级别,距离实用还差得很远.
如果楼主介绍的芯片真能的达到非特定人,不用训练,能够动态准确识别50个单词以上,那可以算得上是跨时代的产品了! 楼主可以发个芯片的大致的价格给我么
我邮箱
icer1@163.com 回复【13楼】 icer1 阿客
已经请负责的同事发Mail到你邮箱里面了。 价格还是有兴趣的自行发信到公司(info@icroute.com)询问吧。
芯片产业的特点就是 成本 价格 和数量成强烈的关联关系。
这个片子:0.18工艺,大小7*7*0.85,数字逻辑混合模拟逻辑,QFN48封装,高精度AD/DA 这些是纯物理成本
而且最终的市场价格也取决于大的代理商的公开售价 mark 一下 这个评估板的很紧凑,拍摄很业余。
但是芯片功能如果真的很好的话,很有兴趣,哪位能便宜点搞到片子,我愿意做一下开发。希望不是忽悠啊,呵呵。 公司支持一片芯片起售
如果有想玩的,可以自己发Mail去购买
评估板是以押金的形式进行,因为希望这些评估板可以被反复利用起来,环保和节约。
因为如果要开发什么东西,
还是需要用芯片直接开发
没有办法在评估板上进行。 [回复] 【17楼】 PPLL028
这个评估板是作的很紧凑,因为主要是为了体现芯片的小巧和单芯片功能,不需要外围Flash/ADDA电路等完成识别功能。
而且也有助于一些需要设计面积比较高要求的产品,更直观地看芯片集成后的占用面积
至于摄影么,,,就是用数码相机拍了一张
至少没有跑焦吧。。。
功能上不忽悠
但是公司网站上也详细解释了语音识别技术能做到的和不能做到的。
避免出现误解这个芯片可以作到自然语言听写什么的,,那就是忽悠了。。。
【17楼】 PPLL028
这个评估板的很紧凑,拍摄很业余。
但是芯片功能如果真的很好的话,很有兴趣,哪位能便宜点搞到片子,我愿意做一下开发。希望不是忽悠啊,呵呵。
楼主本人是否能提供一些测试数据,
比如写入中文数字 0-49 的语音特征库,然后直接随意说出0-49中的任意一个数字.
看看芯片能正确输出对应代码或 YES 或 ON
看看拒真率能达到10%以下,识假率能达到小于5% 才可以说有一定的实用价值.
本人对此芯片很有兴趣,已经发邮件询问芯片及评估板报价,如果楼主能协助提供样品和评估板,本人可以
客观地测试一下芯片的功能,并把结果公布给大家,给更多有兴趣的人有个客观参考. 麻烦发些资料给我 包括价格和datasheetlinyu0395@gmail.com 语音识别的效果,是一个主观体验的结果。和以下的因素都有关系:
周围环境的声音
识别列表的内容设置
识别列表各个词语之间的相互差别程度
说话人的发音清晰/大小/快慢/认真程度/口音
用户操作流程的设置
等等。
而且目前在语音识别界,不存在一个公开的第三方测试标准。
所以各个厂家提供的识别率都是自己公布的。
我们认为,在正常生活环境,正常使用我们芯片,识别效果可以达到97%以上。
但是这个是供参考,
具体的效果,需要开发者根据自己的产品定义情况,进行实际开发和测试,
看在开发者定义的产品中,是否合用
芯片是基于这个算法架构的,可以见PC机上的Demo。
(http://www.icroute.com/download/ASRDemo-PC.zip)
请下载附件在PC机上试验一下。应该就是这样的效果。
语音识别芯片不是一个听写系统,而是一个基于关键词语列表的识别系统。
希望大家不要对这个产生误解 刚刚打电话询问了,10片一下价格是50元/pcs,评估板要押金200元,只能使用3个星期,呵呵 太贵了啊 凌阳的单片机也可以非特定人识别 就是不对小客户开放郁闷 公司已经把评估板的说明书也放在网上供下载了。http://www.icroute.com/web_cn/DownLoad.html LD3320评估板说明书.pdf
里面作了三个Demo:
1.语音点歌
2.智能家居命令操作
3.查询城市区号 mark jh 关注 我们做玩具语音识别的,特定人和非特定人的都有!呵呵... 楼上的会便宜些吧,谢谢。 经过一段时间的评估运作,公司从一些用户那里对评估板的评估过程中收集了反馈和疑问,
集成了一些解答和建议
写成了一个文档
大家可以在 http://www.icroute.com/web_cn/DownLoad.html 语音识别芯片LD3320高阶秘籍.pdf.
下载阅读这个文档,来加深对于LD3320芯片的理解。 mark 留个记号,认真学习。 黑莓的8110里面带个软件,好像就挺好的,用来语音拨号。可以识别数字,通讯录里的联系人,还有些指令
voicesignal 在手机上一般都是软件来实现语音识别功能,因为手机有强大CPU和足够的Flash/RAM,AD等资源
但是在其他电子产品里面。似乎软件就很难去实现了。
这个芯片能实现的就是手机里面的语音识别功能。好象现在手机界管有这个语音识别功能的手机叫“语音王”。。。 我和供应商联系了,他们的测试板已经做出,用户提供200块钱押金就可以体会一下,然后板子退回的话,押金会返回给你.
价格比较贵,1~10块以内要50RMB/PCS.11~100要40RMB/PCS.
不过量大的话,据说可以做到3.2 USD/PCS
看好他的动态列表识别,在很多方面还是挺实用的.
想买个来玩玩,不过还没动...
如果有网友想一起来玩玩做点有意思的东西,倒是可以叫上我,呵呵. 价格太高! 马克一下 不知道这个芯片对英文的支持怎么样呢?能判断英文不...
呃 能介绍几个其他的能识别英文的这类IC吗? 目前的LD3320是支持中文识别的芯片。
后续支持其他语种的芯片公司会陆续推出,但是芯片的研发和生产周期比较长。
其实呢,非特定人语音识别识别的是“音”,也就是“音标”标注出的关键词语
如果暂时只是用来识别一些很简单的英文单词或者字母
有一种偷懒的方法
就是用中文拼音去拼出英文, 哈哈,就象小时候刚开始学英语时用拼音标注一样:
比如
one ---> wan
two ---> tu
three ---> si rui
等等。
虽然这样绝对不是“英文非特定人语音识别”
但是可以偷懒先在简单场景用用。
呵呵
其他的IC,可能主要是sensory的产品吧,有英文识别的IC 呵呵 谢谢ls的解答因为做的项目主要是针对国外客户 基本不用中文 所以如果能直接支持E文会方便点^^ 不过如果将来用到国内用户的项目倒是可以考虑~
先去搜搜sensory产品先^^ 回复【9楼】universal
-----------------------------------------------------------------------
不用怀疑了我已经亲身体验过了即使旁边 放比较大的音乐都能比较准确的识别
不过就是 旁边几个人说话声音较大时 识别就不是很准了 呵呵 可以把我们公司的主页收藏起来,
在今后留意我们公司的消息
说不定什么时候就推出英文的芯片了哦。。。 :)
回复【42楼】freezing
呵呵 谢谢ls的解答因为做的项目主要是针对国外客户 基本不用中文 所以如果能直接支持E文会方便点^^ 不过如果将来用到国内用户的项目倒是可以考虑~
先去搜搜sensory产品先^^
----------------------------------------------------------------------- 哦 不知道你是哪个帐号申请的评估板
反正听同事说发出去了不少:)
多谢对我们产品的仔细评估和测试
对于语音识别来说,影响最大的肯定是“人声”了
因为所有的人的声音对于语音识别芯片来说,都是人的说话声音。
而其他的音乐,机械,风声,等等 ,如果不是把人声完全湮没掉,基本上都是可以视为背景噪声的
如果是在人声鼎沸的环境中,
要保证识别率,就需要把麦克风贴近说话人的嘴巴边(比如10 cm左右)
同时配合麦克风选用“近距离麦克风”
然后用“触发识别模式”
这样也能保证识别率在90%以上。
尤其是“触发识别”和“贴近嘴巴”这两点很重要
我们在博览会的大厅里面做过测试,
需要用户按照这样的情况去使用,效果也可以令人满意。
回复【43楼】hexixiaomao何夕小猫
回复【9楼】universal
-----------------------------------------------------------------------
不用怀疑了我已经亲身体验过了即使旁边 放比较大的音乐都能比较准确的识别
不过就是 旁边几个人说话声音较大时 识别就不是很准了
----------------------------------------------------------------------- mark
刚想了一下,做个小提示钟不错,比如对着她说:你点了?她说:现在是几点。还真不错呀,
放在布娃娃内部也不错送给情人。如情人对着布娃娃问:你爱我吗?他说:我爱你爱得死去活来。。。。 46楼的想法很到位,以前看到过国外有人作的一个闹钟,就是用的英文的语音识别来询问几点了。
不过那个闹钟作的样子非常可爱,是一个伸长了脖子的小野兽
由46楼的浪漫礼物设想推广开来:
如果布娃娃的脸是贴了送礼物人的照片 ,会不会更浪漫。。。
如果布娃娃的脸是贴了某某明星的照片,会不会更更******
如果布娃娃播放的声音也是某某明星的嗲嗲声音,***** ,会不会更更更******* mark mark 强烈mark 回复【2楼】tempstack
-----------------------------------------------------------------------
如果叫得大声点,隔壁一起冲,那会吓死... mark! mark 理想是美好的 好东西 mark 呵呵,最近有设计公司把这个芯片设计到点读笔里面去了。。。
教育产品,与小孩子声音互动,教育背古诗什么的。。。 国外有人对IPod作这么样的声控产品http://www.accendavoicecontrol.com/
看上去很Cool
国内会有人用LD3320芯片开发更强大更强大的产品么*_* 已经要推出模块了,方便大家更快速地开发和验证语音识别功能:
http://www.icroute.com/web_cn/M_LD3320.html
该模块将LD3320芯片与周围必要的容阻件集成在一块PCB上,将LD3320的芯片管脚通过2*20的排针引出。方便用户可以在面包板或者标准DIP40插座等设备上对LD3320芯片进行快速开发。
http://cache.amobbs.com/bbs_upload782111/files_29/ourdev_554042.jpg
M-LD3320模块正面 (原文件名:M_LD3320_TOP.jpg)
http://cache.amobbs.com/bbs_upload782111/files_29/ourdev_554043.jpg
M-LD3320模块背面 (原文件名:M_LD3320_BOTTOM.jpg) mark 好歹也在淘宝放个链接吧,购买可靠些。 语音识别 mark mark以下 mark下吧。。 标记一下,以后拿来做个好玩的玩具 大家普遍反馈,基于M-LD3320开发还是很容易的
最快的好象没两天就搞出来了。
呵呵,好象还有不少好的应用构思出来了。 马克 强烈要求淘宝上放置一份,以便购买。。。 强烈要求在淘宝放置,我会采购试用,不过价格不能太过离谱。 不错! 请问:可以在哪里买到?急需!!! 淘宝倒是上了,就是太贵了 公司没有通过淘宝销售的策略和界面,支持的是汇款购买。
因为公司面向各种公司之间的购买界面,都是汇款购买的方式
所以面向个人用户也是同一套界面,不会再单独开辟个淘宝购买的渠道
如果想从公司直接购买的,就按照说明直接发Mail就可以了。
但是不代表其他人不能在网上销售阿,呵呵,人家购买了一些,自己再去销售
还知道有小团队在用芯片作自己的开发板,可能回头也要放到淘宝上销售。 网站不错,简洁明了,资料丰富,我喜欢
请问mp3是怎么播放出来的,还是wav播放,难道还能实现mp3解码
50条关键词感觉少,为什么是50条,内部存储不够吗,实现1条和实现100条技术上相差很大吗,能支持500条吗 如果识别条目大于50个怎么用,比如我有100个手机号码,但只能存50个怎么办,虽然可以分两组,但要发两次命令,两片级联?
请问下循环模式下功耗多少,支持声音触发吗,就是声强达到一定强度时触发识别,声音比较弱时自动进入低功耗
SPI速率低了点吧,怎么也得10M啊 回复【75楼】first blood
网站不错,简洁明了,资料丰富,我喜欢
请问mp3是怎么播放出来的,还是wav播放,难道还能实现mp3解码
50条关键词感觉少,为什么是50条,内部存储不够吗,实现1条和实现100条技术上相差很大吗,能支持500条吗
-----------------------------------------------------------------------
1.
是支持MP3解码
2.
芯片阿,增加一点芯片的面积那就是成本阿。
这样不计成本就算能作出来500条/1000条 的 ,也是一个没有市场的产品,因为成本会太高
因为这是一个独立的专用芯片,所以在识别运算时是完全不需要外部的什么 flash /ram 的。
完全是单芯片的方案,因此,也决定了不可能不计成本地去扩大芯片的面积
必须要把成本和性能控制在市场都能接受的地方,或者是85%以上的市场能接受的地方
3.
后续根据市场评估,在规划100条的产品,也可能是200条。
但是芯片的研发和流片周期很长
都是以季度为单位来计算的。 回复【76楼】first blood
如果识别条目大于50个怎么用,比如我有100个手机号码,但只能存50个怎么办,虽然可以分两组,但要发两次命令,两片级联?
请问下循环模式下功耗多少,支持声音触发吗,就是声强达到一定强度时触发识别,声音比较弱时自动进入低功耗
spi速率低了点吧,怎么也得10m啊
-----------------------------------------------------------------------
1.
大于50条,不建议使用。
分成两组,需要用两片,但是要注意到语音识别的特性,就是不在识别列表中的词语引起的误识别是不可避免的。
这点在"http://www.icroute.com/web_cn/Tech_ASR.html#Editable-List"有详细说明
所以如果纯粹从逻辑上讨论,应该是这样:
分成两组,没组都有可能给出识别结果(零个,一个,或者多个)
主控MCU需要把刚才用户说的声音保存起来,
然后再把两组各自的识别结果混在一起,把刚才保存的声音送入这个列表,再识别一次
最后给出的才是识别结果。
所以,大于50条的,不建议去使用,需要用户从产品角度去避免规划大于50的识别应用场景
或者等待后续的大容量的产品。
2.
循环模式,就是相当于一直在作ASR语音识别,功耗是20~30mA
声音触发就必须打开语音识别功能
否则谁去判断声音强度?
所以不可能实现“就是声强达到一定强度时触发识别,声音比较弱时自动进入低功耗”
3.
SPI速度是根据MP3高码率上限来来设计。
所以1.5Mbps的SPI足以满足MP3的播放就可以了
设计那么高是浪费芯片资源和增加成本 回复【78楼】tempstack
感谢回复,spi速度高,主要是可以把MP3高速传进去,不用一直传,看来芯片内部是没有缓冲吧,那并口速度呢
能播mp3这个要显著的说明啊,这就比vs1003什么的mp3解码芯片好玩多了
声音触发就相当于一个声强比较器,当声音达到一定强度,比较器输出,触发你们的"触发识别模式",就是有声音时(达到一定强度)触发识别,没声音不用识别,自动低功耗侦听,浪费开头几十ms做判断,应该不会影响声音的结果的。有的录音器就这样的,没声音不录,有声音才录,节省电量和存储空间。对了,你们的可以录音吗。
并口是不是兼容i8080,csb片选,AD命令数据选择,读写信号和数据线,速度多少啊,手册上写机器周期,大概是多少ns
淘宝(阿里巴巴)还是一个很不错的平台,建议开设,很多电子爱好者都是在上面淘东西,淘宝上搜不到的东西表明这个东西不够火,不够白菜,不接小客户 mark 打电话问了,说要买样板,需要发邮件,貌似没有专门的销售人员处理销售问题呀,哈哈
不用电话用邮件的销售,哈哈,高 对了,样板价格80元每片,高端系统还可以接受,要想量产就不算低了 有意思,有兴趣
语音识别模块M-LD3320要80元一片? 我现在需要一片,请问需要多长时间才能拿到货啊?? wanson.cn
这个公司的也在做,不过好像架子挺大的,发邮件询问了居然没有答复我 有人试过吗,最好上个测试数据。 mark 有没有改进的芯片啊?想搞一个玩玩! 在淘宝上找到一家!大家看看!
http://shop37108648.taobao.com/?search=y 我买了一个M-LD3320,80块 我在用芯片是出现点问题,不能进入中断,想找高手请教一下……QQ1362897202 mark mark 买了,研究中…… 买了~在做呢~~嘿嘿 淘宝上找到一家,不错完全技术支持,买了一块研究中。
http://item.taobao.com/item.htm?id=12207752983 去年我有从那边采购几个LD3320模块,项目停止了,模块闲置,有需要的联系我!可以提供测试代码,本人调试通过,模拟SPI的通信方式,效果还不错! 如何交易,有淘宝店吗 学习了~~ MK,学习了解了 mark 以后来研究下
页:
[1]