搜索
bottom↓
回复: 13

有没有在mcu上能用的中文分词算法?

[复制链接]

出0入0汤圆

发表于 2023-3-16 11:12:19 | 显示全部楼层 |阅读模式
其实只要简单的按词典分词就够用了,但是词典有没有现成的,还有怎么才能快速找出来,不知道有没有现成的算法可以用。

阿莫论坛20周年了!感谢大家的支持与爱护!!

你熬了10碗粥,别人一桶水倒进去,淘走90碗,剩下10碗给你,你看似没亏,其实你那10碗已经没有之前的裹腹了,人家的一桶水换90碗,继续卖。说白了,通货膨胀就是,你的钱是挣来的,他的钱是印来的,掺和在一起,你的钱就贬值了。

出0入90汤圆

发表于 2023-3-16 13:03:44 | 显示全部楼层
是说怎么有这么奇怪的需求呢,看了下签名,就了解了

出0入1119汤圆

发表于 2023-3-16 13:30:52 | 显示全部楼层
python的jieba库里记得有不同规模的字典

出15入178汤圆

发表于 2023-3-16 13:31:58 | 显示全部楼层
本帖最后由 2nd 于 2023-3-16 13:43 编辑

可以参考:
百度自然语言处理(Natural Language Processing,NLP
举个例子:百度的千言数据集

编辑说明:追加细节回答楼主问题

出0入0汤圆

 楼主| 发表于 2023-3-16 13:38:00 | 显示全部楼层
2nd 发表于 2023-3-16 13:31
可以参考:百度自然语言处理(Natural Language Processing,NLP)
(引用自4楼)

百度的只是接口调用,在mcu上面,没啥实际意义吧

出0入0汤圆

发表于 2023-3-16 15:26:41 | 显示全部楼层
这个要MPU才能玩得转,MCU就算了。

出0入115汤圆

发表于 2023-3-16 18:22:04 | 显示全部楼层
全志芯片便宜速度快,不要再用mcu了

出0入17汤圆

发表于 2023-3-16 18:53:24 来自手机 | 显示全部楼层
如果老板一定要你在2毛钱的MCU上面去实现,该怎么办呢?

出0入0汤圆

发表于 2023-3-16 19:08:36 来自手机 | 显示全部楼层
三年模拟 发表于 2023-3-16 18:22
全志芯片便宜速度快,不要再用mcu了
(引用自7楼)

全志arm吗

出0入0汤圆

发表于 2023-3-16 19:23:57 | 显示全部楼层
三年模拟 发表于 2023-3-16 18:22
全志芯片便宜速度快,不要再用mcu了
(引用自7楼)

全志的哪个便宜呀,大概啥价位,想了解下

出0入1119汤圆

发表于 2023-3-16 19:28:31 | 显示全部楼层
本帖最后由 Himem 于 2023-3-16 19:32 编辑
jgw 发表于 2023-3-16 19:23
全志的哪个便宜呀,大概啥价位,想了解下
(引用自10楼)


f1c100s
CPU ARM9 400MHz, sip 32M DDR, 2K H.264 decoder, USB/UART/SPI/I2C/I2S/IR/TP/KEYPAD/CSI/CVBS IN/OWA…

价格最离谱的时候开发板才9块9

出200入2554汤圆

发表于 2023-3-16 19:30:39 来自手机 | 显示全部楼层
本帖最后由 t3486784401 于 2023-3-16 19:33 编辑

全离线情况下,除了词组穷举,应该没好办法。

假定常用字<8k(13bit),每个字平均有800个后缀可组成双字词语,总词量=6.4M,词库大小 6.4M*26bit = 20.8MB

这个词库可以遍历在线获得(前提是不被封号),然后作为数据编译进离线代码。

即使这样,对于诸如 “一次性交易” 这样的依旧无解

出0入0汤圆

发表于 2023-3-16 19:38:06 | 显示全部楼层
Himem 发表于 2023-3-16 19:28
f1c100s
CPU ARM9 400MHz, sip 32M DDR, 2K H.264 decoder, USB/UART/SPI/I2C/I2S/IR/TP/KEYPAD/CSI/CVBS ...
(引用自11楼)

太牛了,这个性价比真是绝了,很多产品都能用

出0入0汤圆

 楼主| 发表于 2023-3-16 19:55:20 | 显示全部楼层
t3486784401 发表于 2023-3-16 19:30
全离线情况下,除了词组穷举,应该没好办法。

假定常用字
(引用自12楼)

准备用C#写个软件,来生成这些词组库,然后词组按长度排列,比如6个字的词,5个字个词,。。。2个字的词语,然后按首字编码排序,匹配的时候优先匹配长的词语,二分查找,应该也不会太慢。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回帖提示: 反政府言论将被立即封锁ID 在按“提交”前,请自问一下:我这样表达会给举报吗,会给自己惹麻烦吗? 另外:尽量不要使用Mark、顶等没有意义的回复。不得大量使用大字体和彩色字。【本论坛不允许直接上传手机拍摄图片,浪费大家下载带宽和论坛服务器空间,请压缩后(图片小于1兆)才上传。压缩方法可以在微信里面发给自己(不要勾选“原图),然后下载,就能得到压缩后的图片。注意:要连续压缩2次才能满足要求!!】。另外,手机版只能上传图片,要上传附件需要切换到电脑版(不需要使用电脑,手机上切换到电脑版就行,页面底部)。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|Archiver|amobbs.com 阿莫电子技术论坛 ( 粤ICP备2022115958号, 版权所有:东莞阿莫电子贸易商行 创办于2004年 (公安交互式论坛备案:44190002001997 ) )

GMT+8, 2024-10-19 22:40

© Since 2004 www.amobbs.com, 原www.ourdev.cn, 原www.ouravr.com

快速回复 返回顶部 返回列表