有没有在mcu上能用的中文分词算法?
其实只要简单的按词典分词就够用了,但是词典有没有现成的,还有怎么才能快速找出来,不知道有没有现成的算法可以用。 是说怎么有这么奇怪的需求呢,看了下签名,就了解了 python的jieba库里记得有不同规模的字典 本帖最后由 2nd 于 2023-3-16 13:43 编辑可以参考:
百度自然语言处理(Natural Language Processing,NLP)
举个例子:百度的千言数据集
编辑说明:追加细节回答楼主问题 2nd 发表于 2023-3-16 13:31
可以参考:百度自然语言处理(Natural Language Processing,NLP)
(引用自4楼)
百度的只是接口调用,在mcu上面,没啥实际意义吧 这个要MPU才能玩得转,MCU就算了。 全志芯片便宜速度快,不要再用mcu了 如果老板一定要你在2毛钱的MCU上面去实现,该怎么办呢? 三年模拟 发表于 2023-3-16 18:22
全志芯片便宜速度快,不要再用mcu了
(引用自7楼)
全志arm吗
三年模拟 发表于 2023-3-16 18:22
全志芯片便宜速度快,不要再用mcu了
(引用自7楼)
全志的哪个便宜呀,大概啥价位,想了解下 本帖最后由 Himem 于 2023-3-16 19:32 编辑
jgw 发表于 2023-3-16 19:23
全志的哪个便宜呀,大概啥价位,想了解下
(引用自10楼)
f1c100s
CPU ARM9 400MHz, sip 32M DDR, 2K H.264 decoder, USB/UART/SPI/I2C/I2S/IR/TP/KEYPAD/CSI/CVBS IN/OWA…
价格最离谱的时候开发板才9块9
本帖最后由 t3486784401 于 2023-3-16 19:33 编辑
全离线情况下,除了词组穷举,应该没好办法。
假定常用字<8k(13bit),每个字平均有800个后缀可组成双字词语,总词量=6.4M,词库大小 6.4M*26bit = 20.8MB
这个词库可以遍历在线获得(前提是不被封号),然后作为数据编译进离线代码。
即使这样,对于诸如 “一次性交易” 这样的依旧无解 Himem 发表于 2023-3-16 19:28
f1c100s
CPU ARM9 400MHz, sip 32M DDR, 2K H.264 decoder, USB/UART/SPI/I2C/I2S/IR/TP/KEYPAD/CSI/CVBS ...
(引用自11楼)
太牛了,这个性价比真是绝了,很多产品都能用 t3486784401 发表于 2023-3-16 19:30
全离线情况下,除了词组穷举,应该没好办法。
假定常用字
(引用自12楼)
准备用C#写个软件,来生成这些词组库,然后词组按长度排列,比如6个字的词,5个字个词,。。。2个字的词语,然后按首字编码排序,匹配的时候优先匹配长的词语,二分查找,应该也不会太慢。
页:
[1]