想在单片机里面跑神经网络算法，是不是只有cortex-M55内核？

2020echo · 发表于 2022-3-11 15:24:33

还有别的选择吗？

但cortex-M55内核，似乎至今也没有落地啊！没有芯片啊！

akey3000 · 发表于 2022-3-11 15:49:19

看你具体应用，一般推荐soc方案，使用硬件dnn单元

hexenzhou · 发表于 2022-3-11 16:07:09

cortxm3跑过，H7也跑过。

amigenius · 发表于 2022-3-11 16:10:14

只要RAM足够大，大STC的51也可以跑，只是慢而已

t3486784401 · 发表于 2022-3-11 16:28:07

跑算法，和跑训练完全是两个量级的事情。
Arduino 也有专门的 ANN 库，但仅限于跑训练好的网络。

训练用单片机不划算，慢又没精度；但跑训练好的网络，开销并不大

wye11083 · 发表于 2022-3-11 18:25:11

t3486784401 发表于 2022-3-11 16:28
跑算法，和跑训练完全是两个量级的事情。
Arduino 也有专门的 ANN 库，但仅限于跑训练好的网络。

(引用自5楼)

你跑个实时人脸检测看看它跪不跪。。

akey3000 · 发表于 2022-3-11 18:45:06

t3486784401 发表于 2022-3-11 16:28
跑算法，和跑训练完全是两个量级的事情。
Arduino 也有专门的 ANN 库，但仅限于跑训练好的网络。

(引用自5楼)

训练好的网络，也要算力

t3486784401 · 发表于 2022-3-11 19:32:30

wye11083 发表于 2022-3-11 18:25
你跑个实时人脸检测看看它跪不跪。。
(引用自6楼)

这目测是连接口带宽都吃紧…

aammoo · 发表于 2022-3-11 19:41:45

K210

t3486784401 · 发表于 2022-3-11 19:46:31

akey3000 发表于 2022-3-11 18:45
训练好的网络，也要算力
(引用自7楼)

这的确，毕竟都是浮点起步

yelong98 · 发表于 2022-3-11 19:52:07

想多了，普通单片机就别想了

wye11083 · 发表于 2022-3-11 21:25:54

t3486784401 发表于 2022-3-11 19:46
这的确，毕竟都是浮点起步
(引用自10楼)

nop，一般的模型直接量化4.12定点都可以几乎无损跑整型计算。甚至玩得6的可以量化成8位甚至4位整型来计算。我不会玩，只会跑4.12量化了。。直接乘4096，然后计算时处理好上一H限，这甚至在有dsp的mcu里可以直接mul和mac来解决了（mac需要支持三元计算且为64bit整数加，即maca=coef*var+maca）。

iamseer · 发表于 2022-3-11 22:32:35

本帖最后由 iamseer 于 2022-3-11 22:37 编辑

wye11083 发表于 2022-3-11 21:25
nop，一般的模型直接量化4.12定点都可以几乎无损跑整型计算。甚至玩得6的可以量化成8位甚至4位整型来计算 ...
(引用自12楼)

强制要求8位运算的硬件也不少。嘉楠的K210和Google的Coral都只支持8位运算，倒是Intel计算棒支持16位浮点。
这篇文章讲量化挺清楚的
https://sahnimanas.github.io/post/quantization-in-tflite/

基本原则就是把浮点线性映射到0～255，反正卷积里面大家都是映射过的，那运算前映射一次，卷积完反向映射一次，整个卷积就能回避浮点运算。至于映射的参数，tensorflow或者K210转换工具都能做。也可以在训练时就量化好。

量化之后精度会损失一些，不过一般都还行。简单的模型损失几乎可以忽略。

Arduino官方有支持TensorFlow Lite的库，但是限定在cortex核心上跑，AVR之类不行。

我自己学习TensorFlow也手写了一个神经网络的代码跑在8位AVR上（Circuit Playground Classic, ATmega32u4 @ 8MHz）。三个全联接层对加速度传感器做分类。测试下来浮点需要60ms，8位运算13ms。
https://github.com/DeqingSun/Mac ... nt-on-8-bit-Arduino
代码全是C写的，所以卷积，循环之类的效率不算高，如果上汇编优化估计至少快30%
AVR跑模型也不是不行，简单的也能干，只是受限于主频和内存大小不大好使。当然上cortex就好多了。

话说回来，把“跑神经网络”和“实时人脸检测”混为一谈有抬杠之嫌。

想在单片机里面跑神经网络算法，是不是只有cortex-M55内核？

阿莫论坛20周年了！感谢大家的支持与爱护！！

本帖子中包含更多资源