stm32f4和TMS320C55,计算fft
谁更快?速度有多大差距? 主频相同的情况下,DSP还是优于ARM的。最近也在研究这个,用的ARM替代DSP正在等客户的测试报告。 pulan 发表于 2017-2-24 09:58主频相同的情况下,DSP还是优于ARM的。最近也在研究这个,用的ARM替代DSP正在等客户的测试报告。 ...
stm32f4有浮点运算单元,C55只是定点的。
如果同样要计算fft,C55会快吗?要快多少? justforfun 发表于 2017-2-24 10:00
stm32f4有浮点运算单元,C55只是定点的。
如果同样要计算fft,C55会快吗?要快多少? ...
C55不了解,我们用的407替代c6713,是浮点的。 pulan 发表于 2017-2-24 10:19
C55不了解,我们用的407替代c6713,是浮点的。
tms320c6713的主频多少?比407的运算速度快吗? justforfun 发表于 2017-2-24 10:27
tms320c6713的主频多少?比407的运算速度快吗?
Highest-Performance Floating-Point Digital
Signal Processor (DSP): TMS320C6713B
− Eight 32-Bit Instructions/Cycle
− 32/64-Bit Data Word
− 300-, 225-, 200-MHz (GDP and ZDP), and
225-, 200-, 167-MHz (PYP) Clock Rates
− 3.3-, 4.4-, 5-, 6-Instruction Cycle Times
客户以前用的200M的规格。 pulan 发表于 2017-2-24 10:29
Highest-Performance Floating-Point Digital
Signal Processor (DSP): TMS320C6713B
− Eight 32-Bit In ...
Eight 32-Bit Instructions/Cycle
这个肯定比stm32f4强很多啊,但是,价格应该也贵很多啊。 justforfun 发表于 2017-2-24 10:27
tms320c6713的主频多少?比407的运算速度快吗?
我们自己感觉407的速度达不到客户的运算速度。如果测试不通过,准备换成stm32F767试试。 justforfun 发表于 2017-2-24 10:31
Eight 32-Bit Instructions/Cycle
这个肯定比stm32f4强很多啊,但是,价格应该也贵很多啊。 ...
是啊,选择STM32的原因就是便宜而且开发比较熟悉。DSP只用过28335之类的,现在也不属于DSP了。 pulan 发表于 2017-2-24 10:33
是啊,选择STM32的原因就是便宜而且开发比较熟悉。DSP只用过28335之类的,现在也不属于DSP了。 ...
交给我们用C55来开发吧,呵呵。
上面是DSP运算中最常见的点积运算,完成一次点积运算Cortex-M4需要7个时钟周期
就算按照4个一组展开运算,Cortex-M4每个点积运算也需要(4*4+3)/4 = 4.5个时钟周期
但这个运算放在典型的DSP上(如SHARC),每个点积运算只需要一个时钟周期
也就是说Cortex-M4做点积运算速度只有DSP的五分之一,不过Cortex-M7是双发射,可以同时执行两条指令,速度应该能提升一倍!! 407 平方根计算,168MHz时钟,0.3us左右一次 本帖最后由 redroof 于 2017-2-24 12:39 编辑
XIVN1987 发表于 2017-2-24 11:35
上面是DSP运算中最常见的点积运算,完成一次点积运算Cortex-M4需要7个时钟周期
就算按照4个一组展开运算 ...
M7见到十年前设计的每个时钟8条指令的c6000,等于啥也不是,完全被秒杀
200兆的c6000在刚发布的那个年代,优化好了跑算法甚至能秒杀不够优化的3G主频的奔4!
十倍的主频也抵不过架构的优化… 我用STM32F767计算8192个点FFT,单精度float,不使用官方提供的dsp库情况下大概花费25ms左右, pulan 发表于 2017-2-24 10:29
Highest-Performance Floating-Point Digital
Signal Processor (DSP): TMS320C6713B
− Eight 32-Bit In ...
那是你客户之前用6713完全没优化吧?
足够优化了还要6713才能跑得动的算法,改用arm那么M4/M7这些连想都不要想,估计得双A9以上才有可能。 redroof 发表于 2017-2-24 12:52
那是你客户之前用6713完全没优化吧?
足够优化了还要6713才能跑得动的算法,改用arm那么M4/M7这些连想都 ...
目前把一部分运算挪到FPGA上了。 pulan 发表于 2017-2-24 13:16
目前把一部分运算挪到FPGA上了。
这还差不多。
如果正确使用,FPGA可以比DSP更快~
页:
[1]