zynq 的PS 共享给PL端的CLK 性能上不去 比较奇怪
本帖最后由 ackyee 于 2022-3-7 11:13 编辑1. PL端的逻辑接外部50M 有源晶振, 内部可以MMCM倍频到200M 跑图像处理没问题
2. PL端的逻辑 时钟接 PS(CLK 0)-->50m -->MMCM到 200M 竟然工作异常了, 降低频率到150M 才工作正常
3. PL端的逻辑 时钟接 PS(CLK 1)-->50m -->MMCM到 200M 竟然工作异常了, 降低频率到150M 也不能正常工作, 需要继续降低频率 (和情况2比 这里PS 从 时钟的口2引出)
接内部PS引出时钟的时候,时序约束好像不能对这个时钟进行约束
这个是正常的吗? 还是我这边多级倍频不符合 设计规范的
因为后面可能会增加展频而PS端的PLL不能增加这部分功能,所以 PS端的时钟输出还得接 PL端的MMCM
下一步试试看调整PS端 CLK 的输出模式, 调整不同的频率 ,切换IO PLL DDR PLL ARM PLL 看看效果
刚出来新的结果 把PS端的PLL 从 IO PLL 更换成 DDR PLL 后 ,PL端的 时钟可以 上升到160M 了,继续往上调看看, 看来IO PLL 和DDR PLL 还是有区别的 你配完有没有validate bd?我用了z7和zu+从来没有遇到你这情况,而且我频率都打到250mhz了。。pll没问题,但是你一定要看zynq配置页面的实际时钟。还有,复位拉好。 本帖最后由 ackyee 于 2022-3-7 15:20 编辑
wye11083 发表于 2022-3-7 12:10
你配完有没有validate bd?我用了z7和zu+从来没有遇到你这情况,而且我频率都打到250mhz了。。pll没问题, ...
(引用自3楼)
复位信号都有拉的, 我做的大面积卷积, 多重卷积合并,原先的板子上 50M外部晶振 可以正常工作
现在用PS 共享出来的时钟,计算出来的结果图像是有 整个是乱的,不明白 时钟更换了源 频率一样的情况下为什么会有影响(fpga 同型号 同平台,同速度等级,板不同),而且200-150M相差的还挺多的
下面打算 优化下图像处理部分,看看 能不能够通过优化逻辑,再提高速度 ackyee 发表于 2022-3-7 15:15
复位信号都有拉的, 我做的大面积卷积, 多重卷积合并,原先的板子上 50M外部晶振 可以正常工作
现在 ...
(引用自4楼)
卷积的话你注意内存带宽是不是爆掉了,需要加stall状态。小核大数据读写容易爆,大核小数据容易喂不饱。时钟的话约束是自动做的,你pr之后会有输出,仔细看看timing是不是有问题。还有就是内存是不是不稳定,比如我用7a200t跑432M乘法器内存1066时数据大部分异常,降到800就正确了。
另外,比较重要的一点,如果内核供电上不去的话,也会出错。576个DSP跑432M功耗大约能打到20W,内核供电必须得能提供30A以上的稳定持续电流才能保障可靠性。具体看你power estimator结果。 wye11083 发表于 2022-3-7 16:47
卷积的话你注意内存带宽是不是爆掉了,需要加stall状态。小核大数据读写容易爆,大核小数据容易喂不饱。 ...
(引用自5楼)
对哦 你说的功耗上的问题 ,我确实没有注意过 ,我明天去看一眼功耗 电源芯片确实有删减过换成功率更低的 但是 应该也是有余量的 ackyee 发表于 2022-3-7 20:35
对哦 你说的功耗上的问题 ,我确实没有注意过 ,我明天去看一眼功耗 电源芯片确实有删减过换成功率更 ...
(引用自6楼)
我给7a200留的是30a供电,实际跑起来之后热得一匹,加个散热片+小风扇都65度。 wye11083 发表于 2022-3-7 21:02
我给7a200留的是30a供电,实际跑起来之后热得一匹,加个散热片+小风扇都65度。 ...
(引用自7楼)
{:lol:} 我已经把算法优化了好多, 一个DSP CORE 当两个乘法器用, 可以同时计算两个 卷积{:dizzy:}
明天试试看把频率加上去的时候各路电源波形是否还稳定 wye11083 发表于 2022-3-7 16:47
卷积的话你注意内存带宽是不是爆掉了,需要加stall状态。小核大数据读写容易爆,大核小数据容易喂不饱。 ...
(引用自5楼)
对哦 你说的功耗上的问题 ,我确实没有注意过 ,我明天去看一眼功耗 电源芯片确实有删减过换成功率更低的 但是 之前看过好像是完全有余量的 ackyee 发表于 2022-3-7 21:31
我已经把算法优化了好多, 一个DSP CORE 当两个乘法器用, 可以同时计算两个 卷积
明 ...
(引用自8楼)
8 bit精度不好处理。另外累加也挺费资源+费电。我是io 108m,core 216m,dsp 432m,跑16bit,直接4/12bit量化之后跟float精度相差无几。
页:
[1]