原创: 用fpga 实现图形算法的硬件加速设计 有源码,能直接用
本例子我早先已发到别的论坛上,可知音甚少,今在贴之,望对大家有所帮助. 我不想本贴是一个很严肃的技术贴,而作为一种思想,理论联系实践武术最高境界--万源归宗,其实单片机,dsp ,cpu,都是有限状态机的特例,就数字电路来讲,只是其中的一部分,由此而来,统称的 类mcu,cpu等
都有其特定的长处与短处,软件的东西可以硬件做,硬件的东西可以软件模拟,南拳北腿,内外兼修,方能登堂入室, 心中有招,刀剑棍棒皆可用,
无论单片机,FPGA或是ARM DSP.
下面是Bresenham画线算法 分别用C语言和verilog 分别实现,这是我做的LCD控制器里硬件加速的一个模块,其它如画圆,字符,填充等可以以此类推
Bresenham画线算法 C程序如下:
int BresenhamLine ( int x1 , int y1 , int x2 , int y2 , int c)
{
int dx , dy ;
int tx , ty ;
int inc1 , inc2 ;
int d , iTag ;
int x , y ;
putpixel ( x1 , y1 , c ) ;
if ( x1 == x2 && y1 == y2 )
return 1 ;
iTag = 0 ;
dx = abs ( x2 - x1 );
dy = abs ( y2 - y1 );
if ( dx < dy )
{
iTag = 1 ;
Swap ( & x1 , & y1 );
Swap ( & x2 , & y2 );
Swap ( & dx , & dy );
}
tx = ( x2 - x1 ) > 0 ? 1 : -1 ;
ty = ( y2 - y1 ) > 0 ? 1 : -1 ;
x = x1 ;
y = y1 ;
inc1 = 2 * dy ;
inc2 = 2 * ( dy - dx );
d = inc1 - dx ;
while ( x != x2 )
{
if ( d < 0 )
d += inc1 ;
else
{
y += ty ;
d += inc2 ;
}
if ( iTag )
putpixel ( y , x , c ) ;
else
putpixel ( x , y , c ) ;
x += tx ;
}
return 0;
}
Swap ( int * a , int * b )
{
int tmp ;
tmp = * a ;
* a = * b ;
* b = tmp ;
}
FPGA实现如下verilog HDL :
module line
(
input page_address,
input clk_i,
input rstn_i,
input load_i,
input ack_i,
input signed sx,
input signed sy,
input signed ex,
input signed ey,
input f_color_i,
input b_color_i,
input data_i,
output data_o,
output addr_o,
output pset_start_o,
output reg line_over_o
);
regaddr;
reg rdata_i;
reg signed x;
reg signed y;
reg signed xsign;
reg signed ysign;
reg signed delta_x;
reg signed delta_y;
reg rdelta_x;
reg rdelta_y;
reg signed i;
reg signed e;
regchange;
reg state;
reg pset_load;
wireover_o;
// Declare states
parameter S0 = 0, S1 = 1, S2 = 2, S3 = 3,S4 = 4, S5 = 5,S6 =6, S7=7,S40 = 8;
// Determine the next state synchronously, based on the
// current state and the input
always @ (posedge clk_i or negedge rstn_i) begin
if (! rstn_i)
begin
line_over_o <= 1'b0;
rdata_i <= 8'd0;
addr <= 24'd0;
xsign <= 16'd0;
ysign <= 16'd0;
delta_x <= 17'd0;
delta_y <= 17'd0;
i <= 17'd0;
e <= 17'd0;
pset_load <= 1'b0;
state <= S0;
end
else
case (state)
S0:
if(load_i)
begin
line_over_o <= 1'b1;
x <= sx;
y <= sy;
delta_x <= ex - sx;
delta_y <= ey - sy;
state <= S1;
end
else
begin
line_over_o <= 1'b0;
state <= S0;
end
S1:
begin
if(delta_x < 0 ) begin rdelta_x <= (~ delta_x )+ 1'b1; xsign<= -1; end
else begin rdelta_x <=delta_x ; xsign <= 1;end
if(delta_y < 0 ) begin rdelta_y <= (~ delta_y )+ 1'b1; ysign <= -1; end
else begin rdelta_y <=delta_y ; ysign <= 1;end
state <= S2;
end
S2:
begin
if(rdelta_x < rdelta_y)
begin
delta_x <= rdelta_y;
delta_y <= rdelta_x;
change<= 1'b1;
end
else
begin
delta_x <= rdelta_x;
delta_y <= rdelta_y;
change<= 1'b0;
end
state <= S3;
end
S3:
begin
e <= ( delta_y * 2 ) - delta_x;
i <= 17'd1;
rdata_i<= data_i;
state <= S4;
end
S4:
begin
addr <=( ( y * 1024 ) + x ) + page_address;
pset_load <= 1'b1;
state <= S40;
end
S40:
begin
if(over_o == 1'b1 )
begin
pset_load <= 1'b0;
state <= S5;
end
else
state <= S40;
end
S5:
begin
if( e >= 0 )
begin
if(change == 1'b1) x <= x + xsign;
else y <= y + ysign;
e <= e + ( delta_x * 2);
state <= S5;
end
else
state <= S6;
end
S6:
begin
if( change == 1'b1) y <= y + ysign;
else x <= x + xsign;
e <= e + ( delta_y * 2);
state <= S7;
end
S7:
begin
if(i < delta_x )
begin
i <= i + 1'b1;
state <= S4;
end
else
begin
line_over_o <= 1'b0;
state <= S0;
end
end
endcase
end
endmodule
顶,一直不懂用FPGA实现算法 楼主你太牛了! 谢谢,MARK。 fpga 实现的, 记号 mark 谢谢 支持楼主,不错 支持楼主,顶!
这个要顶。。。 楼主心中有剑 状态机真是控制时序和跳转的好东西啊 现在刚开始上手FPGA,学习了!
FPGA已经1年多没用了
楼主厉害 其实Verilog 的实现不必拘泥于对于C算法的翻译。比如说求绝对值和dx dy交换那一段在时下流行的FPGA里面完全可以用组合逻辑完成,不会成为timing的瓶颈,不必占用状态,可以减小启动时的延迟。如果实际应用中有大量曲线(由短的直线构成),启动延迟累积起来还是很可观的。
另外我没有仔细看你的代码(个人习惯,状态机的组合逻辑和时序逻辑分开写,所以不太习惯看很长的状态机),不知道你有没有实现每个时钟一个像素的执行效率?
第三就是作为画线功能模块,还是把显存地址的计算分出来比较好,便于灵活配置和移植。还是直接输出XY比较好。
第四就是如果有一个暂停信号,可以暂停画线状态机会很有用。
最后就是想问问LZ有没有计划实现一个反锯齿画线的模块(采用吴小林算法)? 本帖最后由 hxl_led 于 2012-4-1 21:08 编辑
simmconn 发表于 2012-4-1 10:33 static/image/common/back.gif
其实Verilog 的实现不必拘泥于对于C算法的翻译。比如说求绝对值和dx dy交换那一段在时下流行的FPGA里面完全 ...
呵呵,把高手引出来了,由于没有太多的时间回复每位网友,恕不一一回复了.
一我开始就讲了这不是一个纯技术的贴子,我说的是做事要有一种思想,然后是理论联系实践
假如您会一种语言,您懂spi时序,那么您就能操作spi ,又假如您懂SD卡操作时序,那您就能读
写SD卡扇区,又假如您懂fat32 那您就能用读SD卡中的文件.不论这种语言是C 还是VHDL
这需用理论基础,这需要软件的,和硬件的,您要清楚您的每句所描述的意义及动作.
不知我这样说,大家能不能明白我的意思.
二 无论一段式状态机,还是二段式状态机,还是组合和时序分开好等,还是程序风格,这些不是
本贴希望讨论的,那样会引出更多的争辩,只有更好,没有最好.
三 硬件加速处理图形算法可以用在 雕刻机脱机控制上, 如simmconn大侠能为大家提供好的程序
那么阿莫老大及广大网友都会热烈欢迎的 就您的程序,真不敢相信您是用fpga的老手。 本帖最后由 hxl_led 于 2012-4-1 20:48 编辑
xcreat 发表于 2012-4-1 17:27 static/image/common/back.gif
就您的程序,真不敢相信您是用fpga的老手。
请大侠看看,下面的一段.及格吗
parameter IDLE=8'h01, MAC=8'h02, IEEE=8'h04, IP=8'h08,
ARP=8'h10,UNK=8'h20, GET=8'h40, CON=8'h80;
always@(current or p_empty or p_length or counter or GET_counter
or len_type or CON_counter)
begin
next=8'hxx;
case(current)
IDLE: begin
if(!p_empty)
next=GET;
else
next=IDLE;
end
GET: begin
if(GET_counter==4)
next=MAC;
else
next=GET;
end
MAC: begin
if(counter==12)
next=CON;
else
next=MAC;
end
CON: begin
if(CON_counter==3)begin
next=ARP;
next=UNK;
end
else
next=CON;
end
IEEE: begin
if(counter==20)
next=CON;
else
next=IEEE;
end
UNK: begin
if(counter==p_length)
next=IDLE;
else
next=UNK;
end
default: next=IDLE;
endcase
end
always@(posedge clk or negedge rst)
begin
if(!rst) current<=IDLE;
else current<=next;
end
always@(posedge clk or negedge rst)
begin
if(!rst) begin
GET_counter <=3'b000;
p_rd <=1'b0;
p_addr <=13'h0000;
end
else begin
if(next==GET) begin
GET_counter<=GET_counter+1'b1;
case(GET_counter)
0: p_rd <=1'b1;
1: p_rd <=1'b0;
3: p_addr <=p_addr+1'b1;
endcase
end
else begin
GET_counter<=3'b000;
p_rd<=1'b0;
case(next)
IDLE: p_addr <=13'h0000;
default:
p_addr <=p_addr+1'b1;
endcase
end
end
end
always@(posedge clk or negedge rst)
begin
if(!rst) CON_counter <=2'b00;
else begin
if(next==CON) 刚学fpga,状态机这东西真的是很难理解 hxl_led 发表于 2012-4-1 15:58 static/image/common/back.gif
呵呵,把高手引出来了,由于没有太多的时间回复每位网友,恕不一一回复了.
一我开始就讲了这不是一个纯技 ...
不至于吧,两段代码就上升到“做事要有一种思想,然后是理论联系实践”的高度。我服了LZ。
不过看帖子的题目好像看不出什么非技术的内容啊
《原创: 用fpga 实现图形算法的硬件加速设计 有源码,能直接用》
LZ既然要规定贴子里可以讨论什么,不可以讨论什么,那我只好道声抱歉,进错地方,打扰了。
本来也没想讨论写代码的风格,只是想解释一下为什么我没有仔细读代码。
想问问LZ画线引擎的效率有没有达到每个时钟一个像素,仅此而已——结果还没有得到答案。
Bresenham画线算法的Verilog代码放狗一搜就能找到好几个。我是用开源的,改改能用就行。 这种实现方式要占用多少资源?
SIMMCON所说达到1pixel / clk应该可以达到,资源耗费相当巨大,但在画曲线时却相当高效 simmconn 发表于 2012-4-3 09:48 static/image/common/back.gif
不至于吧,两段代码就上升到“做事要有一种思想,然后是理论联系实践”的高度。我服了LZ。
不过看帖子的 ...
请高手simmconn老师将"Bresenham画线算法的Verilog代码放狗一搜就能找到好几个。我是用开源的,改改能用就行"上传一,两个来,让大家也
开广眼界,多些学习参考. 也请 网友可不用理会我的胡言乱语,向simmconn 老师学习!
高手称不上,老师也不敢当(要是有LZ这样的学生就更不敢了)。不要向我学习,要向以下代码的原作者们学习:
http://people.ece.cornell.edu/land/courses/ece5760/FinalProjects/f2009/Adam_Tom/graphics_engine_12_9_09/index.html
(来自康奈尔大学电子系的完整的图形系统,俺用的画线引擎就是从这儿来的)。
http://web.mit.edu/6.111/www/f2008/projects/aureus_Project_Final_Report.pdf
(来自MIT的游戏机项目,其中有硬件源代码)。
其实Bresenham画线引擎在国外电子工程专业本科生和研究生课程中很常见,没有什么大不了的。真不知道触动LZ哪根神经了。 谢啦!楼主真的很厉害 simmconn 发表于 2012-4-3 13:47
高手称不上,老师也不敢当(要是有LZ这样的学生就更不敢了)。不要向我学习,要向以下代码的原作者们学习: ...
simmconn老师上传的资料很好,学习中,老师也没触动我的神经,大人不记小人过,您老消消气 我还停留在c绘图上,没到达lz这样的水平啊 值得参考! 顶起! MARK........ 标记一下改天研究 mark!牛逼 做人要谦虚,我要向以上两位老大学习,这也是我所要学习的知识谢谢了 好 fpga实现算法 大侠们境界很高啊,自叹不如。 支持一下 simmconn 发表于 2012-4-3 13:47 static/image/common/back.gif
高手称不上,老师也不敢当(要是有LZ这样的学生就更不敢了)。不要向我学习,要向以下代码的原作者们学习: ...
还有没有这么好的网址介绍了,谢谢 谢谢分享 不错不错啊,mark!!! 谢谢分享 这个真的是不错!!! MArk,学习啦 学习一下利用FPGA实现算法。这个实例不错!既有C又有HDL.可以对比着学习下实现算法的思路。 mark~~~~~~~~~~ 这个强 值得向hxl_led学习,向hxl_led学习不是指他写的代码,而是能把自己的想法来和大家共享和讨论,这是最难得可贵的;另外,随便鄙视一下simmconn,他的水平可能是很高,但是不和大家共享那什么也不是; 不错,mark 留着 以后肯定用得着! {:victory:} great,mark 顶一下楼主…… 支持楼主无私的分享!! 哎,mark一下吧。。。大神 不错,学习学习 本帖最后由 sky5566 于 2012-11-13 02:04 编辑
simmconn 发表于 2012-4-1 10:33 static/image/common/back.gif
其实Verilog 的实现不必拘泥于对于C算法的翻译。比如说求绝对值和dx dy交换那一段在时下流行的FPGA里面完全 ...
强~~有没有 3D 的..{:sweat:}
听说有一款 3D engine on FPGA 不知道那里下{:cry:}
hxl_led 发表于 2012-4-1 10:33 static/image/common/back.gif
另外楼主的问题只有程序加速作用,并没有印射到实际的 VGA RAM去,所以你的范例与真正的硬件加速绘图无关.
真正的硬件加速不是这样设计的,19楼说的对.{:titter:}
程序硬化 NIOS II SOPC 有提供设定方式,但是实际效果也没快多少...{:lol:}
marking 顶起,向你们学习 看到用状态机写的东西感到很清晰,比较好理解。 mark,两位大神学习。。。 资料很不错。。 mark~~~~~~~~~~~~ 顶一个,学习了。 http://web.mit.edu/6.111/www/index.html,之前也看到过这个网站MIT的,大概就是FPGA数字系统设计吧,看看里面的项目。再看看学校老师布置的题目,一下发现差距了。PS我们也有类似的一个课设,内容是广告灯、和自动售货机。。。。。。。
页:
[1]