for(i=0;i<100;i++)与for(i=100;i>0;i--)相比哪个效率高？

diyeyuye · 发表于 2013-11-8 16:51:23

如题，今天进火哥的初学者论坛时有个每日一题，我认为for(i=0;i<100;i++)与for(i=100;i>0;i--)这个两句话的效率是议案的，不过论坛提示我回答错误，求教了度娘，度娘也说是一样的。故来这里请教各位大神这个关于C的问题

f1yh1347 · 发表于 2013-11-8 16:55:07

肯定是后面一种效率高

AIHHLI · 发表于 2013-11-8 17:01:54

后一种，因为为零跳转这条指令jz(？)。
不过没必要纠结哈。

穷折腾 · 发表于 2013-11-8 17:06:48

在需要区分for(i=0;i<100;i++)与for(i=100;i>0;i--)哪个效率高的场合，应该使用汇编。

xinfa190 · 发表于 2013-11-8 17:12:12

keil 51环境，while(i--);与while（--i）；同一个i，执行的时间明显不相等

qlb1234 · 发表于 2013-11-8 17:16:05

穷折腾发表于 2013-11-8 17:06
在需要区分for(i=0;i0;i--)哪个效率高的场合，应该使用汇编。

+1
讓教科書上糾結哪箇效率更高的那個小明去死吧。

alias · 发表于 2013-11-8 17:23:49

如果for循环内不含有使用 i 的其它运算，我相信好的编译器会将 for(i=0;i<100;i++) 或 for(i=100;i>0;i--) 都变成相同的汇编指令。

Wxy8030 · 发表于 2013-11-8 17:25:58

真没必要纠结这个！

twitter · 发表于 2013-11-8 17:30:12

alias 发表于 2013-11-8 17:23
如果for循环内不含有使用 i 的其它运算，我相信好的编译器会将 for(i=0;i0;i--) 都变成相同的汇编指令。 ...

是的，我记得GCC的优化就是会把它变成倒计数的。

蓦然回首； · 发表于 2013-11-8 17:38:59

第一次发现这个问题涨姿势了

opa · 发表于 2013-11-8 17:46:02

视compiler而定，看你的compiler怎么做。

Gallen.Zhang · 发表于 2013-11-8 17:48:43

以前在一些资料上看过，说后面一种写法效率高。

unifax001 · 发表于 2013-11-8 18:20:34

这得看编译器如何做了

WANG_JINLONG · 发表于 2013-11-8 18:52:16

你要是懂汇编你就知道答案了

proteldxp · 发表于 2013-11-8 20:29:06

和编译器有关系，要看汇编代码。

imfv · 发表于 2013-11-8 20:53:50

学习了，以前总是喜欢用i++.

xingyuezh · 发表于 2013-11-8 20:57:18

一般来说是后一种，因为比较指令中对于0的判断比较省力，具体是多长的指令，不知道

schwarz · 发表于 2013-11-8 21:10:43

优化等级开到最高，两者的执行效率如果有区别的话，那么这个编译器毫无疑问是愚蠢的。
优化等级最低的话，应该后者可能会比前者效率更高，原因如楼上所述，大部分单片机机器指令里面判断0都要比判断100效率更高。

barryliu · 发表于 2013-11-8 23:36:48

do{
}while(--i);

RUANJI · 发表于 2013-11-9 00:08:58

个人觉得不仅跟编译器有关，还跟单片机的指令集有关！51单片机，是后者效率高。

schwarz · 发表于 2013-11-9 01:24:45

不过野火是搞CM3的，不幸的是CM3的测试结果是两者效率一样高。用arm-none-eabi-gcc 4.7.3(launchpad的那个，不是codesourcery)做测试平台。
编译选项

arm-none-eabi-gcc -c -mcpu=cortex-m3 -O0 -gdwarf-2 -mthumb -fomit-frame-pointer -Wall -Wstrict-prototypes -fverbose-asm -Wa,-ahlms=testbench.lst testbench.c -o testbench.o

复制代码

testbench.c内容如下：

#include <stdint.h>
int32_t main(void){
volatile uint8_t i;
for(i=0;i<100;i++);
for(i=100;i>0;i--);
for(;;);
}

复制代码

输出的汇编如下：

3:testbench.c **** volatile uint8_t i;
4:testbench.c **** for(i=0;i<100;i++);
62 .loc 1 4 0
63 0002 4FF00003 mov r3, #0 @ tmp141,
64 0006 8DF80730 strb r3, [sp, #7] @ tmp142, i
65 000a 07E0 b .L2 @
66 .L3:
67 .loc 1 4 0 is_stmt 0 discriminator 2
68 000c 9DF80730 ldrb r3, [sp, #7] @ tmp144, i
69 0010 DBB2 uxtb r3, r3 @ i.0, tmp144
70 0012 03F10103 add r3, r3, #1 @ tmp145, i.0,
71 0016 DBB2 uxtb r3, r3 @ i.1, tmp145
72 0018 8DF80730 strb r3, [sp, #7] @ tmp146, i
73 .L2:
74 .loc 1 4 0 discriminator 1
75 001c 9DF80730 ldrb r3, [sp, #7] @ tmp148, i
76 0020 DBB2 uxtb r3, r3 @ i.2, tmp148
77 0022 632B cmp r3, #99 @ i.2,
78 0024 F2D9 bls .L3 @,
5:testbench.c **** for(i=100;i>0;i--);
79 .loc 1 5 0 is_stmt 1
80 0026 4FF06403 mov r3, #100 @ tmp149,
81 002a 8DF80730 strb r3, [sp, #7] @ tmp150, i
82 002e 07E0 b .L4 @
83 .L5:
84 .loc 1 5 0 is_stmt 0 discriminator 2
85 0030 9DF80730 ldrb r3, [sp, #7] @ tmp152, i
86 0034 DBB2 uxtb r3, r3 @ i.3, tmp152
87 0036 03F1FF33 add r3, r3, #-1 @ tmp153, i.3,
88 003a DBB2 uxtb r3, r3 @ i.4, tmp153
89 003c 8DF80730 strb r3, [sp, #7] @ tmp154, i
90 .L4:
91 .loc 1 5 0 discriminator 1
92 0040 9DF80730 ldrb r3, [sp, #7] @ tmp156, i
93 0044 DBB2 uxtb r3, r3 @ i.5, tmp156
94 0046 002B cmp r3, #0 @ i.5,
95 0048 F2D1 bne .L5 @,
96 .L6:

复制代码

可见对于CM3平台，即使优先级开到最低，两个代码的执行效率没有分毫的差异。

dr2001 · 发表于 2013-11-9 02:05:06

对51来说，由于DJNZ等指令的存在，i--通常会更快一些。
对RISC处理器，如ARM，通常不会编码DJNZ这样的复合操作指令，因而二者效率不会有什么差异。
x86系统忘记了，不过CMP +　JNZ两条指令可以融合，执行的时候不用那么多周期。

yhsy1002 · 发表于 2013-11-9 08:57:35

这下长知识了，我也不知道

canspider · 发表于 2013-11-9 09:13:15

不说内核和编译器，出这题没有任何意义。

一匹狼 · 发表于 2013-11-9 09:39:38

对于51 ，后者效率高些

twitter · 发表于 2013-11-9 10:18:51

schwarz 发表于 2013-11-9 01:24
不过野火是搞CM3的，不幸的是CM3的测试结果是两者效率一样高。用arm-none-eabi-gcc 4.7.3(launchpad的那个 ...

你这个测试不完善，忽视了一个问题，

77 0022 632B cmp r3, #99 @ i.2,

立即数99因为不够大、不够随机，所以是能够被硬编码进汇编指令的。否则的话，在这之前是需要添加加载指令的。

diyeyuye · 发表于 2013-11-9 11:40:09

superAFE 发表于 2013-11-8 17:44
学了一也孔乙己研究一下茴香豆的“茴”字的写法。。

是后面一种效率高，在KEIL的默认等级中，后面的采用DJ ...

涨知识了，多谢

diyeyuye · 发表于 2013-11-9 11:41:50

Wxy8030 发表于 2013-11-8 17:25
真没必要纠结这个！

仅仅是学习的，要不是突然看到这个问题，我一直认为是这个两句话没有区别，呵呵，学习一下

diyeyuye · 发表于 2013-11-9 11:43:17

WANG_JINLONG 发表于 2013-11-8 18:52
你要是懂汇编你就知道答案了

很尴尬，不懂汇编

tsb0574 · 发表于 2013-11-9 13:19:01

不要纠结在这个问题上！！！

diyeyuye · 发表于 2013-11-9 15:55:00

tsb0574 发表于 2013-11-9 13:19
不要纠结在这个问题上！！！

恩恩

lryxr2507 · 发表于 2013-11-9 16:37:16

在初学51时看到过相关资料,说后一种的效率高一点,写程序时尽量采用这种结构.

schwarz · 发表于 2013-11-9 19:27:01

继续测试22楼代码，这次使用的编译器是mingw 4.7.2 32bit
编译选项：

gcc -O0 -Wall -Wstrict-prototypes -Wa,-ahlms=testbench.lst testbench.c -o testbench.o

复制代码

代码如下，两者执行速度并无差异

12 000e C644240F movb $0, 15(%esp)
12 00
13 0013 EB09 jmp L2
14 L3:
15 0015 8A44240F movb 15(%esp), %al
16 0019 40 incl %eax
17 001a 8844240F movb %al, 15(%esp)
18 L2:
19 001e 8A44240F movb 15(%esp), %al
20 0022 3C63 cmpb $99, %al
21 0024 76EF jbe L3
22 0026 C644240F movb $100, 15(%esp)
22 64
23 002b EB09 jmp L4
24 L5:
25 002d 8A44240F movb 15(%esp), %al
26 0031 48 decl %eax
27 0032 8844240F movb %al, 15(%esp)
28 L4:
29 0036 8A44240F movb 15(%esp), %al
30 003a 84C0 testb %al, %al
31 003c 75EF jne L5

复制代码

然后将优化选项-O0变成-O3 -Os为了执行速度最大优化，代码同上。

schwarz · 发表于 2013-11-9 20:23:43

这次用Microchip XC8 v1.12测试，编译选项如下：

D:\eda\Microchip\xc8\v1.12\bin\xc8.exe" --pass1 --chip=16F877A -Q -G --asmlist --double=24 --float=24 --opt=default,+asm,+asmfile,+speed,-space,-debug --addrqual=ignore --mode=pro -N31 --warn=0 --summary=default,-psect,-class,+mem,-hex,-file --output=default,-inhx032 --runtime=default,+clear,+init,-keep,-no_startup,+osccal,-resetbits,-download,-stackcall,+clib "--errformat=%%f:%%l: error: %%s" "--warnformat=%%f:%%l: warning: %%s" "--msgformat=%%f:%%l: advisory: %%s" -obuild/default/production/main.p1 main.c

复制代码

出来的汇编代码如下：

292 ;main.c: 54: volatile uint8_t i;
293 ;main.c: 55: for(i=0;i<100;i++);
294 0432 01FC clrf main@i ;volatile
295 0433 l670:
296 0433 3064 movlw 100
297 0434 027C subwf main@i,w ;volatile
298 0435 1803 btfsc 3,0
299 0436 2C39 goto l678
300 0437 0AFC incf main@i,f ;volatile
301 0438 2C33 goto l670
302 0439 l678:
303
304 ;main.c: 56: for(i=100;i>0;i--);
305 0439 3064 movlw 100
306 043A 00FC movwf main@i ;volatile
307 043B 08FC movf main@i,f
308 043C 1903 btfsc 3,2
309 043D 2C40 goto l686
310 043E l684:
311 043E 0BFC decfsz main@i,f ;volatile
312 043F 2C3E goto l684
313 0440 l686:

复制代码

很明显后者的执行速度要比前者快得多。
不做别的测试了，测试了arm和x86平台的gcc，结论是两个语句执行速度一样。而在Microchip的8位单片机编译平台后者比前者快。

woshiqinyikun · 发表于 2013-11-9 20:26:21

···感觉纠结这种问题···没有多大的意义，有这个时间和精力，不如去学一点高级的算法···

myxiaonia · 发表于 2013-11-9 20:32:38

schwarz 发表于 2013-11-9 01:24
不过野火是搞CM3的，不幸的是CM3的测试结果是两者效率一样高。用arm-none-eabi-gcc 4.7.3(launchpad的那个 ...

我记得cm3有czb和cznb指令，就是判0和跳转，可以合并比较和跳转2条指令

lanzhe1991 · 发表于 2013-11-9 20:35:43

前一种效率高。

diyeyuye · 发表于 2013-11-9 21:32:48

lanzhe1991 发表于 2013-11-9 20:35
前一种效率高。

汇编指令，只有与 0 比较大小，没有直接与 100 比较大小

i<100 等效为 i - 100 < 0
相比 i > 0 ,多了一步减法，因而效率更低。

正确答案为 B。

注：有的编译器开优化功能后，有可能使得两者差别不大，但也是后者更有效。

火哥给的解释哦

diyeyuye · 发表于 2013-11-9 21:33:38

woshiqinyikun 发表于 2013-11-9 20:26
···感觉纠结这种问题···没有多大的意义，有这个时间和精力，不如去学一点高级的算法··· ...

恩恩只是探讨一下而已

for(i=0;i<100;i++)与for(i=100;i>0;i--)相比哪个效率高？

阿莫论坛20周年了！感谢大家的支持与爱护！！