zl程序教程

您现在的位置是:首页 >  其他

当前栏目

Code Inside:为什么处理已排序数组比处理未排序数组更快?

2023-03-09 22:24:48 时间

很久以前在stackoverflow上看到下面这段代码,今天忍不住把它摘录过来。

  1. #include <algorithm>  
  2. #include <ctime>  
  3. #include <iostream>  
  4.    
  5. int main()  
  6. {  
  7.     // Generate data  
  8.     const unsigned arraySize = 32768;  
  9.     int data[arraySize];  
  10.    
  11.     for (unsigned c = 0; c < arraySize; ++c)  
  12.         data[c] = std::rand() % 256;  
  13.    
  14.     // !!! With this, the next loop runs faster  
  15.     std::sort(data, data + arraySize);  
  16.    
  17.     // Test  
  18.     clock_t start = clock();  
  19.     long long sum = 0;  
  20.    
  21.     for (unsigned i = 0; i < 100000; ++i)  
  22.     {  
  23.         // Primary loop  
  24.         for (unsigned c = 0; c < arraySize; ++c)  
  25.         {  
  26.             if (data[c] >= 128)  
  27.                 sum += data[c];  
  28.         }  
  29.     }  
  30.    
  31.     double elapsedTime = static_cast<double>(clock() - start) / CLOCKS_PER_SEC;  
  32.    
  33.     std::cout << elapsedTime << std::endl;  
  34.     std::cout << "sum = " << sum << std::endl;  

上面的程序在保留std::sort(data, data + arraySize);语句时,程序运行时间是1.93 

但去掉排序语句后,程序运行时间是11.54

问题:为什么会出现这种情况?

解答分支预测

程序分支

考虑以下if语句块。对于处理器来说,就是一个分支指令,如下:

处理器每次遇到一条分支时,它都不知道该走哪一条道。这时候该怎么办?程序停下来,等待前面的指令执行完,得到确切的结果后,再接着走某一条分支。

现代处理器都支持指令并行处理和超流水线作业。因此,当处理器遇到程序分支时,都会去猜测应该走哪一条分支。

如果猜对了,程序接着流畅运行。如果猜错了,则处理器需要做一些额外的工作,再次回到那条正确的分支。

因此,如果处理器每次都猜错,那程序的运行时间就会边长。

这就是上面的代码为什么运行时间会相差那么大的原因。

对于分支语句:

  1. if (data[c] >= 128)  
  2.     sum += data[c]; 

在保留std::sort(data, data + arraySize);的情况下。数组data中的内容是这样的:

  1. T = branch taken  
  2. N = branch not taken  
  3.    
  4. data[] = 01234, ... 126127128129130, ... 250251252, ...  
  5. branch = N  N  N  N  N  ...   N    N    T    T    T  ...   T    T    T  ...  
  6.    
  7.        = NNNNNNNNNNNN ... NNNNNNNTTTTTTTTT ... TTTTTTTTTT  (easy to predict) 

在未排序的情况下,数组data中的内容是这样的:

  1. data[] = 22618512515819814421779202118,  14150177182133, ...  
  2. branch =   T,   T,   N,   T,   T,   T,   T,  N,   T,   N,   N,   T,   T,   T,   N  ...  
  3.    
  4.        = TTNTTTTNTNNTTTN ...   (completely random - hard to predict) 

也就是说,在已经排序的情况下,处理器便能更好的预测分支了。因此,程序也运行的更快。

关于分支预测

阅读linux源代码时,你会发现if(likely( )){}或是if(unlikely( ))这样的语句。对于条件选择语句,gcc内建了一条指令用于优化,在一个条件经常出现,或者该条件很少出现的时候,编译器可以根据这条指令对条件分支选择进行优化。而Linux内核把这条指令封装成了宏likely()和unlikely()。

因此,在编写程序时,如果一个分支条件只有在很少数的情况下才出现时,我们使用unlikely( )和likely( )能够加快程序的运行,这也是一种优化程序的手段。

比如这样:

  1. if ( unlikely(statement) ) { //这里便是告诉编译器,这个条件只在少数情况下发生  
  2.  
  3. dosomething();  
  4.  

原文链接:http://www.cricode.com/3347.html