最近做一個項目,對性能要求很高,爲了儘可能提高性能,網上找了很多性能優化相關的帖子,進行了很多的思考和嘗試,今天抽空把近期的一些學習和心得做一個總結。由於這個項目只是提供一個模塊,顆粒度較小,不涉及多線程、同步異步、數據庫等,本文主要從以下幾個方面進行分析:
優化代碼框架
簡化函數
選取合適的算法和數據結構
減少運算強度
利用操作系統和CPU本身的優勢
編譯選項
1、優化代碼框架
個人覺得代碼架構對性能的影響至關重要,就好骨架之於人,所以我把這個放在第一點。舉個簡單的例子:
優化前:
void main()
{
while (isDone)
{
DoSomething1();
DoSomething2();
}
}
void DoSomething1()
{
....;
}
void DoSomething2()
{
....;
if (...)
{
isDone = True;
}
}
優化後:
void main()
{
DoSomething1();
}
void DoSomething1()
{
while (isDone)
{
....;
DoSomething2();
}
}
void DoSomething2()
{
....;
if (...)
{
isDone = True;
}
}
優化前頻繁的調用DoSomething1()和DoSomething2(),需要被調用函數頻繁的入棧出棧,開銷很大,可以合理的優化代碼結構,減少函數調用層次和嵌套深度,甚至有些函數可以使用內聯或define來定義,以減少函數調用所佔時間。當然不能破壞程序的美觀和可讀性,要跟性能之間做一個平衡。
2、簡化函數
1)充分理解函數所要實現的功能,用最簡單的方式去實現,去掉冗餘的邏輯。
2)優化循環,有些操作可以放到循環外做,不必每次都做
3、選取合適的算法和數據結構
選取合適的數據結構很重要,通常使用指針比數組要快很多,對於頻繁插入刪除的操作,使用鏈表要比使用數組快很多。一般使用指針比使用數組索引快。
使用數組:
for (int i = 0; i < len; i++)
{
A = array[i];
}
使用指針:
p = array;
for (int i = 0; i < len; i++)
{
A = *p++;
}
4、減少運算強度
1)儘量使用位操作代替計算
a = a * 8;
a = a / 8;
a = a % 8;
修改成
a = a << 3;
a = a >> 3;
a = a & 0x7;
2 )公共子表達式可以提前計算
c = a + b;
d = a + b + e;
f = a + b + g;
優化成:
c = a + b;
d = c + e;
f = c + g;
3)通過查表來換取時間
4)前綴改成後綴, i++改成++i
5、利用操作系統和CPU本身的優勢
1)充分利用操作系統的位寬,尤其是拷貝等操作上,但這個地方要注意字節對齊
char *a, *b;
...
for ( ; ; )
{
*a = *b;
a++;
b++;
}
假設操作系統64位,可優化成
for ( ; ; )
{
(long long *)a = (long long *)b;
a = a + 8;
b = b + 8;
}
2)充分利於CPU的流水
利用CPU的流水來做並行計算,比如:
for (int i = 0; i < len; i++)
{
sum += a[i];
}
優化後:
for (int i = 0; i < len; i = i + 4)
{
sum1 += a[i];
sum2 += a[i + 1];
sum3 += a[i + 2];
sum4 += a[i + 3];
}
sum + sum1 + sum2 + sum3 + sum4;
6、採用編譯選項-O2
開啓編譯選項-O2,不僅會對代碼的分支、常量、表達式進行優化,還會嘗試更多寄存器和指令級的優化,編譯期間會佔用更多的內存和編譯時間,但對於運行效率會有很大提升。當然也會帶來一些麻煩,它會改變代碼結構,比如對對分支的合併和消除,對公用子表達式的消除,對循環內load/store操作的替換和更改等,都會使目標代碼的執行順序變得面目全非,導致調試信息嚴重不足。