C代碼性能優化總結

最近做一個項目,對性能要求很高,爲了儘可能提高性能,網上找了很多性能優化相關的帖子,進行了很多的思考和嘗試,今天抽空把近期的一些學習和心得做一個總結。由於這個項目只是提供一個模塊,顆粒度較小,不涉及多線程、同步異步、數據庫等,本文主要從以下幾個方面進行分析:

優化代碼框架

簡化函數

選取合適的算法和數據結構

減少運算強度

利用操作系統和CPU本身的優勢

編譯選項

1、優化代碼框架

個人覺得代碼架構對性能的影響至關重要,就好骨架之於人,所以我把這個放在第一點。舉個簡單的例子:

優化前:

void main()
{
	while (isDone)
	{
		DoSomething1();

		DoSomething2();
	}
}

void DoSomething1()
{
	....;
}

void DoSomething2()
{
	....;
	
	if (...)
	{
		isDone = True;
	}
}

優化後:

void main()
{
	DoSomething1();
}

void DoSomething1()
{
	while (isDone)
	{
		....;

		DoSomething2();
	}
}

void DoSomething2()
{
	....;

	if (...)
	{
		isDone = True;
	}
}

優化前頻繁的調用DoSomething1()和DoSomething2(),需要被調用函數頻繁的入棧出棧,開銷很大,可以合理的優化代碼結構,減少函數調用層次和嵌套深度,甚至有些函數可以使用內聯或define來定義,以減少函數調用所佔時間。當然不能破壞程序的美觀和可讀性,要跟性能之間做一個平衡。


2、簡化函數

1)充分理解函數所要實現的功能,用最簡單的方式去實現,去掉冗餘的邏輯。

2)優化循環,有些操作可以放到循環外做,不必每次都做


3、選取合適的算法和數據結構

選取合適的數據結構很重要,通常使用指針比數組要快很多,對於頻繁插入刪除的操作,使用鏈表要比使用數組快很多。一般使用指針比使用數組索引快。

使用數組:

for (int i = 0; i < len; i++)
{
	A = array[i];
}

使用指針:

p = array;
for (int i = 0; i < len; i++)
{
	A = *p++;
}


4、減少運算強度

1)儘量使用位操作代替計算

a = a * 8;
a = a / 8;
a = a % 8;

修改成

a = a << 3;
a = a >> 3;
a = a & 0x7;

2 )公共子表達式可以提前計算

c = a + b;
d = a + b + e;
f = a + b + g;

優化成:

c = a + b;
d = c + e;
f = c + g;

3)通過查表來換取時間

4)前綴改成後綴, i++改成++i


5、利用操作系統和CPU本身的優勢

1)充分利用操作系統的位寬,尤其是拷貝等操作上,但這個地方要注意字節對齊

char *a, *b;
...
for ( ; ; )
{
	*a = *b;
	a++;
	b++;
}

假設操作系統64位,可優化成

for ( ; ; )
{
	(long long *)a = (long long *)b;
	a = a + 8;
	b = b + 8;
}

2)充分利於CPU的流水

利用CPU的流水來做並行計算,比如:

for (int i = 0; i < len; i++)
{
	sum += a[i];
}

優化後:

for (int i = 0; i < len; i = i + 4)
{
	sum1 += a[i];
	sum2 += a[i + 1];
	sum3 += a[i + 2];
	sum4 += a[i + 3];
}
sum + sum1 + sum2 + sum3 + sum4;


6、採用編譯選項-O2

開啓編譯選項-O2,不僅會對代碼的分支、常量、表達式進行優化,還會嘗試更多寄存器和指令級的優化,編譯期間會佔用更多的內存和編譯時間,但對於運行效率會有很大提升。當然也會帶來一些麻煩,它會改變代碼結構,比如對對分支的合併和消除,對公用子表達式的消除,對循環內load/store操作的替換和更改等,都會使目標代碼的執行順序變得面目全非,導致調試信息嚴重不足。






發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章