coreutils5.0 uniq.c源碼分析

原創

woshiyilitongdouzi

2020-02-22 00:25

coreutils5.0 uniq.c源碼分析
運動了一會兒，讓身體動起來，這樣更有利於思維活躍起來。
接着打開uniq.c的源碼。原來，總認爲代碼太長，今天，先不管長度，把代碼從頭到尾翻一次，找出其核心的算法，一旦能從宏觀上理解處理算法，至於細節，就只能慢慢看了。畢竟C語言是一種相當細的語言。
先弄個測試文件
a.3內容如下
1
2
2
3
3
3
4
然後進行測試
./uniq a.3
並加上不同選項，這個程序也要求文件是排好序的。這就意味着，就類似於如下題目
arr=[1,2,2,3,3,3,4]
從數組中選出重複的元素和非重複的元素之類。
我會如何做，肯定是把數組遍歷一次，然後把當前數據和之前的進行比較，如果相同，就把重複次數加1，如果不相同，表示又出現一個新的數據。
從頭翻到尾，找到main中沒有做什麼正理，只是調用了check_file，再分析check_file函數。發現當uniq不帶選項時，輸出如下：
./uniq a.3
1
2
3
4
這樣的處理邏輯在哪兒呢？
應該是當前行如果與上一行不同，就輸出，如果相同，就不輸出，繼續讀下一行。找呀找，果然找到這樣的邏輯，在代碼299行，發現了處理邏輯，
先初始化prevline字段
循環讀文件
從文件中讀一行到thisline
比如prevline和thisline
如果不同或prevline初始化的值
打印thisline行
把thisline當成上一行，賦值給prevline
----
這個邏輯還是很好明白的。象
uniq -c
uniq -d
之類選項的功能，處理邏輯也差太多，就不細講了。其實，我沒有細看。講不出來。

woshiyilitongdouzi

發佈了225 篇原創文章 · 獲贊 7 · 訪問量 1萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

coreutils-4.5.1源碼閱讀

今天忽然想，我目前的功力去勉強讀gawk1.01,ruby049的源碼，都有些勉強，真的。因爲涉及到編譯器的許多知識。爲此，還是讀簡單些的，如coreutils的源碼。於是，我打開了coreutils,現在讀的時候，我第一選擇是想多

woshiyilitongdouzi

2020-07-07 06:50:21

coreutils5.0 echo.c源碼分析

coreutils5.0 echo.c源碼分析隨便翻翻，因爲前幾天學習了sort的用法，想讀讀sort.c的代碼，一打開，完全看不懂，因爲數據結構中，內部排序我懂了，但外部排序我不懂，看樣子，作者好像是用到了外部排序。於是果斷的略過。

woshiyilitongdouzi

2020-07-07 06:50:21

coreutils5.0 unexpand.c源碼分析

coreutils5.0 unexpand.c源碼分析這個程序沒有使用過。今天先測試一下用法。 echo " bc haha " | ./unexpand | cat -t 發現果然把空格轉換成ta

woshiyilitongdouzi

2020-07-07 06:50:20

coreutils5.0 paste.c源碼分析

coreutils5.0 paste.c源碼分析時間過得真快，一晃又到中餐時間了。我要趕緊再寫一篇。先說paste的用法。 paste -s 把每個文件變成一行，再把兩個文件合在一起。 paste -s -d: a1 a2 此時，a1

woshiyilitongdouzi

2020-07-07 06:50:20

coreutils5.0 factor.c源碼分析

coreutils5.0 factor.c源碼分析今天接着想讀讀代碼行數少的程序，wc *.c | sort -n| more 這樣一選擇，想讀讀tee.c可，發現有-a選項，因爲想測試一下。 a.3中有內容 1 2 2 echo "h

woshiyilitongdouzi

2020-07-07 06:50:20

gawk1.01源碼awk3.c分析

gawk1.01源碼awk3.c分析我一邊讀源碼，一邊把自己的一些想法寫出來。我的筆記本外接了一個顯示器。 init_vars() 這個過程，對FS,NF,RS,NF,FILENAME,OFS,ORS,OFMT幾個變量進行初始化。

woshiyilitongdouzi

2020-07-07 07:30:59

gawk1.01源碼安裝續

gawk1.01源碼安裝續今天是個好天氣，我昨天發現有衝突，看了會書，還是不得要領，今天把衝突進行研究，發現 Option 1, statements -> <Rule 24, tokens 2 .. 5> stateme

woshiyilitongdouzi

2020-07-07 06:50:21

gawk1.01源碼分析——各文件功能

gawk1.01源碼分析——各文件功能今天就各個文件的基本功能談下我的理解。一、awk.h頭文件先列出數據結構 typedef struct hashnode HASHNODE; struct hashnode { HASHNO

woshiyilitongdouzi

2020-07-07 06:50:21

編譯成功的gawk1.01源碼上傳了

編譯成功的gawk1.01源碼上傳了世界上最幸福的事，就是把代碼編譯成功了。然後一個屏幕對代碼進行編輯，另一屏幕，進行測試，立即看到效果。太爽了。今天，我把gawk1.01編譯成功，我開始進行一些簡單的測試，如從內置函數開始。如何測試

woshiyilitongdouzi

2020-07-07 06:50:21

gawk1.01源碼大體結構分析

gawk1.01源碼大體結構分析昨天找gawk的選項，因爲我想分析其調試過程。我想根據其debug的過程，來分析程序。發現在awk1.c中有-D選項，試一下，結果出現一大堆： yang@DESKTOP-V9HS3B6:~/gawk101

woshiyilitongdouzi

2020-07-07 06:50:20

《軟件隨想錄》讀後感

《軟件隨想錄》讀後感我特別喜歡買書，有時找遍京東，居然發現沒有新出什麼好的計算機書籍。真的。joel說軟件這本書，我當時買的時間是2008年前後，現在重印了，於是趁着半價，就又購了一本。我買的是第一本，讀起來，很有感觸。尤其是談到C語

woshiyilitongdouzi

2020-07-07 06:50:20

oz grep源碼分析

oz grep源碼分析今天在筆記本上折騰ubuntu18，真是很好玩。配置低的本上，裝ubuntu,真划算。原來4G跑win10總是慢得不行，現在跑linux，感覺還是很快的。我在本子上讀regex.c這個文件，一個地方卡住了。

woshiyilitongdouzi

2020-07-07 06:50:20

《程序設計實踐》讀後感

《程序設計實踐》讀後感昨天晚上讀這本書，重點讀數據結構這一章，也許是因爲讀gawk101源碼有一段時間，在重讀時，感覺作者寫得真好。我重點放在書中的代碼上，發現那些代碼寫得像珍珠一樣，真是漂亮。作者寫了鏈表，然後再寫一個遍歷鏈表的函數

woshiyilitongdouzi

2020-07-07 06:50:20

ruby0.49 array.c源碼閱讀

ruby0.49 array.c源碼閱讀我想，應該叫源碼閱讀，自己隨心所欲的讀。就像讀小說一樣。因爲我比較喜歡ruby語言，讀新版本的，代碼量太大，不划算。爲此，找了最早版本的。代碼量少些。讀array.c源碼，今天基本上把代碼過完了

woshiyilitongdouzi

2020-07-07 06:50:20

oz grep.c源碼閱讀有感想

oz grep.c源碼閱讀有感想我最早開始讀源碼，就是讀了有一個人分析oz的grep.c源碼的文章，我讀了博客後，感覺不過隱，繼續下載了oz的源碼，自此，就再開始讀coreutils等源碼。但陸續讀代碼，其中grep.c中的正則表達式大

woshiyilitongdouzi

2020-07-07 06:50:20

24小時熱門文章

lightdb hash index的性能和限制

最新文章

最新評論文章