String背後的彙編奧祕——探索數據結構

String,相信大家都不陌生,我們在編寫程序時,使用String類型還算比較多。那麼你經常使用它,是否真的“瞭解”它?請帶着問題,一步一步揭開它神祕的面紗,看看它究竟何許“人”也!

一、思考

在 Swift 開發使用字符串的過程中,你是否有思考過以下問題?

  • 1 個字符串變量佔用多少內存?
  • 字符串 str1、str2 的底層存儲有什麼不同?
    String背後的彙編奧祕——探索數據結構

  • 如果對 str1、str2 進行拼接操作,str1、str2 的底層存儲又會發生什麼變化?

String背後的彙編奧祕——探索數據結構
如果你能準確地回答以上問題,那說明對 Swift 字符串的底層存儲機制還是比較瞭解的。

二、1 個字符串變量佔用多少內存?

方法 1:MemoryLayout

首先,可以藉助 Swift 自帶的 MemoryLayout 來測試一下String背後的彙編奧祕——探索數據結構

方法 2:彙編

另外,我們也可以藉助一個強有力的底層分析助手—彙編語言,來窺探一下 String 的底層存儲

  • 實際上分析其他語法、系統庫的底層,都可以藉助彙編語言

    • 比如多態的原理、泛型的原理、Array 的底層、枚舉的底層等等
  • 另外,不僅僅是 Swift,C、C++、OC 的底層分析,依然可以藉助彙編語言

    • 畢竟你寫的每一行有效代碼,最終都是要轉成機器指令(0 和 1)
    • 而機器指令是跟彙編指令一一對應的,每一條機器指令都能翻譯成與之對應的彙編指令
    • 能讀懂彙編指令,就相當於能讀懂機器指令,知道 CPU 具體在幹嘛(操作了什麼寄存器,操作了哪塊內存)
  • 本教程的代碼是直接跑在 Mac 的命令行(CommandLineTools)項目上
    • 因此展示的彙編代碼是基於 X64 的 AT&T 格式彙編,並非 iOS 真機設備的 ARM 彙編
    • 其實不同種類的彙編之間有極大的相似性,只是有些指令的叫法不一樣

跟微軟的 Visual Studio 一樣,Xcode 也內置了非常方便的反彙編功能,可以輕鬆查看每一句代碼對應的彙編指令,打開反彙編界面的步驟如下

  • 在某一行需要調試的代碼打上斷點(反彙編界面會在斷點調試狀態下顯示出來)

  • 菜單:Debug > Debug Workflow > Always Show Disassembly

    • Assembly 譯爲彙編, Disassembly 譯爲反彙編
      String背後的彙編奧祕——探索數據結構
  • 運行程序,看到反彙編界面

String背後的彙編奧祕——探索數據結構

如果你的反彙編經驗十足,根據第 16、17 行的彙編就可以推敲出來,String 是佔用 16 個字節

  • 因爲它用了 rax、rdx 寄存器存放字符串 str 的內容,而 rax、rdx 都是 8 字節的

彙編的內容太多了,因爲時間和篇幅關係,文章裏並不會對每一句彙編指令進行詳細地講解,更多的是想說明彙編的重要性。

三、字符串的底層存儲

窺探內存

此前我寫了個可以窺探 Swift 變量內存的小工具:https://github.com/CoderMJLee/Mems

  • 現在用它來窺探下字符串的 16 字節裏面,究竟存儲着什麼數據

  • Mems.memStr(ofVal:) 默認情況下按照 8 個字節一組來顯示內存數據

  • 傳遞參數 alignment: .one 是按照 1 個字節一組來顯示內存數據
    String背後的彙編奧祕——探索數據結構

字符 '0'~'9' 的 ASCII 值是 0x30~0x39,認真觀察最初 str1 的 16 個字節數據,你發現了什麼?

  • 它直接將所有字符的 ASCII 值存儲在 str1 的 16 字節中

  • 最後 1 個字節 0xea 中的 0xa 就是字符的數量,也是共 10 個字符

拼接String背後的彙編奧祕——探索數據結構

可以發現,當對 str1 進行拼接 "ABCDE" 的時候

  • 它最終是將 "0123456789ABCDE"十五個字符的 ASCII 值都存儲在了 str1 的 16 字節中

  • 最後 1 個字節 0xef 中的 0xf 就是字符的數量,也是共 15 個字符

  • 可以看得出來,目前 16 個字節已經存滿了,那如果再拼接 1 個字符呢?
    String背後的彙編奧祕——探索數據結構

可以看到,str1 裏面存儲的數據發生了非常大的變化,每一個字符的 ASCII 值不見了,

  • 那裏面的 16 字節具體是什麼含義呢?

  • 所有字符('0'~'9'、'A' 到 'F')的 ASCII 值又存到哪去了呢?

其他情況

如果一開始初始化的時候(未拼接之前),字符串的內容就是超過 15 個字符呢?

String背後的彙編奧祕——探索數據結構

相信你能猜到是這個結果

  • 這 16 個字節裏面並沒有出現任何一個字符的 ASCII 值
  • 而且這 16 個字節跟 第27行的str1 還是有所區別
    • 雖然它們的字符串內容都是"0123456789ABCDEF"

如果對 str2 進行拼接操作String背後的彙編奧祕——探索數據結構

不難發現:這時 str2 的 16 字節又發生了變化,跟 第27行的str1 是有點相似的

如何解決上述疑問?

上述的種種疑問,光看打印出來的內存數據是無法解決的,但是都可以利用【!!!彙編!!!】來解決,分析彙編指令,立馬就得出結論,因爲文章的篇幅有限,平時工作也比較忙,我把上述問題的詳細剖析過程錄製成了長達 2 個多小時的視頻,有興趣的朋友可以用 1.5~2 倍速度觀看

  • 鏈接:https://pan.baidu.com/s/1AkS3K1ZKP8zyxhlhLRaBkA

    • 提取碼:kzrk
  • 視頻對於沒有彙編基礎的朋友來說,可能會有點難度,最好挑一個頭腦清醒的時間去觀看

  • 看完視頻後,希望大家能夠確切地感受到彙編語言的重要性,不要永遠只停留在編寫高級語言代碼、沉迷於語法糖的層面。

四、最後

彙編語言雖然是編程中的基礎語言,但確是我們用到最多的計算機語言,應用領域也不僅僅是在你的工作當中,日常生活中也是可以用到的,比如你還能玩轉軟件破解、外掛等,這是我此前用【彙編\C++】編寫的一個外掛:https://github.com/CoderMJLee/SeemygoPVZCheater

String背後的彙編奧祕——探索數據結構
我作爲一個在IT行業摸爬滾打了數年的人,也確實積累了比較多的經驗及資源,平時也會給大家做分享,如果想獲取更多免費的編程學習資源及乾貨,可以手動添加微信:19950277730!來跟我一起探索編程的世界吧!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章