文本和字符集

文本和字符集

文本分爲兩種,一種叫做純文本,還有一種叫做富文本。

純文本中只能保存單一的文本內容,無法保存內容無關的東西,例如:顏色,圖片等等。但你可不要小看他,開發時,編寫程序使用的大多都是純文本。

富文本中可以保存文本以外的內容,比如說,圖片,視頻之類的,我們使用的word就是一個典型的富文本。

我們都知道,在文本中書寫的內容,最終都會以二進制的形式保存到電腦中。
將字符轉換爲二進制碼的過程,我們稱爲編碼,將二進制碼轉換爲字符的過程,我們稱爲解碼。

編碼和解碼時所採用的規則,我們稱爲字符集。

常見字符集:
ASCII:美國編碼,使用7位(7個1,7個0)來對美國常用字符進行編碼,包含128字符
ISO-8859-1:歐洲編碼,使用8位,包含256字符
GB2312:國際碼,中國的編碼
GBK:國際碼,中國的編碼
Unicode:萬國碼,包含世界上所有的語言和字符,Unicode編碼有多種實現,UTF-8,UTF-16,UTF-32,其中UTF-8最爲常用。
UTF-8:是針對Unicode的一種可變長度字符編碼,它可以用來表示Unicode標準中的任何字符。

什麼是亂碼?
亂碼,指的是由於本地計算機在用文本編輯器打開源文件時,使用了不相應字符集而造成部分或所有字符無法被閱讀的一系列字符。造成其結果的原因是多種多樣的。

對於亂碼情況處理

編寫程序時,如果發現程序代碼出現亂碼情況,就要馬上去檢查字符集是否正確。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章