Python2 之漢字編碼爲unicode問題（即類似\xc3\xa4）

原創

2020-02-24 16:03

Python2中編碼相關的問題很是讓人蛋疼，特別是中文字符。
比如本文所述的中文網頁GBK編碼的詭異問題。

現象

例如：盲錄職氓聭聵，其實網頁裏面正常的應該是會員

分析

接着上面的例子，會員這部分亂碼通過repr()函數求值得到如下結果

\xc3\xa4\xc2\xbc\xc2\x9a\xc3\xa5\xc2\x91\xc2\x98

使用type()函數求值得到的結果爲unicode

eval(repr())出來值爲

盲錄職氓聭聵

通過查表上述6個漢字對應
c3a4 c2bc c29a c3a5 c291 c298

而上面內容對應的UTF-8值就是會員

解決方法

相當詭異的是本身是unicode編碼，卻被當作GBK系列來解碼，結果導致亂碼。因此將這些字符先編碼再解決解決問題。
encode('raw_unicode_escape').decode()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python：基礎知識

1 安裝 1.1 Winsdows （1）訪問http://www/python.org/downloads/，下載最新版本Python；（2）雙擊安裝，使用默認設置即可；（3）安裝成功後，在開始菜單中找到IDLE（Py

2021-03-25 09:27:13

OpenCV讀取中文路徑圖像

引言這幾天做點小東西，涉及到OpenCV讀取中文圖像的問題如果直接讀取中文路徑的圖像，往往返回[] import cv2 cv_im = cv2.imread(‘老乾媽.jpg’) 緣起偶然發現opencv 讀取圖

2020-07-08 01:09:29

ftp-client-1

使用語言：python 2.7 主要模塊：ftplib 主要使用一個while循環，沒有進行完整的異常處理，根據實際需求情況修改！ #coding=utf-8 from ftplib import FTP import sys,

2020-07-07 12:48:50

pyftpdlib代碼初印象

添加用戶 from pyftpdlib.authorizers import DummyAuthorizer authorizer = DummyAuthorizer() authorizer.add_user('user',

2020-07-07 12:48:50

pyftpdlib代碼實戰

新建一個基本的ftp服務器 from pyftpdlib.authorizers import DummyAuthorizer from pyftpdlib.handlers import FTPHandler from pyft

2020-07-07 12:48:50

ftp-client-2

編程語言：python 2.7 主要模塊：ftplib 使用cmd模塊實現交互，沒有完整的異常處理，根據實際情況修改！ #coding=utf-8 from cmd import Cmd from ftplib import

2020-07-07 12:48:50

python腳本導出Elasticsearch數據到csv文件

以下是個導出es數據到csv文件的簡單腳本，腳本簡單易懂，主要解決了兩個問題： Elasticsearch數據含中文寫入csv文件會亂碼 unicode編碼的中文數據寫入csv文件會亂碼 from elasticsearch impor

2020-07-07 11:22:13

python基礎之列表推導式

例1： >>> List=[x for x in range(10)] >>> List [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 等價於： >>> List=[] >>> for x in range(10):

2020-07-07 08:38:39

Python快樂之旅（基礎知識彙總）

點擊就可以跳轉到相關文章了。一、Python語言介紹 Python語言介紹 Python語言的設計哲學編譯型語言和解釋型語言的區別 Python語言類型二、Python開發環境以及開發工具搭建Python開發環境 P

Liuyuelinjiayou

2020-07-06 18:06:36

從32階矩陣中，選取任意階矩陣的所有組合，然後求滿秩

需求：從32階矩陣中，選取12行數據爲一組，組成12階矩陣，一共需要分爲 C3212C_{32}^{12}C3212 組，然後判斷所有組合的12階矩陣的秩是否都是滿秩。 import numpy as np from itert

2020-07-06 13:06:35

NIST隨機性檢測（python）

David Johnston 在 GitHub 上發佈了一個名爲 sp800_22_tests 的工具，網址是：https://github.com/dj-on-github/sp800_22_tests ，它是一個用 Pytho

2020-07-06 13:06:35

python中將一個文件轉爲二進制比特列表

需求：當我們讀取一個文件之後，將裏面的內容轉變爲二進制列表。用處：在python中可以將二進制列表用於隨機數檢測代碼展示： import os import sys def read_bits_from_file(file

2020-07-06 13:06:35

JSON文件存儲

JSON通過對象和數組的組合來表示數據，構造簡單但是結構化程度非常高對象：在Javascript中是使用花括號{ }包裹起來的內容數組：在Javascript是方括號[ ]包裹起來的內容 json.loads()：將json文

weixin_41399020

2020-07-07 19:13:21

寫爬蟲所用到的工具類－－（１）

本文表述了寫爬蟲所用到的工具類 package Tool; import java.util.LinkedList; /** * 這是一個url隊列，獲取到的網站的href都應該放入這個隊裏之中，爲了保證每個鏈接只訪問一次，

2020-07-07 19:00:15

Java使用ＵＲＬ獲取網頁內容

使用URLConnection來獲取網頁的內容，發送get方法，如果所提供的是CSS代碼，需求所需要的結果需要用到正則表達式來獲取。 package Get; import Post.PostMethod; import ja

2020-07-07 19:00:15

24小時熱門文章

最新文章

最新評論文章