python 讀取帶BOM的utf-8格式文件

原創

2020-02-23 07:09

**

UTF有哪些分類？

**

UTF-8分爲兩種，一種是不帶BOM的，一種是帶BOM的。其中第一種不帶BOM的是標準形式，第二種帶BOM的主要是微軟的習慣。

**

爲什麼有BOM的UTF-8？

**
微軟在UTF-8中使用BOM（Byte order mark）是因爲這樣可以將UTF-8和ASCII等編碼明確區分開。
windows對於utf-8格式的文件存儲默認是帶有BOM的格式

**

爲什麼BOM不受歡迎？

**
因爲在UNIX環境下，很多的UNIX程序不認識BOM。主要是在UNIX所有腳本語言首行爲#！標示，它依賴於shell解析，而很多shell出於兼容的考慮不檢測BOM，所以加進BOM時shell會把它解釋爲某個普通字符輸入導致破壞#！標示。比如很多現代腳本語言，例如python，其解釋器本身是能處理BOM的，但是shell卡在這裏。
因此我們在linux服務器上讀取這些txt文件時，會遇到如下報錯：
\xef\xbb\xbf…

**

怎麼解決？

**
使用codecs庫，將文件轉換爲utf-8-sig格式

import codecs

with open("xx.txt",'r','utf-8-sig') as file:
        line = file.readlines();

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

雲效 Pipeline as Code 來了！這些場景，用好它效率翻倍！

從可視化編排到支持 YAML 編排雲效流水線 Flow 是開箱即用的企業級持續集成和持續交付工具，支持豐富的代碼源、構建、自動化測試工具、多種部署類型和部署方式，與阿里雲深度集成，還提供多種企業級特性，助力企業高效完成從開發到上線 CIC

2024-05-11 21:15:05

通義靈碼企業版正式發佈，滿足企業私域知識檢索、數據合規、統一管理等需求

5 月 9 日阿里雲 AI 峯會，阿里雲智能集團首席技術官周靖人宣佈，通義靈碼企業版正式發佈，滿足企業用戶的定製化需求，幫助企業提升研發效率。通義靈碼是國內用戶規模第一的智能編碼助手，基於 SOTA 水準的通義千問代碼模型 Code-Qw

2024-05-11 21:15:01

用Python寫的udp聊天器

說明在一個電腦中編寫1個程序，有2個功能 1.獲取鍵盤數據，並將其發送給對方 2.接收數據並顯示並且功能數據進行選擇以上的2個功能調用要求實現上述程序參考代碼 import socket def s

2024-05-11 12:30:57

Linux系統中的文件和目錄權限

一、文件屬性下文中，“文件”一詞默認代指廣義的數據類型，跟“目錄”等詞對比使用時，則專指普通文件（File）這一特定數據類型。 Linux系統中，我們可以使用命令“ls -al”來查看當前目錄

2024-05-11 01:45:47

手把手系列！使用 Zilliz Cloud 和 AWS Bedrock 搭建 RAG 應用

檢索增強生成（Retrieval Augemented Generation, RAG）是一種 AI 框架，它通過結合信息檢索和自然語言處理（NLP）能力從而增強文本生成。具體而言，RAG 系統中的語言模型通過一種檢索機制查詢和搜索知識庫

2024-05-10 21:29:43

詳解Python 中可視化數據分析工作流程

本文分享自華爲雲社區《Python 可視化數據分析從數據獲取到洞見發現的全面指南》，作者：檸檬味擁抱。在數據科學和分析的領域中，可視化是一種強大的工具，能夠幫助我們理解數據、發現模式，並得出洞見。Python 提供了豐富的庫和工具，使得可

2024-05-10 11:30:09

Apache DolphinScheduler 4月簡報：社區發展與技術革新速遞

各位熱愛 DolphinScheduler 的小夥伴們，4 月份的 DolphinScheduler 社區月報更新啦！這裏將記錄 DolphinScheduler 社區每月的重要更新，歡迎關注！月度 Merge 之星感謝以下小夥伴 4

2024-05-08 21:19:32

華爲雲開發者桌面全新發布CodeArts IDE for Python，極致優雅雲原生開發體驗

本文分享自華爲雲社區《華爲雲發佈CodeArts IDE for Python，極致優雅雲原生開發體驗》，作者：華爲雲頭條。近日，華爲雲正式發佈CodeArts IDE for Python，這是一款內置華爲自主創新的Python語

2024-05-08 10:34:25

Python 爬蟲：Spring Boot 反爬蟲的成功案例

前言在當今數字化時代，網絡數據成爲了信息獲取和分析的重要來源之一。然而，隨着網絡數據的廣泛應用，爬蟲技術也逐漸成爲了互聯網行業的熱門話題。爬蟲技術的應用不僅可以幫助企業獲取有價值的信息，還可以用於數據分析、市場研究等領域。然而，隨着爬

2024-05-07 23:26:04

開發者分享：利用 EMQX Cloud 與 ESP32 微控制器實現智能液冷散熱系統

作者：陶德坤，EMQX Cloud 開發者。作爲一名後端開發人員，我經常需要同時運行多個 Jetbrains IDE （集成開發環境），所以經常面臨筆記本電腦過熱問題。我曾嘗試過各種散熱方法，從傳統的風扇到更先進的半導體冷卻系統，但這些

2024-05-07 21:55:53

我們團隊來了一位新同事，主動要求幫忙敲代碼！歡迎 AI 001號

通義靈碼｜7X24的AI智能編程助手工號：AI001 他叫通義靈碼，一個硅基生命。出生在0101星球，沒有性別，但有人格類型。他是INTJ，建築師型人格，艾薩克·牛頓和甘道夫同款。他會寫一點代碼，但不如我們會得多。我看了下他的簡歷，

2024-05-07 21:12:06

win11 安裝sv獨立客戶或其他vpn軟件導致藍屏問題

藍屏dmp日誌存放目錄 C:\Windows\Minidump 1、從微軟官網下載 WinDbg Windows調試工具 2、選擇需要調試的日誌 3、點擊!analyze -v 4、找到導致錯誤的模塊名稱 5、點擊模塊名稱會顯示具

2024-05-09 15:29:46

Windows下把ZooKeeper註冊成爲Windows服務，實現開機自啓動

下載zookeeper服務插件，zip包就可以了。下載地址：http://archive.apache.org/dist/commons/daemon/binaries/windows/ 把 prunsrv.exe、prunmgr.exe

2024-05-08 21:56:27

windows開機自啓動bat文件

步驟： 1、win+R，打開運行，輸入“shell:startup”，打開Windows啓動文件夾 2、將.bat快捷文件粘貼到Windows啓動文件夾中 3、重啓電腦後，系統自啓動.bat文件

2024-05-08 21:56:26

任務映像已損壞或篡改（異常來自HRESULT:0x80041321）

1. 以管理員身份運行命令提示符並執行命令 cmd ----------------->chcp 437 2. 該命令將返回損壞的任務計劃程序名稱. 輸入命令： schtasks /query /v | find /i "ERROR:

2024-05-08 21:56:24

24小時熱門文章

最新文章

最新評論文章