用C語言檢測文本編碼的方法

原創

2020-02-24 17:31

轉：http://blog.csdn.net/turingo/article/details/8136644

我們經常會想知道某些文本文件的編碼，可是編碼檢測卻並不是一件簡單的事情，它需要對文本進行採樣，統計分析後再進行字符集的匹配，不過值得慶幸的是有uchardet(https://code.google.com/p/uchardet/)這樣的開源庫可以幫忙這項艱鉅的任務。

uchardet是一個開源的用於文本編碼檢測的C語言庫，其功能模塊是用C++實現的，通過一定數量的字符樣本獨立的分析出文本的編碼，當前已經支持UTF-8/GB13080/BIG5等共30多種編碼。稍感遺憾的是uchardet幾乎沒提供什麼文檔，幸好作者通過學習和研究已經掌握其基本用法，這裏給出一個實例，以免大家走彎路。

#include <stdio.h>
#include <uchardet/uchardet.h>

/* 樣本數量 */
#define NUMBER_OF_SAMPLES	(2048)

int main(int argc, char* argv[])
{
	FILE* file;
	char buf[NUMBER_OF_SAMPLES];
	int len;
	uchardet_t ud;

	/* 打開被檢測文本文件，並讀取一定數量的樣本字符 */
	file = fopen("gb18030.txt", "rt");
	len = fread(buf, sizeof(char), NUMBER_OF_SAMPLES, file);
	fclose(file);

	/* 通過樣本字符分析文本編碼 */
	ud = uchardet_new();
	if(uchardet_handle_data(ud, buf, len) != 0)	/* 如果樣本字符不夠，那麼有可能導致分析失敗 */
	{
		printf("分析編碼失敗！\n");
		return -1;
	}
	uchardet_data_end(ud);
	printf("文本的編碼方式是%s。\n", uchardet_get_charset(ud));	/* 獲取並打印文本編碼 */
	uchardet_delete(ud);

	return 0;
}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Golang初學：vs code, launch.json, Run

go version go1.22.1 windows/amd64 Windows 11 + amd64 x86_64 x86_64 GNU/Linux vs code 1.89.1 --- 序章在 vs code 開發 go程序，之

2024-05-23 12:52:54

.NET 8 使用官方OpenXml SDK，替換Word中的文字和圖片

安裝好DocumentFormat.OpenXml後，準備好一個docx文件 using DocumentFormat.OpenXml.Drawing.Wordprocessing; using DocumentFormat.Open

2024-05-23 12:51:43

關於線程池優雅關閉

使用線程池的問題程序關閉時（eg. 上線），線程池中的任務會丟失（內存中）。線程池優雅關閉利用Spring中ContextClosedEvent：關閉程序觸發的事件，在使用線程池的地方，可以將線程池註冊到ThreadPoolShutd

帥氣的濤啊

2024-05-22 14:32:00

layui laydate日期時間範圍，時間默認設定爲23:59:59

在Layui中，如果你想設置日期時間選擇器（datetime）的默認結束時間爲當天的23:59:59，你可以使用如下代碼（紅色部分）：　　　　　　laydate.render({ elem: '#test

2024-05-22 14:30:20

Milvus向量數據庫入門實踐

Milvus是一個開源的向量數據庫，可以處理萬億級向量相似性搜索和分析。非結構化數據呈爆炸式增長。而我們可以通過機器學習模型，將非結構化數據轉化爲 embedding 向量，隨後處理分析這些數據。在此過程中，向量數據庫應運而生。向量

2024-05-22 14:29:39

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

本篇參考： https://help.salesforce.com/s/articleView?id=release-notes.rn_apex_5level_SOQLqueries.htm&release=250&type=5 http

2024-05-22 14:29:09

通過撰寫代碼理解向量計算，並用於文本分類

一、原生向量代碼，自己計算距離 import numpy as npfrom numpy import dotfrom numpy.linalg import normfrom sentence_transformers import Se

2024-05-22 14:23:18

一款開源的.NET程序集反編譯、編輯和調試神器

前言說到.NET相關的反編譯工具大家腦海裏第一個想到的工具是什麼？ILSpy、dnSpy、還是dotPeek？咱們今天的主要內容是講講dnSpyEx（dnSpyEx是dnSpy項目的非官方Fork維護版本）這個開源的.NET程序集反編譯、

2024-05-22 14:21:58

「Python實用祕技17」快速獲取國內節假日安排

本文完整示例代碼及文件已上傳至我的Github倉庫https://github.com/CNFeffery/PythonPracticalSkills 　　這是我的系列文章「Python實用祕技」的第17期，本系列立足於筆者日常工作中使

2024-05-22 14:21:38

FolkMq v1.4.6 發佈（可以內嵌的消息中間件）

功能簡表角色功能生產者（客戶端）發佈消息、定時消息（或叫延時）、順序消息、可過期消息、事務消息。支持 Qos0、Qos1 消費者（客戶端）訂閱、取消訂閱。消費-ACK（自動、手動）服務端發

2024-05-22 14:21:18

霍夫變換和霍夫直線檢測的原理

張博的博客

2024-05-22 14:19:57

兩個線段距離的一個定理證明和代碼實現.

複雜度O(1) #計算兩個線段之間的最短距離: #暴力遍歷兩邊所有點求點之間距離最小速度N方. import cv2,math def jiajiao(line1, line2): line1with_x_axis=math.at

張博的博客

2024-05-22 14:19:57

kimi- MarkMap 生成思維導圖

1、Prompt：幫我分析《被人討厭的勇氣》這本書，從裏面總結出核心內容，要求: 1.提供 5 個主要觀點 2.每個觀點至少有 3 個支撐觀點說明 3.按照以下格式，使用markdown的代碼快格式輸出: ``` # 被人討厭的勇氣 ##

2024-05-22 14:14:57

Kimi 高效使用技巧，80%的人都不知道

Kimi 高效使用技巧，80%的人都不知道聚焦於 AI提示詞 + 職場提效。標題可能誇大或與內容不符 34 人贊同了該文章關注我, AI 學習之旅上，我與您一同成長！一、引言 Kimi 作

2024-05-22 14:14:57

keycloak~自定義認證流設置固定redirect_uri

redirect_uri在keycloak進行認證成功之後，會重定向到這個目標頁面，一般爲用戶的來源頁，即你在登錄之前訪問的頁面；自定義認證流是指對keycloak中的brower和direct grant兩個認證方式的過程添加自定義策略，

2024-05-22 14:12:37

24小時熱門文章

最新文章

最新評論文章