Go語言:讀取帶有BOM頭的UTF8文件

 BOM頭是UTF8文件開頭的三個固定取值的字節,讀文件的時候如果遇到BOM頭需要忽略。在Golang裏,比較有效率的方法是用ioutil.ReadFile,返回[]byte之後截取從第四個字節到末尾的切片。因爲由切片截取生成的新切片和原切片共同指向同一個數組,所以沒有額外的拷貝,這一點比轉換成字符串之後再替換第一行的BOM要省一點字符串拷貝。

示例如下:

func read(filename string) []*string {
	dat, err := ioutil.ReadFile(filename)
	if (dat[0] == 0xef || dat[1] == 0xbb || dat[2] == 0xbf) {
		dat = dat[3:]
	}
	check(err)
	var cleaned = strings.Replace(string(dat), "\r", "", -1)
	var lines = strings.Split(cleaned, "\n")
	n := len(lines)
	var r []*string
	for i := 0; i < n; i++ {
		if lines[i] != "" {
			r = append(r, &lines[i])
		}
	}
	return r
}

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章