新手小白必須瞭解的數據相關基礎知識(一)

不管是做數據標註還是數據清洗、分析等等,大家是不是遇到過如下問題?

  1. 提示文件沒有軟件能打開。

  2. 用常用軟件打開後亂碼。

 等等問題,特別是剛接觸數據行業的小夥伴,有很多沒有計算機背景知識,完全摸不到頭腦到底需要如何處理,那本文就給大家詳細梳理一下關於數據新手小白必須要了解的關於數據文件格式的基礎知識。

 

文件格式

首先我們先來了解一下文件格式的定義是什麼?

指電腦爲了存儲信息而使用的對信息的特殊編碼方式,是用於識別內部儲存的資料。比如有的儲存圖片,有的儲存程序,有的儲存文字信息。每一類信息,都可以一種或多種文件格式保存在電腦存儲中。每一種文件格式通常會有一種或多種擴展名可以用來識別,但也可能沒有擴展名。擴展名可以幫助應用程序識別的文件格式。

 

根據定義大家就非常好理解了,說的直白一些就是電腦存儲數據本來是一種編碼的,但是大家爲了便於存儲和識別,根據不同的需求用了特殊的編碼方式來進行存儲,而我們常看到的擴展名,就相當於我們給這種特殊編碼方式起了一個非常便於識別的小名。

 

我們日常常用的擴展名有哪些呢?

 1..xlsx結尾的Excel文件,.docx結尾的Word文件,.pptx結尾的PPT文件。

 2..png、.jpg、.gif結尾的圖形文件。

 3..mp3、.mp4、.wav、.wmv等等結尾的音樂和視頻文件。

 4..txt結尾的文本文件。

 5..exe結尾的windows環境下的可執行文件。

 

以上都是我們日常使用電腦比較常用的擴展名的問題,而且基本上電腦都會自帶軟件可以進行讀取操作了,所以大家日常上就會對這些擴展名比較無感,那麼做數據標註會遇到哪些文件格式呢?我們一起來看看。

  • 通用文本文件格式

    文本文件基本上各個操作系統自帶的文本編輯器都可以進行讀取操作,如果體驗比較好一點的話,在windows上可以用Notepad++或者UltraEdit。

    • 分隔格式(結構化數據)

      數據屬性(列)和數據實例(行)由統一符號分割,用於分割的符合就被稱爲分割符,其特點就是用起來非常方便也很容易理解。目前常見的就有兩種

      製表符分割值(TSV)

       

      逗號分割值(CSV)

    • JSON格式(半結構化數據)

      JSON是目前主流的數據格式之一,可跨平臺的屬性讓廣泛的應用於各個傳輸數據的場景,這也是因爲jSON格式的擴展性好、易用、並且支持多值屬性、可缺失屬性、嵌套屬性的原因,格式特點是屬性——值的形式進行存儲數據,每個值都有其對應的屬性標識。

       

      可以解讀:此JSON文件記錄的是圖片信息及圖片標註的屬性,並且紅色框標出部分名稱均可自定義名稱。

    • XML格式(半結構化數據)

      XML是一種可擴展標記語言,主要用來描述數據,其中的標記都是可以根據使用的命名需求進行自定義。

    • HTML格式(非結構化數據)

      HTML格式最常見的就是我們目前使用的網頁頁面都是此類格式。可以打開瀏覽器訪問任一網頁點擊鍵盤上的F12鍵都可以進入開發者模式查看其頁面內容。

       

      可以看到紅框標註部分就是HTML的內容,我們可以在這個頁面中找到相關需要的信息,但是HTML中需要包含的內容比較多也比較複雜,同時可自定義的內容也非常多,所以就比其他格式要麻煩很多。

  • 文本標註

    進行文本標註時,如果是線下標註的話,比較常用存儲數據的文件是txt、xlsx格式,這個兩種格式相對比較常見就不多介紹,可以自己新建看看有什麼特點。

  • 圖像標註

    圖像格式種類就相對更豐富了,比較常見的有:bmp,jpg,png,tif,gif,pcx,tga,exif,fpx,svg,psd,cdr,pcd,dxf,ufo,eps,ai,raw,WMF,webp等。其中用的最多的就是bmp、jpg、png了。

    • bmp(BitMap)是一種與硬件設備無關的圖像文件格式,使用非常廣泛。但它不支持文件壓縮,也而不適用於Web頁,所佔用的空間很大。

    • JPEG是一種常見的圖像格式,JPEG文件的擴展名爲壓縮技術十分先進,它用去除冗餘的圖像和色彩數據,獲取極高的壓縮率的同時能展現十分豐富生動的圖像,話句話說,就是可以用最少的磁盤空間得到較好的圖像質量。

    • png是一種無損壓縮的位圖片形格式,其設計目的是試圖替代GIF和IFF格式,同時增加一些GIF文件格式所不具備的特性。其特點是壓縮比高,生成文件體積小。

  • 音頻標註

    無損格式:例如WAV、FLAC、APE、ALAC、CDA

    有損格式:例如MP3、AAC、Opus

    所以我們在標註的時候使用的原始數據WAV格式也會多一些。其標註的結果文件除了上面通用的標註文件格式外,目前使用比較多的線下音頻處理工具Praat也有自己生成的結果格式textgrid文件。

     

  • 視頻標註

    視頻標註目前主流的方案是把視頻抽取關鍵幀然後對抽取關鍵幀的圖片進行標註,最後再合成視頻。

  • 醫療標註

    影像數據(CT/DR)

        .dcm文件遵循DICOM(Digital Imaging and Communications Medicine,醫療數位影像傳輸協定)標註的一種文件。而DICOM標準支持的設備包括心電圖、核磁共振成像、心血管、超聲心動圖等多種醫療社保,因而DCM文件被廣泛應用於醫療行業。

一張CT片子對應多個.dcm文件:

        病理切片數據

        病理切片醫院正常存儲的都是玻璃片式進行存放歸檔,大部分醫院都不進行電子化,主要原因對於醫院來說電子化不是剛需,及時電子化了也沒什麼作用,其次電子化需要病理切片電子掃描儀,不僅貴掃描效率也非常低下,有些設備的掃描成功率也不是很高。所以基本上如果客戶需要研究病理切片都需要進行自行掃描才行。但病理切片掃描出來的片子一般都非常大,40倍掃描出來就需要幾G的存儲空間,所以在我們拿到數據的時候一般都會非常大或者非常多圖片。介紹兩種目前主要的形式。

      1..jpg格式的圖片,如果是一張病理切片如果被切分成.jpg格式的圖片通常會被切成少則幾十張多則幾百張的圖片。

    

        2.tif格式也是一種圖像文件格式,只是這是一種靈活的位圖格式。

        其數據格式是一種3級體系結構,內部結構可以分爲三部分:文件頭信息區、標識信息區和圖像數據區。

 

  以上就是目前數據標註主要能涉及的文件格式以及主要的輸出結果格式,也是數據標註或者後期數據處理必須要了解的基礎知識。針對這部分內容還有很多,也會多寫幾篇和大家分享。

   

最近好多小夥伴後臺留言問一些問題,還是發現目前從事數據標註和想轉到數據相關行業的小夥伴還是很多的,但是大家對數據相關的基礎知識相對還是比較薄弱的,所以接下來會針對數據基礎知識、數據處理、python基礎等幾個方面寫一些專題系列文章,如果有興趣的小夥伴也可以一起參與學習。也歡迎大家留言交流。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章