爲什麼要有文件系統

爲什麼要有文件系統?

一個沒有格式化的磁盤就好像一個空倉庫,空間非常大,我們可以隨便使用。

如果缺乏規劃,那麼使用的最終結果可能是這樣樣子的。數據被毫無規律的放到磁盤上,最後查找的時候會非常費勁,甚至可能找不到需要的數據。

因此,文件系統出現了。

文件系統是什麼?

文件系統是一個軟件。它實現了兩個功能。

  • 對磁盤空間進行統一規劃
  • 給普通用戶提高人性化的增刪改查接口。

就好比倉庫中的貨架,將空間進行規劃和編排,這樣根據編號可以方便的找到具體的貨物。而文件系統也是類似,將磁盤空間進行規劃和編號處理,這樣通過文件名就可以找到具體的數據,而不用關心數據到底是怎麼存儲的。

以Ext4文件系統爲例,它將磁盤空間進行劃分,並通過元數據實現對磁盤空間的管理。這樣,用戶對文件的操作就轉化爲文件系統對磁盤空間的操作。

也就是說,文件系統解決了普通用戶使用磁盤存儲數據的問題。

扇區與塊的區別

先來說說硬盤吧, 最終文件總還是要儲存在硬盤上的嘛。

# fdisk -l
Disk /dev/cciss/c0d0: 146.7 GB, 146778685440 bytes
255 heads, 63 sectors/track, 17844 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes

可以看到幾個名詞:

  • heads:磁頭
  • sectors:扇區是硬盤的最小單位。每個扇區的大小通常是512字節(現在新的硬盤每個扇區有4K了),這個大小是在硬盤出廠時設置,不能修改。
  • cylinders: 柱面

硬盤容量就是heads*sectors*cylinders*512=255*63*17844*512=146771896320b=146.7G

block的概念

前文提及扇區是硬盤的最小單位,但是文件系統並不是一個扇區一個扇區的來讀數據,太慢了,它是一個塊一個塊的讀取數據,就是說塊(block)是文件系統存取數據的最小單位,一般大小是4KB(這個值可以修改,在格式化分區的時候修改)。也就是8各扇區的大小。也就是說文件系統是每次8個扇區的大小來讀寫數據。

讀取一個塊,實際上是從硬件設備讀取一個或多個扇區,一個block只能存放一個文件內容,無論這個文件有多小。一個文件可能會佔用多個block,每讀取一個block就會消耗一次磁盤io。如果要提升磁盤io性能,那麼儘可能一次io讀取更多的數據,但是block也不是越大越好,需要結合業務來設置。

例如:block設置爲4K,那麼創建大量的1K小文件後,磁盤空間會被大量浪費。一個文件佔用一個block,100G的小文件(都是1K大小),那麼會佔用400G的空間,浪費300G。

如果不想浪費空間,block設置爲1K。但當文件都是1000K大小時,又過於消耗磁盤io(1000K的文件,block爲4K時佔用250個block,block爲1K時佔用1000個block,分別消耗磁盤io爲250次和1000次)。所以具體業務場景得設置不同的block會好一點,大文件多(比如都是視頻文件)時,block設置大一點,小文件多(比如小說TXT文件)時,block設置小一點。

通常,一個文件系統佔用的多個block在磁盤上是不連續存儲的,因爲如果連續存儲,則經過頻繁的刪除、建立、移動文件等操作,最後磁盤上將形成大量的空洞,很快磁盤上將無空間可用。因此,必須提供一種方法將一個文件佔用的多個block映射到對應的非連續存儲的扇區上,文件系統是用索引節點解決這個問題的。

需要記住的是: 扇區是對硬盤而言,塊是對文件系統而言,是文件系統層面的概念。

如何查看block大小

$ df -T
/dev/cciss/c0d0p5    ext3   112738028  81733116  25185772  77% /

$  tune2fs -l /dev/cciss/c0d0p5 | grep "Block size"
Block size:               4096

文件系統是怎麼讀取數據的?

文件系統不是一個扇區一個扇區的來讀數據,太慢了,所以有了block(塊)的概念,它是一個塊一個塊的讀取的,block纔是文件存取的最小單位。

怎麼查看當前磁盤用的什麼文件系統類型

df -T 或者 sudo parted ------->print list 

文件系統有哪些分類?

不同的操作系統,不同的存儲設備支持不同的文件系統類型。

那怎麼查看linux系統下支持哪些文件系統?

ls -l /lib/modules/$(uname -r)/kernel/fs

查看正在使用的文件系統類型,前面沒有nodev表示正在使用

$ cat /proc/filesystems
nodev	sysfs
nodev	rootfs
nodev	ramfs
nodev	bdev
nodev	proc
nodev	cgroup
nodev	cpuset
nodev	tmpfs
nodev	devtmpfs
nodev	debugfs
nodev	securityfs
nodev	sockfs
nodev	dax
nodev	pipefs
nodev	anon_inodefs
nodev	configfs
nodev	devpts
nodev	hugetlbfs
nodev	autofs
nodev	pstore
nodev	mqueue
	ext3
	ext2
	ext4
	xfs
nodev	binfmt_misc

爲什麼會有這麼多文件操作類型?

ext2、ext3、ext4這些常見的類型,它們有什麼區別?在什麼場景下使用它們?

Ext家族是Linux支持度最廣、最完整的文件系統,當我們格式化磁盤後,就已經爲我們規劃好了所有的inode/block/metadate等數據,這樣系統可以直接使用,不需要再進行動態的配置,這也是它最優秀的特點,不過這也是它最顯著的缺點,磁盤容量越大,格式化越慢,centos7.x已經選用xfs作爲默認文件系統,xfs是一種適合大容量磁盤和處理巨型文件的文件系統。

Ext2與Ext3的比較

ext3和ext2的主要區別在於,ext3引入Journal(日誌)機制,Linux內核從2.4.15開始支持ext3,它是從文件系統過渡到日誌式文件系統最爲簡單的一種選擇,ext3提供了數據完整性和可用性保證

  • ext2和ext3的格式完全相同,只是在ext3硬盤最後面有一部分空間用來存放Journal的記錄;
  • 在ext2中,寫文件到硬盤中時,先將文件寫入緩存中,當緩存寫滿時纔會寫入硬盤中;
  • 在ext3中,寫文件到硬盤中時,先將文件寫入緩存中,待緩存寫滿時系統先通知Journal,再將文件寫入硬盤,完成後再通知Journal,資料已完成寫入工作;
  • 在ext3中,也就是有Journal機制裏,系統開機時檢查Journal的內容,來查看是否有錯誤產生,這樣就加快了開機速度;

Ext3與Ext4的比較

Linux內核從2.6.28開始支持ext4文件系統,相比於ext3提供了更佳的性能和可靠性。下面先簡單羅列出二者的差異,後續文章再來深入探索。

  1. 與 Ext3 兼容。 執行若干條命令,就能從 Ext3 在線遷移到 Ext4,而無須重新格式化磁盤或重新安裝系統。原有 Ext3 數據結構照樣保留,Ext4 作用於新數據,當然,整個文件系統因此也就獲得了 Ext4 所支持的更大容量。 
  2. 更大的文件系統和更大的文件。 較之 Ext3 目前所支持的最大 16TB 文件系統和最大 2TB 文件,Ext4 分別支持 1EB的文件系統,以及 最大16TB 的文件。 
  3. 無限數量的子目錄。 Ext3 目前只支持 32,000 個子目錄,而 Ext4 支持無限數量的子目錄。 
  4. Extents。 Ext3 採用間接塊映射,當操作大文件時,效率極其低下。比如一個 100MB 大小的文件,在 Ext3 中要建立 25,600 個數據塊(每個數據塊大小爲 4KB)的映射表。而 Ext4 引入了現代文件系統中流行的 extents 概念,每個 extent 爲一組連續的數據塊,上述文件則表示爲“該文件數據保存在接下來的 25,600 個數據塊中”,提高了不少效率。 
  5. 多塊分配。 當寫入數據到 Ext3 文件系統中時,Ext3 的數據塊分配器每次只能分配一個 4KB 的塊,寫一個 100MB 文件就要調用 25,600 次數據塊分配器,而 Ext4 的多塊分配器“multiblock allocator”(mballoc) 支持一次調用分配多個數據塊。 
  6. 延遲分配。 Ext3 的數據塊分配策略是儘快分配,而 Ext4 和其它現代文件操作系統的策略是儘可能地延遲分配,直到文件在 cache 中寫完纔開始分配數據塊並寫入磁盤,這樣就能優化整個文件的數據塊分配,與前兩種特性搭配起來可以顯著提升性能。 
  7. 快速 fsck。 以前執行 fsck 第一步就會很慢,因爲它要檢查所有的 inode,現在 Ext4 給每個組的 inode 表中都添加了一份未使用 inode 的列表,今後 fsck Ext4 文件系統就可以跳過它們而只去檢查那些在用的 inode 了。 
  8. 日誌校驗。 日誌是最常用的部分,也極易導致磁盤硬件故障,而從損壞的日誌中恢復數據會導致更多的數據損壞。Ext4 的日誌校驗功能可以很方便地判斷日誌數據是否損壞,而且它將 Ext3 的兩階段日誌機制合併成一個階段,在增加安全性的同時提高了性能。 
  9. 無日誌”(No Journaling)模式。 日誌總歸有一些開銷,Ext4 允許關閉日誌,以便某些有特殊需求的用戶可以藉此提升性能。 
  10. 在線碎片整理。 儘管延遲分配、多塊分配和 extents 能有效減少文件系統碎片,但碎片還是不可避免會產生。Ext4 支持在線碎片整理,並將提供 e4defrag 工具進行個別文件或整個文件系統的碎片整理。 
  11. inode 相關特性。 Ext4 支持更大的 inode,較之 Ext3 默認的 inode 大小 128 字節,Ext4 爲了在 inode 中容納更多的擴展屬性(如納秒時間戳或 inode 版本),默認 inode 大小爲 256 字節。Ext4 還支持快速擴展屬性(fast extended attributes)和 inode 保留(inodes reservation)。 
  12. 持久預分配(Persistent preallocation)。 P2P 軟件爲了保證下載文件有足夠的空間存放,常常會預先創建一個與所下載文件大小相同的空文件,以免未來的數小時或數天之內磁盤空間不足導致下載失敗。 Ext4 在文件系統層面實現了持久預分配並提供相應的 API(libc 中的 posix_fallocate()),比應用軟件自己實現更有效率。 
  13. 默認啓用 barrier。 磁盤上配有內部緩存,以便重新調整批量數據的寫操作順序,優化寫入性能,因此文件系統必須在日誌數據寫入磁盤之後才能寫 commit 記錄,若 commit 記錄寫入在先,而日誌有可能損壞,那麼就會影響數據完整性。Ext4 默認啓用 barrier,只有當 barrier 之前的數據全部寫入磁盤,才能寫 barrier 之後的數據。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章