在Java裏處理文件的技巧

寫這篇Blog,主要是因爲看到太多的凌亂的,不安全的處理文件的代碼了。甚至可以說每個項目都會有人喜歡寫自己的一些FileUitl。。

下面介紹一些利用JDK7標準庫來靈活處理文件的方法。

實用的工具類,Path,Paths,Files,FileSystem 

有一些很靈活的處理方法: 

[java] view plain copy
 在CODE上查看代碼片派生到我的代碼片
  1. //得到一個Path對象  
  2. Path path = Paths.get("/test/a.txt");  
  3. //Path轉換File  
  4. File file = path.toFile();  
  5.   
  6. Files.readAllBytes(path);  
  7. Files.deleteIfExists(path);  
  8. Files.size(path);  

正確拼接路徑不要手動拼接路徑

不好的代碼: 

[java] view plain copy
 在CODE上查看代碼片派生到我的代碼片
  1. String game = "foo";  
  2. File file = new File("~/test/" + game + ".txt");  
即使是要手動拼接路徑,請使用下面兩個平臺無關的變量: 
[java] view plain copy
 在CODE上查看代碼片派生到我的代碼片
  1. System.out.println(File.pathSeparator);  
  2. System.out.println(File.separator);  
正確簡潔的方法是使用Paths類: 
[java] view plain copy
 在CODE上查看代碼片派生到我的代碼片
  1. Path path = Paths.get("~/test/""foo""bar""a.txt");  
  2. System.out.println(path);  
  3. //  ~/test/foo/bar/a.txt  

讀取文件的所有內容,文件的所有行

讀取文件所有內容前,先判斷文件大小,防止OOM。 

[java] view plain copy
 在CODE上查看代碼片派生到我的代碼片
  1. public static byte[] readAllBytes(String fileName, long maxSize) throws IOException {  
  2.     Path path = Paths.get(fileName);  
  3.     long size = Files.size(path);  
  4.     if (size > maxSize) {  
  5.         throw new IOException("file: " + path + ", size:" + size + "> " + maxSize);  
  6.     }  
  7.     return Files.readAllBytes(path);  
  8. }  
  9.   
  10. public static List<String> readAlllines(String fileName, Charset charset, long maxSize) throws IOException {  
  11.     Path path = Paths.get(fileName);  
  12.     long size = Files.size(path);  
  13.     if (size > maxSize) {  
  14.         throw new IOException("file: " + path + ", size:" + size + "> " + maxSize);  
  15.     }  
  16.     return Files.readAllLines(path, charset);  
  17. }  

利用JDK7的特性,auto close,遠離一堆的catch, close

[java] view plain copy
 在CODE上查看代碼片派生到我的代碼片
  1. Path path = Paths.get("~/test/""foo""bar""a.txt");  
  2. try (InputStream in = Files.newInputStream(path)) {  
  3.     // process  
  4.     //in.read();  
  5. }  

歷遍目錄

DK7新特性,FileVisitor 

[java] view plain copy
 在CODE上查看代碼片派生到我的代碼片
  1. public class MyFileVisitor extends SimpleFileVisitor<Path>{  
  2.     @Override  
  3.     public FileVisitResult visitFile(Path file, BasicFileAttributes attrs) throws IOException {  
  4.         System.out.println(file);  
  5.         return FileVisitResult.CONTINUE;  
  6.     }  
  7.       
  8.     public static void main(String[] args) throws IOException {  
  9.         Path path = Paths.get("/home/user/test");  
  10.         Files.walkFileTree(path, new MyFileVisitor());  
  11.     }  
  12. }  

判斷文件是否在父路徑下

網上流傳一種遞歸判斷parent的方式,http://stackoverflow.com/questions/18227634/check-if-file-is-in-subdirectory

但是查閱jdk代碼後,發現getParent()函數是通過處理文件名得到的。所以直接比較文件前綴即可。 

請務必注意,file.getCanonicalPath()函數 

[java] view plain copy
 在CODE上查看代碼片派生到我的代碼片
  1. public static boolean isSubFile(File parent, File child) throws IOException {  
  2.     return child.getCanonicalPath().startsWith(parent.getCanonicalPath());  
  3. }  
  4.   
  5.   
  6. public static boolean isSubFile(String parent, String child) throws IOException {  
  7.     return isSubFile(new File(parent), new File(child));  
  8. }  

監視文件改變

JDK7新特性,但是API比較難用。TODO 

淘寶有個diamond的配置管理項目,是利用定時器不斷去讀取來文件是否改變的。

JDK7則是利用了linux的inotify機制。

Web服務器防止非法的文件路徑訪問

字符截斷攻擊和文件歷遍漏洞原理:在文件名中插入%00的URL編碼,web服務器會把%00後面的內容拋棄。 

例如這樣的URL:http://www.test.com/../../../../etc/passwd%00.gif

防範方法

  • 寫入文件前,判斷文件是否在父路徑下,參考上面的函數。 
  • 利用Java的安全機制 
[java] view plain copy
 在CODE上查看代碼片派生到我的代碼片
  1. // All files in /img/java can be read  
  2. grant codeBase "file:/home/programpath/" {  
  3.   permission java.io.FilePermission "/img/java""read";  
  4. };  
Tomcat的設置 
http://tomcat.apache.org/tomcat-7.0-doc/security-manager-howto.html

  • 靜態資源不要自己手寫代碼去讀取,儘量使用Web服務器或者Web框架的本身的靜態資源映射功能。

比如Tomcat的默認自帶的DefaultServlet:

[html] view plain copy
 在CODE上查看代碼片派生到我的代碼片
  1. <servlet-mapping>  
  2.     <servlet-name>default</servlet-name>  
  3.     <url-pattern>/static/*</url-pattern>  
  4. </servlet-mapping>  
Spring mvc可以配置

[html] view plain copy
 在CODE上查看代碼片派生到我的代碼片
  1. <mvc:resources mapping="/resources/**" location="/public-resources/"/>  
或者使用spring mvc裏的DefaultServletHttpRequestHandler。這個默認優先級是最低的,也就是最後沒人處理的URL會交給WebServer本身的default servlet去處理。比如Tomcat的就是上面所說的。

[html] view plain copy
 在CODE上查看代碼片派生到我的代碼片
  1. <mvc:default-servlet-handler/>  
個人推薦使用DefaultServletHttpRequestHandler,因爲Web容器的文件訪問功能要比Spring mvc自身的要強大。比如Tomcat的DefaultServlet支持Etag,斷點續傳,緩存等。

參考:

http://docs.spring.io/spring/docs/current/spring-framework-reference/html/mvc.html

http://svn.apache.org/repos/asf/tomcat/trunk/java/org/apache/catalina/servlets/DefaultServlet.java

發佈了15 篇原創文章 · 獲贊 26 · 訪問量 14萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章