題目:統計文章中單詞的個數,或出現頻率
思路:先讀文件到StringBuffer中,再使用正則表達式,分割成str[],在進行統計(使用map)。
package demo.subject;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.Map;
import java.util.Map.Entry;
/**
* 統計文章單詞數
* 原理:使用正則表達式,分割成str[],在進行統計
* @author Ant
*
*/
public class WordCounter {
/**
* 統計單詞出現頻率
* @param str
* @return
*/
public Map<String,Integer> count(StringBuffer str){
Map<String, Integer> map = new HashMap<>();
String s[] = str.toString().split("[^a-zA-Z]");//用String自帶的split,
// Pattern p = Pattern.compile("[^a-zA-Z]");//或者用Pattern類
// String s[] = p.split(str);
//統計單詞個數
for(int i =0 ; i < s.length; i++){
if(s[i]!="" && map.get(s[i])==null){
map.put(s[i], 1);
}else{
int n = map.get(s[i])+1;
map.put(s[i], n);
}
}
return map;
}
public static void main(String[] args) {
StringBuffer buffer = new StringBuffer();
//讀文件,或者直接模擬字符串
try {
BufferedReader br = new BufferedReader(
new InputStreamReader(
new FileInputStream(
new File("E://fatal.log"))));
String temp = null;
while((temp=br.readLine())!=null){
buffer.append(temp);
}
br.close();
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
// StringBuffer str= new StringBuffer("I am Geng.X.y,she is my girlfriend.Lowood?what is that?X");
WordCounter wc = new WordCounter();
Map<String,Integer> map = wc.count(buffer);//統計
//輸出
for(Entry<String, Integer> entry : map.entrySet()){
System.out.println("Word:"+entry.getKey() +" value:"+entry.getValue());
}
}
}
/=================================/
最後附上 正則表達式的基礎知識,方便以後翻查
(資料來源於:http://blog.csdn.net/kdnuggets/article/details/2526588 感謝)
/=================================/
// 反斜槓
/t 間隔 (‘/u0009’)
/n 換行 (‘/u000A’)
/r 回車 (‘/u000D’)
/d 數字 等價於[0-9]
/D 非數字 等價於[^0-9]
/s 空白符號 [/t/n/x0B/f/r]
/S 非空白符號 [^/t/n/x0B/f/r]
/w 單獨字符 [a-zA-Z_0-9]
/W 非單獨字符 [^a-zA-Z_0-9]
/f 換頁符
/e Escape
/b 一個單詞的邊界
/B 一個非單詞的邊界
/G 前一個匹配的結束
^爲限制開頭
^java 條件限制爲以Java爲開頭字符
. 條件限制除/n以外任意一個單獨字符
java.. 條件限制爲java後除換行外任意兩個字符
加入特定限制條件「[]」
[a-z] 條件限制在小寫a to z範圍中一個字符
[A-Z] 條件限制在大寫A to Z範圍中一個字符
[a-zA-Z] 條件限制在小寫a to z或大寫A to Z範圍中一個字符
[0-9] 條件限制在小寫0 to 9範圍中一個字符
[0-9a-z] 條件限制在小寫0 to 9或a to z範圍中一個字符
[0-9[a-z]] 條件限制在小寫0 to 9或a to z範圍中一個字符(交集)
[]中加入^後加再次限制條件「[^]」
[^a-z] 條件限制在非小寫a to z範圍中一個字符
[^A-Z] 條件限制在非大寫A to Z範圍中一個字符
[^a-zA-Z] 條件限制在非小寫a to z或大寫A to Z範圍中一個字符
[^0-9] 條件限制在非小寫0 to 9範圍中一個字符
[^0-9a-z] 條件限制在非小寫0 to 9或a to z範圍中一個字符
[^0-9[a-z]] 條件限制在非小寫0 to 9或a to z範圍中一個字符(交集)
在限制條件爲特定字符出現0次以上時,可以使用「*」
J* 0個以上J
.* 0個以上任意字符
J.*D J與D之間0個以上任意字符
在限制條件爲特定字符出現1次以上時,可以使用「+」
J+ 1個以上J
.+ 1個以上任意字符
J.+D J與D之間1個以上任意字符
在限制條件爲特定字符出現有0或1次以上時,可以使用「?」
JA? J或者JA出現
限制爲連續出現指定次數字符「{a}」
J{2} JJ
J{3} JJJ
文字a個以上,並且「{a,}」
J{3,} JJJ,JJJJ,JJJJJ,???(3次以上J並存)
文字個以上,b個以下「{a,b}」
J{3,5} JJJ或JJJJ或JJJJJ
兩者取一「|」
J|A J或A
Java|Hello Java或Hello
「()」中規定一個組合類型
比如,我查詢index中間的數據,可寫作