統計文章單詞[JAVA實現]-經典筆試題

題目:統計文章中單詞的個數,或出現頻率
思路:先讀文件到StringBuffer中,再使用正則表達式,分割成str[],在進行統計(使用map)。

package demo.subject;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.Map;
import java.util.Map.Entry;

/**
 * 統計文章單詞數
 * 原理:使用正則表達式,分割成str[],在進行統計
 * @author Ant
 *
 */
public class WordCounter {

    /**
     * 統計單詞出現頻率
     * @param str
     * @return
     */
    public Map<String,Integer> count(StringBuffer str){
        Map<String, Integer> map = new HashMap<>();
        String s[] = str.toString().split("[^a-zA-Z]");//用String自帶的split,
//      Pattern p = Pattern.compile("[^a-zA-Z]");//或者用Pattern類
//      String s[] = p.split(str);

        //統計單詞個數
        for(int i =0 ; i < s.length; i++){
            if(s[i]!="" && map.get(s[i])==null){
                map.put(s[i], 1);
            }else{
                int n = map.get(s[i])+1;
                map.put(s[i], n);
            }
        }
        return map;
    }

    public static void main(String[] args) {
        StringBuffer buffer = new StringBuffer();
        //讀文件,或者直接模擬字符串
        try {
            BufferedReader br = new BufferedReader(
                    new InputStreamReader(
                            new FileInputStream(
                                    new File("E://fatal.log"))));
            String temp = null;
            while((temp=br.readLine())!=null){
                buffer.append(temp);
            }
            br.close();
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }

//      StringBuffer str= new StringBuffer("I am Geng.X.y,she is my girlfriend.Lowood?what is that?X"); 
        WordCounter wc = new WordCounter();
        Map<String,Integer> map = wc.count(buffer);//統計

        //輸出
        for(Entry<String, Integer> entry : map.entrySet()){
            System.out.println("Word:"+entry.getKey() +"  value:"+entry.getValue());
        }

    }

}

/=================================/
最後附上 正則表達式的基礎知識,方便以後翻查
(資料來源於:http://blog.csdn.net/kdnuggets/article/details/2526588 感謝)
/=================================/

// 反斜槓
/t 間隔 (‘/u0009’)
/n 換行 (‘/u000A’)
/r 回車 (‘/u000D’)
/d 數字 等價於[0-9]
/D 非數字 等價於[^0-9]
/s 空白符號 [/t/n/x0B/f/r]
/S 非空白符號 [^/t/n/x0B/f/r]
/w 單獨字符 [a-zA-Z_0-9]
/W 非單獨字符 [^a-zA-Z_0-9]
/f 換頁符
/e Escape
/b 一個單詞的邊界
/B 一個非單詞的邊界
/G 前一個匹配的結束

^爲限制開頭
^java 條件限制爲以Java爲開頭字符
java 條件限制爲以java爲結尾字符
. 條件限制除/n以外任意一個單獨字符
java.. 條件限制爲java後除換行外任意兩個字符

加入特定限制條件「[]」
[a-z] 條件限制在小寫a to z範圍中一個字符
[A-Z] 條件限制在大寫A to Z範圍中一個字符
[a-zA-Z] 條件限制在小寫a to z或大寫A to Z範圍中一個字符
[0-9] 條件限制在小寫0 to 9範圍中一個字符
[0-9a-z] 條件限制在小寫0 to 9或a to z範圍中一個字符
[0-9[a-z]] 條件限制在小寫0 to 9或a to z範圍中一個字符(交集)

[]中加入^後加再次限制條件「[^]」
[^a-z] 條件限制在非小寫a to z範圍中一個字符
[^A-Z] 條件限制在非大寫A to Z範圍中一個字符
[^a-zA-Z] 條件限制在非小寫a to z或大寫A to Z範圍中一個字符
[^0-9] 條件限制在非小寫0 to 9範圍中一個字符
[^0-9a-z] 條件限制在非小寫0 to 9或a to z範圍中一個字符
[^0-9[a-z]] 條件限制在非小寫0 to 9或a to z範圍中一個字符(交集)

在限制條件爲特定字符出現0次以上時,可以使用「*」
J* 0個以上J
.* 0個以上任意字符
J.*D J與D之間0個以上任意字符

在限制條件爲特定字符出現1次以上時,可以使用「+」
J+ 1個以上J
.+ 1個以上任意字符
J.+D J與D之間1個以上任意字符

在限制條件爲特定字符出現有0或1次以上時,可以使用「?」
JA? J或者JA出現

限制爲連續出現指定次數字符「{a}」
J{2} JJ
J{3} JJJ
文字a個以上,並且「{a,}」
J{3,} JJJ,JJJJ,JJJJJ,???(3次以上J並存)
文字個以上,b個以下「{a,b}」
J{3,5} JJJ或JJJJ或JJJJJ
兩者取一「|」
J|A J或A
Java|Hello Java或Hello

「()」中規定一個組合類型
比如,我查詢index間的數據,可寫作

發佈了30 篇原創文章 · 獲贊 129 · 訪問量 30萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章