redis+結巴分詞做倒排索引

起源

之前爬取過一百萬的歌曲，包括歌手名，歌詞等，最近瞭解到倒排索引，像es，solr這種太大，配置要求太高，對於一百萬的數據量有些小題大做，所以想到了redis做一個倒排索引。

我的配置

這裏說一下我的配置，後面用的到：

cpu：i7 8750HQ （六核十二線程）
內存：8G ddr4
硬盤：ssd（.m2接口）

思路

簡單來說就是把MySQL中的數據取出來，分詞（包括去除停用詞），將分詞後得到的一個個詞語存入redis。在redis當中，一個詞語就是一個set，set裏存放的是歌詞中包含這個詞語的歌的主鍵。

當我們生成這麼一個倒排索引後，就可以實現“搜索一句話，很快得到有這些話的歌曲集合”。

因爲一百萬的數據還是挺大的，所以考慮多線程執行，按過程來說分爲兩部分：

1、從數據庫中取出來，放到Redis的list結構裏去，使用list的lpush和rpop達到一種消息隊列的效果。

2、從Redis中rpop出一首歌，分詞，然後將分詞結果存入Redis，形成倒排索引。

下面就根據這兩部分講一下具體的實現。

實現

MySQL->Redis部分的實現

這一部分思路就是從MySQL中取出數據，使用FastJson進行序列化，存入key爲“dbWorkersKey”的list裏，這裏使用的是lpush命令。

我們把上面的思路封裝到一個Thread裏，多線程的去搬運就很快了。

多線程下有以下幾個問題和回答：

Q：我們使用的數據訪問工具是Spring的JdbcTemplate，他是線程安全的嗎

A：是線程安全的，Spring把session，connection這些非線程安全的使用ThreadLocal做了線程私有化，避免了這些問題。

Q：每個線程負責一塊數據，數據劃分怎麼做

A：使用了一個AtomicInteger，多個線程同時持有一個該對象，每次都incrementAndGet，在SQL語句中結合limit使用，做到數據的劃分。

Q：考慮到多線程，那肯定要用線程池了，線程池有什麼需要注意的嗎

A：有，因爲一個任務的很大的兩塊時間——從MySQL獲取數據和向Redis添加數據——都是網絡IO，爲了更好地利用處理器，我們可以把線程池大小設置爲2*核心數，同時別忘記把數據庫連接池的最大連接數設置爲大於線程數，比如我用的dbcp2默認的maxTotal是8。

Q：如何搬運完畢後自動停止

A：這裏因爲我知道搬運條目的總數量爲1106599，而且我每次獲取1000條，所以當AtomicInteger >1107時，就是結束的時候了

worker代碼如下：

static class DbWorker extends Thread {

        private JdbcTemplate jdbcTemplate;

        private RedisCacheManager redisCacheManager;

        private String name;

        private AtomicInteger atomicInteger;

        public DbWorker(JdbcTemplate jdbcTemplate, RedisCacheManager redisCacheManager, String name, AtomicInteger atomicInteger) {
            this.jdbcTemplate = jdbcTemplate;
            this.redisCacheManager = redisCacheManager;
            this.name = name;
            setName(name);
            this.atomicInteger = atomicInteger;
        }

        @Override
        public void run() {
            super.run();
            long lastSongId = 0;
            while (true) {
                int index = atomicInteger.incrementAndGet();
                if (index > 1107) {
                    System.out.println(TimeUtils.dateToString() + " dbWorkers-" + getName() + "-db中應該是沒有數據了，結束線程運行...-get index = " + index + " ... lastSongId = " + lastSongId);
                    return;
                }
                int start = (index - 1) * 1000;
                List<Song> result = jdbcTemplate.query("select id,lyric from song limit " + start + ",1000", new Object[] {},
                        new BeanPropertyRowMapper<Song>(Song.class));

                for (Song temp :
                        result) {
                    redisCacheManager.lpush(REDIS_DB_WORKERS_KEY, JSON.toJSONString(temp));
                }
                lastSongId = result.get(result.size()-1).getId();
                System.out.println("dbWorkers-" + getName() + "-獲得" + result.size() + "條數據後已經將這些數據運往redis保存了，繼續下一次db獲取... -get index = " + index + " ... lastSongId = " + lastSongId);
            }
        }
    }

消耗時間

當時設置的是16條線程，忘記修改最大連接數，導致最大連接數爲8，而且打印的內容有點多，所以，1106599條數據，從MySQL搬運到Redis用了7min16s的時間。

Redis->分詞->Redis中

這一部分主要是從Redis中使用rpop出一首歌，使用FastJson反序列化後，對歌詞進行分詞，這裏分詞使用的是結巴分詞的Java版本，將分詞結果去除停用詞後，存入key爲“song:詞語”的set結構中。

當然也要用到多線程了，要不得到啥時候去。

Q&A

Q：在多線程池中，注意的問題？

A：因爲分詞是一個計算型的任務，所以我們需要壓榨處理器，設置線程數爲核數+1，減少線程切換次數

Q：如果全部數據處理完畢，如何停止任務呢？

A：每次rpop出的value，如果爲空，則rpopIsNull計數器+1，併線程沉睡rpopIsNull*500毫秒，rpopIsNull大於5之後，退出線程。如果又一次rpop出的value不爲空，則將rpopIsNull重置爲0，這樣還可以避免生產者消費者的處理能力不均的問題。

其他：

A：注意多線程異常

A：停用詞使用的是結巴提供的詞語庫

A：使用SpringRedis的時候，他默認的序列化器是Java默認的序列化器，這個序列化器會在序列化後的內容最前頭加上類信息，每個key、value都有，看着不舒服的同時還浪費內存空間，我就換成了StringRedisSerializer，參考的這一篇文章，文章末還推薦了一片【Redis 內存優化】節約內存：Instagram的Redis實踐也很棒

A：使用VisualVM進行監控，特別是VisualVM中各個狀態的意義，還有如何分析出死鎖

A：Redis在生產環境中，使用keys，一般肯定把服務器打掛，一般使用scan和dbsize，具體文章點擊Redis查詢當前庫有多少個 key和2.1.1 列出key——極客學院課程

代碼：

static class FenCiWorker extends Thread {

        private RedisCacheManager redisCacheManager;

        private String name;

        private int cantPop = 0;

        private JiebaSegmenter segmenter;

        public FenCiWorker(RedisCacheManager redisCacheManager,String name) {
            this.redisCacheManager = redisCacheManager;
            this.name = name;
            setName(name);
            segmenter = new JiebaSegmenter();
        }

        @Override
        public void run() {
            super.run();
            long lastSongId = 0;
            while (true) {
                Object value = redisCacheManager.rpop(REDIS_DB_WORKERS_KEY);
                if (value != null) {
                    cantPop = 0;
                    Song song = JSON.parseObject((String) value, Song.class);

                    lastSongId = song.getId();

                    String lyric = song.getLyric();
                    if (StringUtils.isEmpty(lyric)) {
//                        多線程的異常，這裏如果不檢測lyric是否爲null，線程會報異常後不提示而結束...
                        continue;
                    }
//                    System.out.println(TimeUtils.dateToString() + " fenciWorker-" + getName() + "-開始處理一首歌 id = " + lastSongId);
                    List<SegToken> result = segmenter.process(lyric, JiebaSegmenter.SegMode.INDEX);

                    for (SegToken temp :
                            result) {
                        String word = temp.word;
                        if (!stopWordSet.contains(word)) {
                            redisCacheManager.sSet(REDIS_SONG_INDEX_PRE + word,song.getId().toString());
                        }
                    }
//                    System.out.println(TimeUtils.dateToString() + " fenciWorker-" + getName() + "-處理了完一首歌 id = " + lastSongId);
                } else {
                    cantPop++;
                    if (cantPop >= 5) {
                        System.out.println(TimeUtils.dateToString() + " fenciWorker-" + getName() + "-超過5次沒有pop到數據，線程退出了... lastSongId = " + lastSongId);
                        return;
                    } else {
                        long sleep = cantPop * 500;
                        System.out.println(TimeUtils.dateToString() + " fenciWorker-" + getName() + "-已經+ " + cantPop + "次沒有pop到數據... 線程將沉睡" + sleep + " lastSongId = " + lastSongId);
                        try {
                            Thread.sleep(sleep);
                        } catch (InterruptedException e) {
                            e.printStackTrace();
                        }
                    }
                }
            }
        }
    }

消耗時間

開了8個線程，花了16min35s，共1106559條數據，速度1112.12首/s。

到這裏，倒排索引就建好了，備份一下dump.rdb文件。

使用

簡單的實現思路，用戶輸入一句話，對這句話分詞，根據分詞結果去redis查詢，將查詢結果放到idSet裏，最後對idSet進行遍歷，使用主鍵去數據庫查詢。

不足

當直接查詢歌名時，但也做了分詞，查到很多沒用的記錄
查詢結果沒有根據與目標符合程度的排序
有的比如“我”，“愛”，“你”這種詞太多歌裏都有了，所以用這種詞查詢意義不大

優化

索引應該加入歌名，直接搜歌名
加入優先級屬性，比如搜歌名得到的結果應該放到最前面
其他的可以去查閱一些關於搜索的文章

redis+結巴分詞做倒排索引

起源

我的配置

思路

實現

MySQL->Redis部分的實現

消耗時間

Redis->分詞->Redis中

消耗時間

使用

不足

優化

【SQL進階】CASE語句的使用

分佈式爬蟲（Zookeeper+Redis+Spring+WebMgic+Dubbo）

redis+結巴分詞做倒排索引

Netty斷線重連實現

基於netty+Spring+Zookeeper的分佈式RPC框架

動態規劃題目-合唱團-學習筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結