mysql到elasticsearch數據遷移踩坑實踐-Ali0th

Author : Ali0th

Date : 20190514

最近用go語言寫了個爬蟲，爬了幾百萬條數據，存在 mysql 裏，數據量較大，一個表就一兩G的程度(mysql表一般不要超過2G)。

使用查詢語句非常之慢，而且我要經常使用到"LIKE",一條語句返回結果耗時 10~30 秒，這可不行。所以決定把數據遷移到 ES。真的是踩坑了，本來只想簡單搞搞，結果搞了好多天。

本文章介紹兩種遷移方式：go-mysql-elasticsearch 和 logstash。以下是相關實踐過程。

0.1. 先說go-mysql-elasticsearch

一開始發現了 go-mysql-elasticsearch 這個工具，也是go寫的，不過對ES的支持版本比較舊。於是我就把ES換成了舊版本。（新的ES版本就用logstash方式吧）

0.1.1. 環境

# 主要組件
mysql            : 5.5.3
elasticsearch    : 5.6.16
go-mysql-elasticsearch
# 環境
windows 10
go               : 1.11.2

同時也會用到 win 下 git 的命令行模式（可以運行 bash 命令）

go-mysql-elasticsearch對 mysql 和 ES 的要求爲：

MySQL supported version < 8.0

ES supported version < 6.0

ES舊版本下載

kibana 5.6.16下載

0.1.2. 部署

mysql 和 elasticsearch 安裝很簡單，這裏就不說明了。這裏主要說 go-mysql-elasticsearch 的安裝過程。

項目地址：go-mysql-elasticsearch

go get github.com/siddontang/go-mysql-elasticsearch

cd到目錄下，我的 go mod 不好用，所以我直接使用 go get 安裝。

go get github.com/juju/errors
go get github.com/pingcap/check
go get github.com/siddontang/go/sync2
go get github.com/siddontang/go-mysql
go get github.com/pingcap/errors
go get github.com/shopspring/decimal
go get github.com/siddontang/go-log/log

修改代碼中的一處錯誤。（應該是版本原因導致的）

文件：river/river.go

編譯：

go build -o bin/go-mysql-elasticsearch ./cmd/go-mysql-elasticsearch

無報錯，並看到有 bin/go-mysql-elasticsearch 文件即成功。

0.1.3. mysql 配置

文件：my.ini

添加以下配置並重啓。

# Binary Logging
server-id=1
log_bin = mysql-bin
binlog_format = ROW

0.1.4. river.toml配置

文件：etc/river.toml

其中有兩個關鍵的配置Source和rule。

[[rule]]
schema = "mysql_es"   # Mysql數據庫名
table = "test_table"  # Mysql表名
index = "test_index"  # ES中index名
type = "doc"          # 文檔類型

這一部分看官方示例就很清楚了 river.toml 和 Elasticsearch最佳實踐從Mysql到Elasticsearch

0.1.5. mysqldump 配置

etc/river.toml 中有一處對於mysqldump的配置，只要把 mysql 的 bin 目錄加到環境變量就可以了。但我這裏還是找不到mysqldump，所以我就直接到mysqldump.exe拷貝到go-mysql-elasticsearch目錄下就可以了。

0.1.6. 啓動

./bin/go-mysql-elasticsearch -config=./etc/river.toml

如上即爲正常運行。

0.1.7. es查詢數據量

# 查詢各索引情況
curl -X GET "localhost:9200/_cat/indices?v"

# 查詢數量
curl -X GET "localhost:9200/_cat/count?v"
# 查詢某index的文檔數量
curl -X GET "localhost:9200/_cat/count/index_name?v"

# 查詢前1000條數據
curl -X GET "localhost:9200/test/_search?size=1000"

0.2. 使用 Logstash 進行數據遷移

環境：

ES : 7.0.1
Kibana : 7.0.1
Logstash : 7.0.1

我的 ES/Kibana 在windows 下，logstash 在centos下。

因爲我在 windows 啓動 logstash 後一直報錯，[2019-05-15T11:55:00,183][ERROR][logstash.inputs.jdbc ] Failed to load C:/setup/mysql-connector-java-5.1.47/mysql-connector-java-5.1.47-bin.jar ，各種嘗試最後報錯依然存在，只好換用centos部署 logstash了。

0.2.1. 安裝部署

安裝 jdbc 和 elasticsearch 插件

./bin/logstash-plugin install logstash-input-jdbc
./bin/logstash-plugin install logstash-output-elasticsearch

獲取 jdbc mysql 驅動

下載

0.2.2. 配置

配置jdbc.conf,使用時自行把下面註釋去掉。

input {
    stdin {
    }
    jdbc {
      # mysql相關jdbc配置
      jdbc_connection_string => "jdbc:mysql://192.168.31.134:3306/test"
      jdbc_user => "root"
      jdbc_password => "root123"

      # jdbc連接mysql驅動的文件目錄，可去官網下載:https://dev.mysql.com/downloads/connector/j/
      jdbc_driver_library => "/home/mt/Desktop/mysql-connector-java-5.1.47/mysql-connector-java-5.1.47-bin.jar"
      # the name of the driver class for mysql
      jdbc_driver_class => "com.mysql.jdbc.Driver"
      jdbc_paging_enabled => "true"
      jdbc_page_size => "50000"

      # mysql文件, 也可以直接寫SQL語句在此處，如下：
      # statement => "SELECT * from Table_test;"
      # statement_filepath => "C:/setup/logstash-7.0.1/config/myconfig/jdbc.sql"
      statement => "SELECT * FROM table WHERE id >= :sql_last_value"

      # 這裏類似crontab,可以定製定時操作，比如每10分鐘執行一次同步(分 時 天 月 年)
      schedule => "*/1 * * * *"
      type => "jdbc"

      # 是否記錄上次執行結果, 如果爲真,將會把上次執行到的 tracking_column 字段的值記錄下來,保存到 last_run_metadata_path 指定的文件中
      record_last_run => "true"

      # 是否需要記錄某個column 的值,如果record_last_run爲真,可以自定義我們需要 track 的 column 名稱，此時該參數就要爲 true. 否則默認 track 的是 timestamp 的值.
      use_column_value => "true"

      # 如果 use_column_value 爲真,需配置此參數. track 的數據庫 column 名,該 column 必須是遞增的. 一般是mysql主鍵
      tracking_column => "id"

      last_run_metadata_path => "/home/mt/Desktop/logstash-7.0.1/myconf/last_id"

      # 是否清除 last_run_metadata_path 的記錄,如果爲真那麼每次都相當於從頭開始查詢所有的數據庫記錄
      clean_run => "false"

      # 是否將 字段(column) 名稱轉小寫
      lowercase_column_names => "false"

      columns_charset => {
        "message"=> "UTF-8"
        "name"=> "UTF-8"
      }
    }
}

# 此處我不做過濾處理,如果需要，也可參考elk安裝那篇
filter {}

output {
    # 輸出到elasticsearch的配置
    # 注意這裏對type判斷，若加載多個配置文件，要有這個判斷纔不會互相影響
    if[type] == "jdbc" {
      elasticsearch {
          hosts => ["192.168.31.45:9200"]
          index => "test"

          # 將"_id"的值設爲mysql的autoid字段
          # 注意這裏的id，如果多個表輸出到同一個index，它們的id有重複的，則這裏的 document_id 要修改成不重複的，否則會覆蓋數據
          document_id => "%{id}"
          template_overwrite => true
      }
    }
    # 這裏輸出調試，正式運行時可以註釋掉
    stdout {
        codec => json_lines
    }
}

啓動：

./bin/logstash -f ./myconf/jdbc.conf

0.2.3. 問題與解決

問題：編碼錯誤

[2019-05-15T21:38:10,051][ERROR][logstash.outputs.elasticsearch] An unknown error occurred sending a bulk request to Elasticsearch. We will retry indefinitely {:error_message=>"\"\\xE8\" from ASCII-8BIT to UTF-8", :error_class=>"LogStash::Json::GeneratorError", :backtrace=>["/home/mt/Desktop/logstash-7.0.1/logstash-core/lib/logstash/json.rb:27:in `jruby_dump'", "/home/mt/Desktop/logstash-7.0.1/vendor/bundle/jruby/2.5.0/gems/logstash-output-elasticsearch-10.0.2-java/lib/logstash/outputs/elasticsearch/http_client.rb:119:in `block in bulk'", "org/jruby/RubyArray.java:2577:in `map'", "/home/mt/Desktop/logstash-7.0.1/vendor/bundle/jruby/2.5.0/gems/logstash-output-elasticsearch-10.0.2-java/lib/logstash/outputs/elasticsearch/http_client.rb:119:in `block in bulk'", "org/jruby/RubyArray.java:1792:in `each'", "/home/mt/Desktop/logstash-7.0.1/vendor/bundle/jruby/2.5.0/gems/logstash-output-elasticsearch-10.0.2-java/lib/logstash/outputs/elasticsearch/http_client.rb:117:in `bulk'", "/home/mt/Desktop/logstash-7.0.1/vendor/bundle/jruby/2.5.0/gems/logstash-output-elasticsearch-10.0.2-java/lib/logstash/outputs/elasticsearch/common.rb:286:in `safe_bulk'", "/home/mt/Desktop/logstash-7.0.1/vendor/bundle/jruby/2.5.0/gems/logstash-output-elasticsearch-10.0.2-java/lib/logstash/outputs/elasticsearch/common.rb:191:in `submit'", "/home/mt/Desktop/logstash-7.0.1/vendor/bundle/jruby/2.5.0/gems/logstash-output-elasticsearch-10.0.2-java/lib/logstash/outputs/elasticsearch/common.rb:159:in `retrying_submit'", "/home/mt/Desktop/logstash-7.0.1/vendor/bundle/jruby/2.5.0/gems/logstash-output-elasticsearch-10.0.2-java/lib/logstash/outputs/elasticsearch/common.rb:38:in `multi_receive'", "org/logstash/config/ir/compiler/OutputStrategyExt.java:118:in `multi_receive'", "org/logstash/config/ir/compiler/AbstractOutputDelegatorExt.java:101:in `multi_receive'", "/home/mt/Desktop/logstash-7.0.1/logstash-core/lib/logstash/java_pipeline.rb:235:in `block in start_workers'"]}

解決：

對各個字段設置字符集：

      columns_charset => {
        "message"=> "UTF-8"
        "name"=> "UTF-8"
        "payload"=> "UTF-8"
      }

問題：加載多個配置文件進行數據遷移，有重複id

0.2.4. 加載多個配置文件

運行多個實例

創建一個配置文件的文件夾，使用-f命令加載此文件即可。

./bin/logstash -f ./myconf/

0.2.5. 長期運行的 logstash

想要維持一個長期後臺運行的 logstash，你需要同時在命令前面加 nohup，後面加 &。

0.3. 資料

logstash mysql 準實時同步到 elasticsearch

logstash-input-jdbc同步mysql數據到elasticsearch

MySQL到Elasticsearch的同步之路

https://discuss.elastic.co/t/filter-error-ascii-8bit-to-utf-8/124156

https://www.elastic.co/guide/en/logstash/current/plugins-inputs-jdbc.html#plugins-inputs-jdbc-columns_charset

https://discuss.elastic.co/t/character-encoding-problems/126714/4

Logstash Multiple Pipelines 使用

Logstash 最佳實踐

logstash-input-jdbc同時同步多個表

mysql到elasticsearch數據遷移踩坑實踐-Ali0th

0.1. 先說go-mysql-elasticsearch

0.1.1. 環境

0.1.2. 部署

0.1.3. mysql 配置

0.1.4. river.toml配置

0.1.5. mysqldump 配置

0.1.6. 啓動

0.1.7. es查詢數據量

0.2. 使用 Logstash 進行數據遷移

0.2.1. 安裝部署

0.2.2. 配置

0.2.3. 問題與解決

0.2.4. 加載多個配置文件

0.2.5. 長期運行的 logstash

0.3. 資料

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

【2024-05-21】以茶會友

raibaby Halo v0.4.3 漏洞分析-Ali0th

hadoop 超詳細集羣部署過程-Ali0th

一次過反爬蟲的過五關斬六將-Ali0th

150行超迷你爬蟲tinycrawler實現-Ali0th

mysql到elasticsearch數據遷移踩坑實踐-Ali0th

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結