原创 爬蟲札記

/html/body/div[4]/div/div/div[2]/div[3]/div[2] /html/body/div[4]/div/div/div[2]/div[3]/div[2]/ul/li[1]/a/span doc_list

原创 logtash 增量導入

"format": "8yyyy/MM/dd||yyyy/M/dd||yyyy/MM/d||yyyy/M/d" cat  xzsl-cluster.log  經度 Longitude 簡寫Lng 緯度 Latitude 簡寫Lat

原创 es7建立模型及搜索dsl

字段類型 (1) text和keyword text類型用於全文本字段, 文本會被分詞. 默認不支持聚合和排序, 只有將fielddata設爲true才能支持聚合和排序, 但不推薦使用. keyword類型用於id, 枚舉, 或不需要被分

原创 docker-compose es7安裝雜記

echo 'vm.max_map_count=262144'>/etc/sysctl.conf & sysctl -p docker-compose down -v & docker-compose up docker compose主要

原创 es7 父子關係

# 查詢父文檔,並顯示所有子文檔: POST my_hobby/_search {   "query": {     "has_child": {       "type": "dxcontent",       "query": {  

原创 es7深入搜索

基於詞項和基與全⽂的搜索 查詢方式,包括:複合查詢/全文本查詢/term-level查詢等 什麼場景下用 boolen查詢,什麼場景下用match查詢,又是什麼場景下用term查詢。 你可以自己對查詢去做一些分類。 例如terms查詢是用

原创 Elasticsearch 史上最全最常用工具清單

Elasticsearch 史上最全最常用工具清單  https://www.sohu.com/a/238368297_827544

原创 nlp與平安溝通

ocr 識別 金融合同 論文  網頁(監測數據 歷史報表) mysql 語音 (會商 -》語音識別)=》(水庫 使用調度 什麼條件) 網頁數據(外網公佈雨情 ) 時效 重點。 知識圖譜  智能駕駛 智能推薦  語音識別 圖像識別 農業(莊

原创 gremlin

g.V().hasLabel('Person').outE('Knows') inE()      

原创 es7千人前面【8-15過濾與排序】

term查詢精確查詢, 小寫的話能匹配到,改成大寫就查不到 standard分詞器  分割並全部轉小寫 它們之間是and關係 must中沒有符合條件的  整個bool查詢就爲空。 should和filter一起使用  should

原创 es7【8-16自定義score】

  GET /movie/_search { "query": { "function_score": { // 原始查詢得到的oldScore "query": { "multi_

原创 es7【9-4 IK分詞器構建】

ik_max_word: 會將文本做最細粒度的拆分,會窮盡各種可能的組合 ik_smart: 會做最粗粒度的拆分 smart 能拆分出來的  max_word一定能拆分出來 whitespace 以空格的方式分割字符  

原创 mysql 主從搭建札記

select @@datadir; show variables like 'basedir%' show global variables; mysql -u root -P 3307 -h 101.200.152.192 -p ——

原创 es7 10-10 java搜索接入

低價排序模型 隻影響召回 不影響排序 使用replace  # 低價排序 GET shop/_search { "_source": "*", "script_fields": { "distance": {