原创 windows安裝zookeeper和kafka

以前寫過一篇文章記錄過ubuntu下zookeeper和kafka的安裝搭建集羣構建單機版僞kafka集羣,Kafka和zookeeper安裝,本次整理windows下zookeeper和kafka的安裝使用 1、 下載安裝包 z

原创 svg文件保存成svg圖片並通過cairosvg庫轉換png圖片

之所以會碰到這個需求是因爲在做暗網一個站點採集時候其站點驗證碼均採用svg矢量圖格式,一般的打碼平臺是不能夠識別svg格式圖片的所以我們需要將如下圖所示的一堆轉換成svg圖片在通過cairosvg轉換成png格式的圖片 svg驗

原创 chardet編碼識別

import chardet a = chardet.detect(response.body) for key, value in a.items(): if key == 'encod

原创 ubuntu開啓Mysql遠程訪問的方法

開放3306端口 首先確認3306端口是否對外開放,mysql默認狀態下是不開放對外訪問功能的。查看方法如下: # netstat -an | grep 3306 tcp 0 0 127.0.0.1:3306

原创 langid語言識別

安裝庫命令如下 pip install langid 使用方法 langid.classify(response.body) langid.classify()方法輸出結果是一個元組,我們就可以取下標0,拿到語言縮寫 lang

原创 elasticsearch語句應用

一、基本術語 二、基本操作 #以下操作基於kibana 獲取集羣/節點等基本信息 相關命令: GET /_cluster/health GET /_cluster/state GET _nodes/stats GET _

原创 爬蟲中幾種翻頁方式

1.第一種是觀察網頁結構通過獲取下一頁的a標籤下的鏈接去請求的方式 if response.xpath('//a[text()="Next »"]/@href'): next_page = response.xpath(

原创 elasticsearch指定字段批量更新

創建index時候將想要更新的字段默認值爲None,更新字段時候一定要指定我們創建index的id,且source部分要將我們要更新的字段==null,因爲None在es中爲null from elasticsearch6 imp

原创 python時間戳

1 獲取當前時間並轉換date格式 import time from datetime import datetime,timedelta t = time.strftime('%Y-%m-%d %H:%M:%S',time.l

原创 requests使用socks代理

需要安裝的兩個庫 pip install requests[socks] pip install requests[security] 示例 import requests proxyInfo ={"http": "socks5

原创 golang基礎知識概述

首先安裝golang的環境,去官網下載下載地址,我下載的Windows依賴一直next安裝就行最後安裝完成配置下環境變量,我們的golang的環境就完成了.然後在搞一個IDE吧,我就選擇goland吧,畢竟權威的,用着也習慣.至於

原创 鏈家二手房採集數據分析

最近幫一個小夥伴做了一個針對太原鏈家二手房的數據採集加分析,先看下效果圖,後面上源碼 採集 # -*- coding: utf-8 -*- import re import csv import time im

原创 es之curl篩選查詢

指定地址、index、es類型、數據類型(json)、字段信息、查詢數(5) curl -XGET 'http://127.0.0.1:9200/page/_doc/_search' -H "Content-Type: appli

原创 es中bool複合查詢和match_phrase精確匹配性能對比

第一種是bool複合查詢must:如果有多個條件,這些條件都必須滿足 and與,性能的話如下圖 # -*- coding: utf-8 -*- import time from connecting import es star

原创 局域網內兩臺ubuntu機器傳遞文件的方法

1 拷貝本地主機的文件夾到遠程主機的命令: scp -r ./xxx.txt [email protected]:/root/ #需要輸入傳入服務器密碼 2 從遠程機器拷貝文件夾至本地主機的命令: scp -r root@1