原创 python+fiddler獲取微信文章的閱讀數和點贊數

具體詳細信息見:https://blog.csdn.net/qq_41686130/article/details/88296981?depth_1-utm_source=distribute.pc_relevant.none-task&

原创 kafka消費者會出現的一些問題和解決辦法

1.消費者位移提交失敗導致數據一直重複消費   原因:kafka的consumer消費數據時首先會從broker裏讀取一批消息數據進行處理,處理完成後再提交offset。而我們項目中的consumer消費能力比較低,導致取出的一批數據在

原创 python:requests的超時timeout

官方的解釋:      param timeout: (optional) How long to wait for the server to send data before giving up, as a float, or a :

原创 大批量數據進入mysql的幾種方式

場景:向已有的數據庫中插入大量不重複數據。 向數據庫中插入大量數據時,需要判斷插入的數據是否重複,然後再決定插入與否,如何提高效率? 1.一般的插入方法:INSERT INTO  在數據庫中把某字段設置成唯一索引,當數據重複時,這是會報錯

原创 python requests中的post請求的參數問題

問題:最新在爬取某站點的時候,發現在post請求當中,參數構造正確卻獲取不到數據,索性將post的參數urlencode之後放到post請求的url後面變成get請求,結果成功獲取到數據,對此展開疑問。 1.http請求中Form Dat

原创 python 將unicode編碼轉換爲漢字的幾種方法

Python中有兩種默認的字符串:str和unicode。在Python中一定要注意區分“Unicode字符串” 和“unicode對象”的區別。後面所有的“unicode字符串”指的都是python裏的“unicode對象”。 事實上在

原创 robot 3T 操作MongoDB數據庫常用命令

名稱    描述 db.collection.aggregate()    提供對聚合管道的訪問。 db.collection.bulkWrite()    提供批量寫入操作功能。 db.collection.copyTo()    已過

原创 linux crontab執行定時任務

crontab不能直接定時python腳本,所以必須把python腳本寫入shell腳本中。1.編寫shell腳本 vim test.sh #!/bin/bash time=($ date  '+%Y-%m-%d %H:%M') echo

原创 python調取google翻譯接口翻譯

# -*- coding:utf-8 -* import execjs from urllib.request import quote import requests import pymysql class Py4Js(): ""

原创 BloomFilter的基本概念和實現原理

一、基本概念:         布隆過濾器(Bloom Filter)是由布隆(Burton Howard Bloom)在1970年提出的。它實際上是由一個很長的二進制向量(位向量)和一系列隨機映射函數組成,布隆過濾器可以用於檢索一個元素

原创 抖音小視頻爬取(配合mitmproxy和夜神模擬器)

# #_*_encoding:utf-8_*_ import json import ssl from urllib.request import Request import urllib import sys import time

原创 批量爬取youtube小視頻

    有許多專門爬取的youtube小視頻的Python包,本次選擇youtube_dl,直接pip install youtube_dl youtube有具有一個各種視頻分類的模塊。 https://research.google.c

原创 cookie字符串轉化爲字典格式並在scrapy中設置cookies

在寫scrapy時,發送請求中的cookie要求是字典格式。 class transCookie:     def __init__(self, cookie):         self.cookie = cookie     def

原创 scrapy 錯誤集錦:

1.scrapy 爬網站 顯示 Filtered offsite request to 錯誤. 爬取京東商品時出現:DEBUG: Filtered offsite request to 'item.jd.com': <GET https:

原创 手機User-Agent大全

因爲爬取app需要,整理了一些手機的ua。如下: 華爲: Mozilla/5.0 (Linux; U; Android 8.1.0; zh-cn; BLA-AL00 Build/HUAWEIBLA-AL00) AppleWebKit/53