原创 pyspider打開url看不到內容

示例:未使用phantomjs前:數據部分爲空白url列表:使用phantomjs:url列表:遇到這類動態js封裝數據的情況,建議使用phantom

原创 spark 函數(python)

  RDD的概念          RDD是Spark中的抽象數據結構類型,任何數據在Spark中都被表示爲RDD。從編程的角度來看,RDD可以簡單看成是一個數組。和普通數組的區別是,RDD中的數據是分區存儲的,這樣不同分區的數據就可以分

原创 知識抽取-實體及關係抽取(一)

知識抽取涉及的“知識”通常是 清楚的、事實性的信息,這些信息來自不同的來源和結構,而對不同數據源進行的知識抽取的方法各有不同,從結構化數據中獲取知識用 D2R,其難點在於複雜表數據的處理,包括嵌套表、多列、外鍵關聯等,從鏈接數據中獲取知識

原创 爬取異步請求(XHR/JS)數據方法一人工分析異步請求

# !/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2018-07-06 12:30:04 # Project: test1 from pyspider.libs.

原创 爬蟲iframe blocked解決

pyspider爬蟲遇到iframe blocked的時候;需要繞過iframe跨域問題,直接爬取iframe框架url:上邊爲iframe框架封的數據,我們找到iframe框架內的url,直接爬取該url數據:爬取該url數據:解決if

原创 帶cookie驗證解決方法

示例:不帶cookie:帶cookie結果;分析cookie:示例無論是什麼設備,第一次訪問該站,都會彈出一個521的錯誤狀態碼,與此同時還會返回一個Cookie。瀏覽器接受到狀態碼與Cookie,會再次進行一次請求,因爲接收到了Set-

原创 爬取動態js html數據方法二 使用phantomjs

pyspider示例代碼一:利用phantomjs解決js問題本系列文章主要記錄和講解pyspider的示例代碼,希望能拋磚引玉。pyspider示例代碼官方網站是http://demo.pyspider.org/。上面的示例代碼太多,無

原创 kubeadm 快速安裝K8S 1.14.2

原文鏈接:http://k8s.com 前言 Kubernetes作爲容器編排工具,簡化容器管理,提升工作效率而頗受青睞。很多新手部署Kubernetes由於“科學上網”問題舉步維艱,本文以實戰

原创 機器學習入門大全

原文鏈接:https://jiekema.io 最近有不少童鞋給李傑克留言,說自己對機器學習很感興趣卻無從下手,想知道我的學習路徑,也希望我可以分享一些適合入門的學習資源給到大家。 在踩過坑、撞

原创 快速搭建K8S集羣-kubeadm

官方提供Kubernetes部署3種方式 minikube Minikube是一個工具,可以在本地快速運行一個單點的Kubernetes,嘗試Kubernetes或日常開發的用戶使用。不能用於生產環境。 官方文檔:https://kube

原创 UCSC Genome Browser Docker Image

UCSC Genome Browser Docker Image A minimal UCSC Genome Browser mirror. http://genome.ucsc.edu/ License This is a Docker

原创 Kafka connect 構建ETL方案

一.背景介紹 Kafka connect是Confluent公司(當時開發出Apache Kafka的核心團隊成員出來創立的新公司)開發的confluent platform的核心功能. 大家都知道現在數據的ETL過程經常會選擇kafka

原创 pyspark鏈接mongodb數據操作

如何導入數據 數據可能有各種格式,雖然常見的是HDFS,但是因爲在Python爬蟲中數據庫用的比較多的是MongoDB,所以這裏會重點說說如何用spark導入MongoDB中的數據。 當然,首先你需要在自己電腦上安裝spark環境,簡單說

原创 關於Palantir——第一部分

第一部分 JRR Tolkien在寫“指環王”的時候,寫到了Palantirs(水晶球):這是能洞察一切的石頭,可以讓石頭擁有者與另一遙遠的石頭擁有者進行溝通; 一些能量特別強大的人甚至能夠通過“水晶球”來洞察世界上任何地方。 在過去兩年

原创 BLAST教程

Basic local alignment search tool (BLAST) 包括:blastn, blastp, blastx, tblastn, tblastx等. 使用conda安裝即可。 conda install -c