原创 pyhton微博爬蟲(1)——獲取知乎官方賬號的微博數據

本文主要目標是獲取新浪微博上知乎官方賬號所發的微博內容信息。 1. 分析網頁 通過仔細分析知乎官方賬號頁面信息(https://m.weibo.cn/u/1904769205),發現可以通過JSON方式獲取微博數據。如下圖所示:

原创 Machine Learning Yearning讀書筆記(轉載)

原文鏈接:http://blog.csdn.net/qq_24818761/article/details/53465940 首先,非常感謝Andrew NG貢獻的新書,本書總共大概50多章,昨天收到了1-12章(1-2頁/

原创 pyhton爬蟲(9)——使用XPath提取網頁信息

1. XPath基礎 1.1 什麼是XPath? XPath 是一門在 XML 文檔中查找信息(節點)的語言。XPath 可用來在 XML 文檔中對元素和屬性進行遍歷。 1.2 節點 節點是XPath提取XML文檔信息的最小單位,

原创 python數據分析(1)——獲取微信好友的統計信息

本文主要是嘗試下一個比較有意思的python模塊:wxpy,導入此模塊之後,可以很方便的來創建一個微信機器人和做一些和微信相關的有意思的分析。 1. wxpy 安裝 首先,通過pip方式進行安裝,在命令行模式下輸入: pip in

原创 pyhton微博爬蟲(3)——獲取微博評論數據

本文的主要目標是獲取微博評論數據,具體包括微博評論鏈接、總評論數、用戶ID、用戶暱稱、評論時間、評論內容、用戶詳情鏈接等。 實現代碼如下所示: # -*- coding: utf-8 -*- """ Created on Tue

原创 推薦系統(1)——推薦系統概述

本文主要介紹常見的商品推薦方法和推薦系統的評價指標。 1.推薦系統概述 推薦系統是主動從大量信息中找到用戶可能感興趣的信息的工具。推薦系統的核心問題是如何實現推薦個性化、如何向用戶推薦匹配度高的產品(商品)或項目,本質是通過一定的

原创 自然語言處理入門(5)——基於WordArt的AGM手機評論詞頻分析

本文首先從速賣通(Aliexpress)獲取到AGM X1手機(戰狼2中吳京用的手機)的評論數據,然後利用一個很好的公開詞頻分析工具WordArt(https://wordart.com/create)來對評論數據進行分析。 1.

原创 pyhton爬蟲(11)——抓取亞馬遜商品類別信息

本文主要提取亞馬遜23個大類、254個小類的類別名稱和鏈接,後面會在此基礎之上進一步提取各個類別下的商品詳情信息。 實現代碼如下所示: # -*- coding: utf-8 -*- """ Created on Mon Jul

原创 自然語言處理入門(6)——基於LDA的文章主題生成

1. LDA概述 LDA(Latent Dirichlet Allocation)是一種文檔主題生成模型,也稱爲一個三層貝葉斯概率模型,包含詞、主題和文檔三層結構。所謂生成模型,就是說,我們認爲一篇文章的每個詞都是通過“以一定概率

原创 TensorFlow系列(3)——基於MNIST數據集的RNN實現

本文主要是嘗試搭建一個簡單的循環神經網絡(RNN)模型,並用它來訓練MNIST數據集。 1. RNN簡介 RNN是深度學習的重要分支之一,在自然語言處理領域(NLP)得到了廣泛的應用,如: (1)機器翻譯 (2)語言識別 (3)圖

原创 pyhton爬蟲(12)——抓取攜程酒店評論數據

本文主要目標是抓取攜程酒店基本信息和用戶評論數據。具體來說,酒店基本信息包括:酒店名、酒店星級、酒店最低房價、用戶推薦比、酒店總評分等;用戶評論數據包括:用戶評論時間,用戶評分,評論內容等。 實現代碼如下所示: # -*- cod

原创 pyhton爬蟲(8)——獲取網易新聞內容

本文主要目的是獲取網易新聞標題和正文內容。實現代碼如下所示: # -*- coding: utf-8 -*- """ Created on Mon Jul 17 15:46:30 2017 @author: Administra

原创 TensorFlow系列(4)——基於MNIST數據集的CNN實現

本文主要是嘗試搭建一個簡單的卷積神經網絡(CNN)模型,並用它來訓練MNIST數據集。 1. CNN簡介 卷積神經網絡(Convolutional neural network)屬於人工神經網絡的一種,它的權值共享的網絡結構顯著降

原创 pyhton微博爬蟲(2)——獲取微博用戶關注列表

本文的主要目標是獲取微博用戶關注列表以及關注列表中各微博用戶的ID、暱稱、詳情鏈接、粉絲數、關注數等關鍵信息。 實現代碼如下所示: # -*- coding: utf-8 -*- """ Created on Thu Aug 3

原创 pyhton爬蟲(10)——通過亞馬遜商品評論時間分析商品銷量分佈情況

本文以亞馬遜rope bag商品爲例,共採集到1989條商品評論時間數據,並選取15年1月——17年7月的1809條數據來繪製分月銷量圖。 採集數據的python代碼如下所示: # -*- coding: utf-8 -*- ""