原创 python學習筆記4---(python網絡爬蟲-爬蟲前奏)

爲什麼用python寫爬蟲程序? 1、PHP:對多線程、異步支持不是很好,併發處理能力弱。爬蟲是工具性程序,對速度和效率要求較高。 2、Java:生態圈很完善。但java本身很笨重,代碼量很大。重構成本比較高,任何修改會導致代碼大量改

原创 python學習筆記3---統計一個英文txt文件中出現頻率最高的三個字母?

統計一個英文txt文件中出現頻率最高的三個字母? 代碼如下: res ={} #打開文件 with open('demo.txt') as f: #遍歷(讀)文件的內容,忽略空格 for char in f.read().re

原创 python學習筆記1---面試初級python開發工程師110題

** 面試初級python開發工程師110題(參考答案見下篇) ** 1、一行代碼實現1—100之和 2、如何在一個函數內部修改全局變量 3、列出5個python標準庫 4、字典如何刪除鍵和合並兩個字典 5、談下python的GIL

原创 Python學習筆記2---面試初級python開發工程師110題答案

sum(range(0,101)) a = 5 def fn(): global a a = 4 fn() print(a) os/sys/re/math/datatime dic = {“name”:“cai”,“a

原创 主題一致性

翻譯該鏈接 Topic Modeling with Gensim (Python) 主題建模是一種從大量文本中提取隱藏主題的技術。 Latent Dirichlet Allocation(LDA)是一種流行的主題建模算法,在Pytho

原创 CSDN-markdown編輯器使用指南

這裏寫自定義目錄標題歡迎使用Markdown編輯器新的改變功能快捷鍵合理的創建標題,有助於目錄的生成如何改變文本的樣式插入鏈接與圖片如何插入一段漂亮的代碼片生成一個適合你的列表創建一個表格設定內容居中、居左、居右SmartyPants

原创 CoherenceModel官網翻譯

CoherenceModel官網翻譯 models.coherencemodel – Topic coherence pipeline 計算主題模型的主題一致性。這是論文四個階段主題一致性管道的實現。MichaelRoeder,And

原创 Python核心編程第二版第七章序列:映像和集合類型

7-3.字典和列表的方法。 (a).創建一個字典,並把這個字典中的鍵按照字母順序顯示出來 dict1 = {'host': '123', 'port': '322'} for i in sorted(dict1.keys()):

原创 譯Author-topic models: why I am working on a new implementation

原作者Ólavur Mortensen Author-topic models: why I am working on a new implementation 作者 - 主題模型承諾爲數據科學家提供一種工具,可以同時根據潛在主題獲

原创 Python核心編程第2版第六章習題答案

import string import keyword import sys Startwith=string.ascii_letters+'_' Othersymbol=string.digits def CheckID(s):

原创 Exploring the Space of Topic Coherence Measures

Evaluation of Topic Modeling:Topic coherence we will go through the evaluation of Topic Modelling by introducing the

原创 Python3爬取愛奇藝VIP視頻

(1)實戰背景 下面網站提供免費的視頻解析,其通用解析方式是: http://api.xfsub.com/index.php?url=[播放地址或視頻id] 比如繡春刀電影只需在瀏覽器地址輸入: http://api.xfsub.com

原创 Python3進行詞頻統計

一、統計序列中元素的頻率 1.以序列中統計元素個數爲例 from random import randint # 先用隨機庫生成有重複元素的序列 list = [randint(0,10) for _ in range(1,20)] p

原创 作者主題模型

作者主題模型ATMODEL 最近一篇關於JAVA的博客中處理的結果,直接用於該python代碼運行。 遇到的bug: 1.BUG1 perwordbound = at_model.bound(at_model.corpus, autho

原创 中科院分詞系統NLPIR的JAVA代碼(補充3)

在上篇博客基礎上添加去掉低頻詞的功能 package code; import java.io.BufferedInputStream; import java.io.BufferedReader; import java.io.Byt