原创 文獻

基於ATM並行化採樣優化算法的研究—童威 [摘 要]本文基於企業微博主題分析,提出一種大規模作者主題模型訓練的並行化思想,繼而提出相應的採樣算法,並在此基礎之上針對其採樣複雜度高的問題提出優化採樣算法。同時在 Spark 大數據平臺上設

原创 LDA主題模型原理解析及python代碼

LDA是有Blei於2003年提出的三層貝葉斯主題模型,通過無監督的學習方法發現文本中隱含的主題信息,目的是要以無指導學習的方法從文本中發現隱含的語義維度-即“Topic”或者“Concept”。隱性語義分析的實質是要利用文本中詞項(te

原创 gensim---LDA---perplexity

以下內容來源於https://blog.csdn.net/qq_25073545/article/details/79773807 使用gensim實現lda,並計算perplexity( gensim Perplexity Estim

原创 中科院分詞系統NLPIR的JAVA代碼(批量讀取文件)

準備工作: 最新NLPIR分詞系統下載包http://ictclas.nlpir.org/downloads 授權文件更新:https://github.com/NLPIR-team/NLPIR/tree/431b6351f30ed7d

原创 中科院分詞系統NLPIR的JAVA代碼(補充)

在上一篇博客基礎上,加了以下功能,並作細小更改: 去掉停用詞 名詞詞性抽取 具體代碼見下: package code; import java.io.BufferedInputStream; import java.io.Buff

原创 雜筆

1、用ZIP創建字典 創建字典的三種方法 dict(a=1,b=2,c=3) dict([(a,1),(b,2),(c,3)]) dict({a:1,b:2,c:3}) 推薦使用第二種方法結合zip創建 key = 'abcde'

原创 anaconda及代碼運行時間

Anaconda3代碼自動補齊 點擊Spyder菜單欄中的Tools—>preferences,選中左側Ipython console ,然後選擇右側Advanced Settings選項卡,勾選Use the greedy comple

原创 雜亂鏈接集合

問卷網 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~分割線~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 英文文獻查找 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~分割線~~~~~~~~~~~

原创 gensim中帶監督味的作者-主題模型

作者主題模型的通俗解釋 model_list = [] for i in range(5): model = AuthorTopicModel(corpus=corpus, num_topics=10, id2word=dicti

原创 爬蟲的相關鏈接

爬蟲抓取新浪科技的文章beautiful soup+mysql selenium自動化測試資源整理(含所有版本chrome、chromedriver、firefox下載鏈接

原创 gensim相關鏈接

gensim API Reference ~~~~~~~~~~~~~~~~~~~分割線~~~~~~~~~~~~~~~~~~~

原创 Python相關鏈接

WindowsCompilers—Microsoft Visual C++ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~分割線~~~~~~~~~~~~~~~~~~~~~~~~~~~~ PyPA—Python Packagi

原创 中科院分詞系統NLPIR的JAVA代碼(補充2)

在上篇博客基礎上,添加以下兩個功能: 統計詞頻功能,並以降序排列 顯示運行進度 具體代碼如下: package code; import java.io.BufferedInputStream; import java.io.Bu

原创 基本庫的使用(續1)

第三章、基本庫的使用 2.Request import urllib.request request=urllib.request.Request('https://python.org') response=urllib.request

原创 抓取貓眼電影排行

抓取貓眼電影排行 # -*- coding:utf-8 -*- import requests from requests.exceptions import RequestException import re import json