原创 文獻
基於ATM並行化採樣優化算法的研究—童威 [摘 要]本文基於企業微博主題分析,提出一種大規模作者主題模型訓練的並行化思想,繼而提出相應的採樣算法,並在此基礎之上針對其採樣複雜度高的問題提出優化採樣算法。同時在 Spark 大數據平臺上設
原创 LDA主題模型原理解析及python代碼
LDA是有Blei於2003年提出的三層貝葉斯主題模型,通過無監督的學習方法發現文本中隱含的主題信息,目的是要以無指導學習的方法從文本中發現隱含的語義維度-即“Topic”或者“Concept”。隱性語義分析的實質是要利用文本中詞項(te
原创 gensim---LDA---perplexity
以下內容來源於https://blog.csdn.net/qq_25073545/article/details/79773807 使用gensim實現lda,並計算perplexity( gensim Perplexity Estim
原创 中科院分詞系統NLPIR的JAVA代碼(批量讀取文件)
準備工作: 最新NLPIR分詞系統下載包http://ictclas.nlpir.org/downloads 授權文件更新:https://github.com/NLPIR-team/NLPIR/tree/431b6351f30ed7d
原创 中科院分詞系統NLPIR的JAVA代碼(補充)
在上一篇博客基礎上,加了以下功能,並作細小更改: 去掉停用詞 名詞詞性抽取 具體代碼見下: package code; import java.io.BufferedInputStream; import java.io.Buff
原创 雜筆
1、用ZIP創建字典 創建字典的三種方法 dict(a=1,b=2,c=3) dict([(a,1),(b,2),(c,3)]) dict({a:1,b:2,c:3}) 推薦使用第二種方法結合zip創建 key = 'abcde'
原创 anaconda及代碼運行時間
Anaconda3代碼自動補齊 點擊Spyder菜單欄中的Tools—>preferences,選中左側Ipython console ,然後選擇右側Advanced Settings選項卡,勾選Use the greedy comple
原创 雜亂鏈接集合
問卷網 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~分割線~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 英文文獻查找 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~分割線~~~~~~~~~~~
原创 gensim中帶監督味的作者-主題模型
作者主題模型的通俗解釋 model_list = [] for i in range(5): model = AuthorTopicModel(corpus=corpus, num_topics=10, id2word=dicti
原创 爬蟲的相關鏈接
爬蟲抓取新浪科技的文章beautiful soup+mysql selenium自動化測試資源整理(含所有版本chrome、chromedriver、firefox下載鏈接
原创 gensim相關鏈接
gensim API Reference ~~~~~~~~~~~~~~~~~~~分割線~~~~~~~~~~~~~~~~~~~
原创 Python相關鏈接
WindowsCompilers—Microsoft Visual C++ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~分割線~~~~~~~~~~~~~~~~~~~~~~~~~~~~ PyPA—Python Packagi
原创 中科院分詞系統NLPIR的JAVA代碼(補充2)
在上篇博客基礎上,添加以下兩個功能: 統計詞頻功能,並以降序排列 顯示運行進度 具體代碼如下: package code; import java.io.BufferedInputStream; import java.io.Bu
原创 基本庫的使用(續1)
第三章、基本庫的使用 2.Request import urllib.request request=urllib.request.Request('https://python.org') response=urllib.request
原创 抓取貓眼電影排行
抓取貓眼電影排行 # -*- coding:utf-8 -*- import requests from requests.exceptions import RequestException import re import json