原创 Python爬蟲之URLError異常處理

最近在爬蟲是總會碰到HTTP Error問題,找到一篇正解,特此mark下。熟悉各種異常類型後,可以捕獲異常並進行相應處理,保證程序正常運行。 原文地址:Python爬蟲入門(5):URLError異常處理 1.URLError

原创 LDA(Latent Dirichlet Allocation)相關論文閱讀小結

關於主題挖掘,LDA(Latent Dirichlet Allocation)已經得到了充分的應用。本文是我對自己讀過的相關文章的總結。 1. 《LDA數學八卦》http://pan.baidu.com/s/18KUBG 把標

原创 python3 urllib 鏈接中有中文的解決方法

環境python3,開發平臺pycharm,使用urllib時,當url中存在中文時會出現以下錯誤: UnicodeEncodeError: 'ascii' codec can't encode characters in positi

原创 概率論與數理統計(陳希孺)學習筆記

由於平常學習自然語言處理的很多算法都來源於概率論和數理統計,因此找來陳老先生的著作溫習鞏固一下。具體內容請參考原著,本文僅作個人學習記錄。 1.基本概念 主觀概率:可以理解爲一個人針對某一事件的一種心態或傾向性。這種傾向性一是根據其經驗和

原创 AMiner背後的技術細節與挑戰

最近準備研究如何自動挖掘研究者的興趣,讀到這篇文章,與大家分享,共同學習。 摘要:AMiner利用數據挖掘和社會網絡分析與挖掘技術,提供研究者語義信息抽取、面向話題的專家搜索、權威機構搜索、話題發現和趨勢分析、基於話題的社會影響力分析

原创 win7(64位)下安裝ubuntu14.04.4 LTS雙系統操作說明

筆記本配置 處理器:Intel Core(TM)i5;內存:8G;已安裝win7家庭普通版操作系統 準備安裝Ubuntu 14.04.4 LTS (64位),本文是按照 Win7下U盤安裝Ubuntu14.04雙系統步驟詳解,操作後根據

原创 數學之美學習筆記

16年一月份閱讀了吳軍的《數學之美》,真有種相見恨晚的感覺!對於剛剛學習自然語言處理的人來說,這是最佳入門讀物,沒有之一。下面是我在學習中做的一些知識點的閱讀筆記,有些內容、公式摘自Tomas M.Cover的《信息論基礎》,詳情請參考原

原创 NLPIR2016分詞的python3實現

最近喜歡用python,正好NLPIR有python的實現,就mark一下。之前在實現時碰到些問題,多虧原作者中國科學院心理研究所郝碧波的幫助,可以關注其微博@Peter_Howe。 項目準備: (1)把下載的NLPIR項目下的Data包

原创 NLPIR2016相關功能的java實現

NLPIR是張華平博士及其團隊研發的,是由ICTCLAS中科院漢語詞法分析(分詞)系統發展而來的。http://ictclas.nlpir.org/ 現在更名爲NLPIR,集合了更多的漢語詞法分析功能,最新的2016版包括主要功能包括中文

原创 windows bat腳本for循環中對變量循環賦值

需求描述:循環讀取一個文件夾中每個文件的絕對地址,打印文件絕對路徑,並使變量自加1。 解決方法:開啓變量延遲,並且變量要用一對歎號“!!”括起來。 @echo off setlocal enabledelayedexpansion se

原创 windows Bat 批處理腳本 教程

文章來源:BAT 批處理腳本 教程 第一章 批處理基礎 第一節 常用批處理內部命令簡介 批處理定義:顧名思義,批處理文件是將一系列命令按一定的順序集合爲一個可執行的文本文件,其擴展名爲BAT或者CMD。這些命令統稱批處理命令。 小知識:

原创 Python 編碼規範

Python 編碼規範(Google) 文章出處 Python 風格規範(Google) 本項目並非 Google 官方項目, 而是由國內程序員憑熱情創建和維護。 如果你關注的是 Google 官方英文版, 請移步 Go

原创 10分鐘瞭解Pandas基本用法

本文適合初學者快速瞭解Pandas庫。 原文鏈接:10 Minutes to pandas 首先,導入我們需要Python包: In [1]: import pandas as pd In [2]: import numpy as n

原创 排序算法 及其穩定性解釋

排序算法的穩定性是指在待排序的序列中,存在多個相同的元素,若經過排序後這些元素的相對詞序保持不變,即Xm=Xn,排序前m在n前,排序後m依然在n前,則稱此時的排序算法是穩定的。下面針對常見的排序算法做個簡單的介紹。 1.冒泡排序 pub

原创 yield from

官方解釋: Python3.3版本的PEP 380中添加了yield from語法,允許一個generator生成器將其部分操作委派給另一個生成器。其產生的主要動力在於使生成器能夠很容易分爲多個擁有send和throw方法的子生