原创 【機器學習】深入理解--信息熵(Information Entropy)

信息 信息是我們一直在談論的東西,但信息這個概念本身依然比較抽象。在百度百科中的定義:信息,泛指人類社會傳播的一切內容,指音訊、消息、通信系統傳輸和處理的對象。 信息可不可以被量化,怎樣量化? 人們常常說信息很多,或者信息較少,但

原创 【Python學習】位置參數和關鍵字參數分析

剛學用Python的時候,特別是看一些庫的源碼時,經常會看到func(*args, **kwargs)這樣的函數定義,這個*和**讓人有點費解。其實只要把函數參數定義搞清楚了,就不難理解了。先說說函數定義,我們都知道,下面的代碼定義了一個

原创 查看windows操作系統的默認編碼

如何查看操作系統字符集? 在Windows平臺下,進入DOS窗口,輸入:chcp 可以得到操作系統的代碼頁信息,你可以從控制面板的語言選項中查看代碼頁對應的詳細的字符集信息。 例如: 我的活動代碼頁爲:936,它對於的編碼格式爲GBK。

原创 【Pattern學習】概述

1 簡介   Pattern的下載地址爲:http://www.clips.ua.ac.be/pattern   Pattern是Python編程語言的一個Web挖掘模塊。它具有數據挖掘工具(谷歌,推特和維基百科API,Web

原创 CSDN Markdown的使用

本博客首先參考了王海慶老師關於markdown的教學視頻和博客,視頻網址爲:markdown教學視頻 1、Markdown 1.1、Markdown的定義 1.2、Markdown的優缺點 2、Markdown的基本語法 2.1、

原创 【自然語言處理】標註體系:IO, BIO, BMEWO, and BMEWO+

IO EncodingThe simplest encoding is the IO encoding, which tags each token as either being in (I_X) a particular type o

原创 KDD 2019 Accepted Paper (Title, Author, Abstract, Download)

本博客致力於整理出KDD/SIGKDD 2019接收的所有論文,包括題目、作者、摘要等重要信息,能夠方便廣大讀者迅速找到自己領域相關的論文。 Research Track Papers #####1-10##### Title:

原创 【Python學習】collections模塊的Counter類

1.collections模塊collections模塊自Python 2.4版本開始被引入,包含了dict、set、list、tuple以外的一些特殊的容器類型,分別是:OrderedDict類:排序字典,是字典的子類。引入自2.7。n

原创 【Python學習】標準庫--pathlib

導入Path類from pathlib import Path1創建Path對象p = Path('C:\Windows\System32') # 用C:\Windows\System32創建Path對象1打印p中路徑print(p)1

原创 【Linux學習】Anaconda多環境多版本python配置指導

最近學python,讀完了語法後在GitHub找了一些練習來做,由於學的是python3.x語法,而GitHub上的好多練習源碼都是基於2.x的,有些module在python3.x上沒有,因此爲裝這些包折騰了好久,浪費了好些時間,這兩天

原创 【Python學習】特殊函數 __call__()

__call__在Python中,函數其實是一個對象:>>> f = abs >>> f.__name__ 'abs' >>> f(-123) 123由於 f 可以被調用,所以,f 被稱爲可調用對象。所有的函數都是

原创 【Python學習】函數參數:必選參數、默認參數、可變參數、關鍵字參數、參數組合

定義函數的時候,我們把參數的名字和位置確定下來,函數的接口定義就完成了。對於函數的調用者來說,只需要知道如何傳遞正確的參數,以及函數將返回什麼樣的值就夠了,函數內部的複雜邏輯被封裝起來,調用者無需瞭解。Python的函數定義非常簡單,但靈

原创 【DyNet學習】Arithmetic operations

dynet.cdiv(x, y)Componentwise divisionDivide an expressions component-wise by another, broadcasting dimensions (current

原创 lambda函數詳細介紹(Python)

定義 在Python中,除了使用def關鍵字聲明普通函數外,還提供了一種使用表達式生成函數對象的形式。由於它與LISP語言中的一個工具很相似,所以稱爲lambda。 lambda函數也叫匿名函數,即沒有具體名稱的函數,它允許快速定義單行函

原创 經典的文本數據預處理流程(轉)

首先對文本進行分詞,因爲可以直接用NLTK的分詞器,中文的可以用結巴分詞 在英文中,往往還需要對單詞進行詞幹提取和詞形歸一化。在詞形歸一的過程中如果結合POS Tag可以更好的進行詞形歸一。 去除停用詞,得到最終的詞列表 本文轉自: