原创 深度學習框架PaddlePdddle學習( 二)

本篇文章將學習paddlepaddle一個sentiment analysis的例子。 主要分爲幾步: 一、下載imdb數據集並進行數據拷貝 運行get_imdb.sh腳本。在虛擬機中用wget方式下載太慢了,我是直接在

原创 中文詞庫

開源中文詞庫 THUOCL:清華大學開放中文詞庫

原创 NLTK vs Sklearn vs Gensim

NLTK、SKlearn和Gensim使用場景 引用quora上的回答: Yuval Feinstein的回答: Generally, - NLTK is used primarily for general NLP tas

原创 Keras學習(一)

看見知乎上說Keras不錯,基於Python的,後臺是基於Theano或Tensorflow。 安裝 環境:ubuntu14.04 首先,安裝python環境、theano和keras sudo apt-get install

原创 機器學習/深度學習數據集

MNIST 創建人: Yann LeCun, Courant Institute, NYU Corinna Cortes, Google Labs, New York Christopher J.C. Burges, Mic

原创 Tensorflow學習(一)

由於GFW的緣故,直接安裝Tensorflow需要翻牆,選擇了docker安裝的方式,感謝國內極客學院提供了編譯好的docker鏡像,也可以下載另一個地方的docker鏡像。 1、安裝tensorflow 環境:ubuntu14.

原创 幾款第三方分詞工具

THULAC THULAC是由清華大學自然語言處理與社會人文計算實驗室(該實驗室帶頭人:孫茂松、劉知遠、劉洋)研製推出的一套中文詞法分析工具包。 安裝了其C++版,對北京大學語料進行了分詞,如果不選擇詞性分析的話,單純分詞,需0

原创 金融路演產品的幾點理解

“路演”(Roadshow)是一個舶來詞,是早期華爾街股票經紀人在馬路邊吆喝,兜售自己手中的債券,就像這樣的情景: 路演人要做的工作是,如何向別人推介產品,並儘量把產品賣出去。我們經常提到的路演集中在金融領域,特別是

原创 深度學習框架PaddlePdddle學習( 一)

PaddlePaddle是百度開源的一個深度學習框架,按照其官網的文檔進行了使用學習。 這篇文章介紹其安裝。 - 操作系統 官網文檔使用的操作系統是ubunt14.04,我使用的是VMware Workstation 1

原创 RedHat安裝tensorflow

安裝過程中遇到了一些坑,簡單記錄一下。 環境:Red hat Linux 6.4(之前安裝了yum,基於操作系統自帶的python2.6) tensorflow版本:tensorflow-0.12.0rc0-cp27-none-lin

原创 當人工智能遇見金融財經

先寫一下大致思路吧: -簡述日常生活中的(弱)人工智能 -簡要回顧人工智能的發展史,參考《人工智能狂潮》 -人工智能的子學科,參考文因互聯的公衆號文章 -金融財經領域,現在有哪些應用了。想象一下未來

原创 中文信息處理技術概述

這是一篇2000年左右的老文章了,可以看看,特別是語料庫的建設歷史。 中文信息處理技術發展簡史 論文作者:張華平 摘要: 真正意義上的中文信息處理迄今已經有20餘年的歷史了,隨着計算機的普及和Internet的蓬勃發展,中文信息

原创 統計中分分詞(CRF)

下面利用條件隨機場的統計分詞算法。條件隨機場是一種判別式模型,是指在給定輸入節點條件下計算輸出節點的條件概率,其核心思想是利用無向圖理論使序列標註的結果達到在整個序列上全局最優。 第一步:工具包準備 利用CRF++工具包,下載編譯安裝。同

原创 “詞”向量應用的一些思考

對於搞自然語言處理的人來說,google的word2vec是比較流行的詞向量生成工具。一些開源框架,也集成了它,如JAVA語言的deeplearning4j,Python語言的gensim。對於大規模文字語料經word2vec訓練後,可以

原创 統計中文分詞(最大熵)

在機器學習中,序列標註(Sequence labeling)是一種常見的模式識別任務,它用來給一組可觀察對象打上狀態(類別)標籤。它可以解決NLP中的分詞(Word Segement)、詞性標註(Part-Of-Speech Taggin