原创 構建自己的DSL之二 抓取文本處理

轉載請標明出處:http://fuliang.iteye.com/blog/1122051公司的蜘蛛抓取的內容一個記錄是以TAB分割的各個字段的值,並

原创 Hadoop in Action簡單筆記(一)

轉載請標明出處: http://fuliang.iteye.com/blog/1136669第一部分 Hadoop 分佈式的編程框架第一章 Hadoo

原创 懂得人和計算機各自擅長做的事情很重要

今天偶然看了一下,一個運行了多年的電子合同系統,一直有人抱怨的近百種的合同模板和程序維護,發現這麼多年竟然一直使用強迫計算機讓人一樣的方式做事情:合同

原创 構建自己的DSL之一 Simple Crawler

轉載請標明出處:http://fuliang.iteye.com/blog/1122008經常需要從網上抓取一些需要的內容做成語料,供分類使用。所以需

原创 使用scala.sys.process包和系統交互

在Java中我們可以使用Runtime.getRuntime().exec();來和系統交互。這個API過於底層,exec返回一個代表進程的對象,然後

原创 自定義Jackson Json的Serializer

轉載請標明出處: http://fuliang.iteye.com/blogs/1141293內容系統需要做分類、抽取等的評測工具,這個工具每次評測的

原创 構建自己的DSL之三 抓取文件管理

轉載請標明出處:http://fuliang.iteye.com/blog/1127437我們抓取的網頁抽取的結果是帶有日期的文件,經常需要操作某個日

原创 paper and book閱讀

  我微博每週讀論文列表 #每週讀論文# 1、Parameter estimation for text analysis很好的介紹了參數估計的方法:最大似然、最大後驗、貝葉斯估計,以及以LDA爲例的文本參數估計方法以及Gibbs s

原创 讓你更高效使用SSH

SSH有很多非常酷的特性,如何它是你每天的工作伴侶,那麼我想你有必要了解以下16條高效使用SSH的祕籍,它們幫你節省的時間肯定會遠遠大於你用來配置它們

原创 Tutorials on topics in machine learning

Assessing and Comparing Classification Algorithms Cross Validation Andrew Moore The Many Faces of ROC Analysis in Mac

原创 Standord NLP組整理的NLP工具、資源列表

Statistical natural language processing and corpus-based computational linguistics: An annotated list of resources  

原创 一些機器學習公開課

Big Data, Large Scale Machine Learning: [url]http://cilvr.cs.nyu.edu/doku.php?id=courses:bigdata:start[

原创 LingPipe White Papers

The following white papers discuss some of the mathematics and bakeoff evaluations of some of the LingPipe modules. C

原创 機器學習在公司的分享

機器學習在公司的分享,ppt見附件,主要簡單介紹了機器學習:機器學習概念相關學科機器學習三大要素生成模型和判別模型頻率派和貝葉斯派基本算法的直觀理解模型選擇模型組合-Ensemble MethodOnlin

原创 2012年讀的一些書

今年看了比較多的書,主要上班比較遠,1個多小時,大部分都是在坐地鐵看的。程序員系列1、《程序員修煉之道 : 從小工到專家 》:主要介紹了軟件設計的一些原則,避免的問題,一個項目如何做好。一些高效的工具。2、