原创 What are some good class projects for machine learning using MapReduce?

What are some good class projects for machine learning using MapReduce? We are looking for a (not necessarily

原创 Nutch學習筆記1 ---------Inject

1.  Inject 功能介紹      在Nutch中Inject是用來把文本格式的url列表注入到抓取數據庫中,一般是用來引導系統的初始化。其中文本格式的URL每一列包含一個url。 同時inject裏面保留了兩個元數據。    nu

原创 通過JAVA—API訪問HDFS 上的文件

1.  通過對core-site.xml配置文件進行配置。    配置項:hadoop.tmp.dir表示命名節點上存放元數據的目錄位置,對於數據節點則爲該節點上存放文件數據的目錄。       配置項:fs.default.name表

原创 Nutch 學習比較2 ---------Generate過程

1.  Generate的作業     在inject 之後就是Generate,這個方法主要是從CrawlDb中產生一個Fetch可以抓取的url集合(fetchlist).   這Nutch 1.3 版本中,支持在一次Genera

原创 Nutch 學習比較 3-----Fetcher

1. Fetcher功能介紹 Fetcher這個模塊在Nutch中有單獨一個包在實現,在org.apache.nutch.fetcher,其中有Fetcher.java, FetcherOutput 和FetcherOutputForm

原创 chukwa學習2——Jetty

Jetty  簡介: Jetty 是一個開源的servlet容器,它爲基於Java的web內容,例如JSP和servlet提供運行環境。Jetty是使用Java語言編寫的,它的API以一組JAR包的形式發佈。開發人員可以將Jetty容器

原创 Data Mining Winter 2010 Resources (from last year's course website):

TheFind Shopping Search Engine Dataset  Craigslist Data (data will be uploaded soon!)  All Tweets and some associated

原创 Janrain 使用文檔

Documentation Additional Documentation: Engage for Android - Library for Android app support Engage for iOS -

原创 100 Essential Web Development Tools

Web 技術突飛猛進,Web 設計與開發者們可以選擇的工具越來越多,Web 開發者的技巧不再只限於 HTML 和 服務器端編程,還需要精通各種第三方資源,這些第三方資源有時候比你的項目更復雜,更專業,你無法自己實現一切,藉助一些 Web

原创 chukwa學習3——Log4J

簡介: 在應用程序中添加日誌記錄總的來說基於三個目的:監視代碼中變量的變化情況,週期性的記錄到文件中供其他應用進行統計分析工作;跟蹤代碼運行時軌跡,作爲日後審計的依據;擔當集成開發環境中的調試器的作用,向文件或控制檯打印代碼的調試信息。

原创 Datasets for Data Mining

Data Visualization and Exploration Sites Google Public Data, with dynamic visualization and exploration tools.  Table

原创 chukwa 學習———— JAX-RS

JAX-RS 簡介: JAX-RS (JSR-311) 是一種 Java™ API,可使 Java Restful 服務的開發變得迅速而輕鬆。這個 API 提供了一種基於註釋的模型來描述分佈式資源。註釋被用來提供資源的位置、資源的

原创 Using your laptop to compute PageRank for millions of webpages

The PageRank algorithm is a great way of using collective intelligence to determine the importance of a webpage. Ther

原创 Mapreduce & Hadoop Algorithms in Academic Papers (3rd update)

Atbrox is startup company providing technology and services for Search and Mapreduce/Hadoop. Our background is from

原创 Proceedings of the Tenth SIAM International Conference on Data Mining

Sessions: S1 S2 S3 S4 S5 S6 S7 S8 S9 S10 S11 S12 S13 S14 S15 S16 S17 S18 S19 S20 S21 Session S1: Text Mining 1