原创 nutch-1.4在eclipse中運行

1.選中nutch所在eclipse中的工程,新建一個文件夾urls 2.選中urls文件夾,新建urls.txt(存放url,crawl的起點)。寫入url 3.修改nutch/conf中的nutch-site.xml。如下 4.

原创 poj1988 cube stacking

題目描述:      給n個棧,存取的數據爲123···n;現在執行兩種操作:(M X Y)爲將包含X的棧壓入包含Y的棧裏;(CX)爲輸出包含X的棧裏,X下面數的個數。 題目分析:參考http://blog.sina.com.cn/s/

原创 CentOS 6.5 eclipse導入nutch-1.4

1.下載nutch包,如果是src包,則需要解壓後ant編譯 2.打開eclipse, file->new->java project,去掉use default location,點擊browse,選擇你nutch的目錄(工程的名字自己

原创 poj1573 Robot Motion

題目大意:一個機器人進入標記東西南北的圖,判斷是否能夠走出來。 題目分析:機器人可能走出來,也可能在圖中進入死循環,所以要定義一個數組標記該點是否走過。 題目代碼: #include <iostream> //#include <s

原创 猴子選大王

題目大意:       有n只猴子,編號1、2、···n圍成一圈,從第一隻猴子報數,報到m的猴子離開,然後剩下的猴子接着從1開始報數,直到剩下一隻猴子,則剩下的猴子爲大王 題目分析:       這裏圍成一圈報數,關鍵是怎麼樣模

原创 poj1416

題目大意:給定一個目標數和一個寫在紙上將被粉碎的數,被粉碎的意思是將整數進行分割(如12346 1+2+34+6),求分割後的數加起來小於目標數且最接近目標數,如果分割的方式不止一種,輸出rejected;如果目標數和指定的數相同

原创 簡單的提取html中的TextNode

eclipse:導入htmlparser.jar import org.htmlparser.util.*; import org.htmlparser.filters.*; import org.htmlparser.NodeFilte

原创 提取html中的鏈接

eclipse:導入htmlparser.jar import org.htmlparser.tags.LinkTag; import org.htmlparser.util.*; import org.htmlparser.filter

原创 騰訊雲主機linux安裝nginx

nginx安裝 安裝環境 安裝步驟 安裝環境 1. nginx v1.9.8 源碼下載地址:http://nginx.org/download/ 安裝文檔地址:http://nginx.org/en/docs/configur

原创 nginx & phpAdmin環境搭建

php安裝流程 phpMyAdmin源碼下載: https://www.phpmyadmin.net/ php下載 http://php.net/get/php-5.6.38.tar.gz/from/a/mirror 2.

原创 Nutch插件機制分析

http://blog.csdn.net/ruizema/article/details/6679220 引言 Nutch使用的插件機制是其所有功能的核心,所有的擴展功能包括頁面分析parse、頁面評分scoring、url過濾urlF

原创 shell 面試題

目錄(?)[+]   #/bin/sh Max_CPU=0 Avg_CPU=0 Total_Time=1 Process=$1 Interval=$2 # check the parameters if [ $# -ne 2 ];

原创 linux命令 exec

exec命令可以通過文件標識符打開或關閉文件,也可以將文件重定向到標準輸入,及將標準輸出重定向到文件。 1.將標準輸入重新定向到文件,以及通過其他的FD(文件描述符或者句柄)文件恢復到標準輸入 #!/bin/bash exec 8<&0 

原创 Rabin-Karp算法的心得體會

    本文主要講的是RK算法中,遞推公式的證明:                        ts+1=(d*(ts-T[s+1]*h)+T[s+m+1])mod q;       參照算法導論,如字符串:314152    

原创 poj1598 Excuses,Excuses!

題目大意:    就是給你一些關鍵詞和一些句子,然後在分別在每個句子中尋找關鍵詞,輸出關鍵詞最多的句子,關鍵詞數量相同的句子,都要輸出。 題目分析:    字符串的輸入,在給定的句子中提取一個單詞存取到cmp[100]數組中,將提取的單