原创 文本檢索模式的學習過程與應用

|*—*|模式構造(算法一:產生各種包含問題與答案的模式,主要是用後綴樹進行模式學習) 第一步: 用問題+答案搜索 第二步:處理搜索出來的1000條數據文本 第三步:用正則表達式保留包含了問題和答案的句子 第四步:把包含問題和答案的se

原创 hive的數據操作的相關語法知識

²  Data Manipulation 1. Loading Data into Managed Tables: LOAD DATA [ LOCAL ] INPATH '${env:HOME}/california-employees

原创 Java實現的網絡爬蟲

說到爬蟲,使用Java本身自帶的URLConnection可以實現一些基本的抓取頁面的功能,但是對於一些比較高級的功能,比如重定向的處理,HTML標記的去除,僅僅使用URLConnection還是不夠的。 在這裏我們可以使用

原创 hive的視圖與索引的相關語法知識

1.views odds and ends ( the conceptual view still applies when the view and a query that uses it both contain an  ORDE

原创 Windows遠程連接Linux圖形界面

我使用的Linux版本是 Red Hat Enterprise Linux 4,已經設置默認啓動圖形界面. 利用VNC來進行Linux的遠程桌面連接。 默認情況下,Red Hat Enterprise Linux安裝程序會將VN

原创 Debain啓動MyEclipse2015報錯:A fatal error has been detected by the Java Runtime Environment:

好不容易在Debain上安裝好了MyEclipse2015結果啓動時卻報出如下錯誤: A fatal error has been detected by the Java Runtime Environment: SIGSEGV (0

原创 Debain中文亂碼及添加中文支持

用VNC遠程連接debain服務器發現中文顯示好多方塊,看着很不舒服,於是在網上海淘並整理了如何在debain中添加中文支持以及添加中文輸入法: 1、生成locales: 運行 dpkg-reconfigure locales,選擇

原创 UML實踐詳細經典教程----用例圖、順序圖、狀態圖、類圖、包圖、協作圖

面向對象的問題的處理的關鍵是建模問題。建模可以把在複雜世界的許多重要的細節給抽象出。許多建模工具封裝了UML(也就是Unified Modeling Language™),這篇課程的目的是展示出UML的精彩之處。 UML中有九種建模

原创 NLPIR中文分詞的java接口使用方法

Java接口使用步驟不理解NLPIR中文分詞的原理,沒什麼可說的,這裏僅記錄一下其Java接口的使用步驟,留以後用。1、準備資源在官網下載頁面中下載“NLPIR漢語分詞系統(又名ICTCLAS2013版)下載包(u0416)”,該下載包包

原创 hive的數據查詢的相關語法知識

select … from clause: 1.1array類型:  hive> SELECT name, subordinates FROM employees; John Doe  ["Mary Smith","Todd Jones"

原创 yum安裝配置GCC

步驟一、進入/etc/yum.repos.d/目錄, 步驟二、終端中輸入wget http://www.linuxidc.com/files/2011/05/06/CentOS-Base.repo 或者vault.centos.org/

原创 (java:11276): GLib-GObject-WARNING **: cannot register existing type `GdkDisplayManager'

這篇是繼上篇   Debain啓動MyEclipse2015報錯:A fatal error has been detected by the Java Runtime Environment:的錯誤調整好後又出現的新問題。 廢話不多說

原创 利用word2vec對關鍵詞進行聚類

轉載自:http://blog.csdn.net/zhaoxinfan/article/details/11069485 繼上次提取關鍵詞之後,項目組長又要求我對關鍵詞進行聚類。說實話,我不太明白對關鍵詞聚類跟新聞推薦有什麼聯繫,不過

原创 圖形界面遠程訪問Linux(Debian安裝VNC以及開機啓動)

聲明的是我用的是debain系統: 1.首先安裝VNC apt-get update apt-get install vnc4server apt-get install x-window-system-core apt-

原创 wget 下載整個網站,或者特定目錄

wget -c -r -np -k -L -p www.xxx.org/pub/path/ 在下載時。有用到外部域名的圖片或連接。如果需要同時下載就要用-H參數。 wget -np -nH -r --span-hosts www.x