原创 文本檢索模式的學習過程與應用
|*—*|模式構造(算法一:產生各種包含問題與答案的模式,主要是用後綴樹進行模式學習) 第一步: 用問題+答案搜索 第二步:處理搜索出來的1000條數據文本 第三步:用正則表達式保留包含了問題和答案的句子 第四步:把包含問題和答案的se
原创 hive的數據操作的相關語法知識
² Data Manipulation 1. Loading Data into Managed Tables: LOAD DATA [ LOCAL ] INPATH '${env:HOME}/california-employees
原创 Java實現的網絡爬蟲
說到爬蟲,使用Java本身自帶的URLConnection可以實現一些基本的抓取頁面的功能,但是對於一些比較高級的功能,比如重定向的處理,HTML標記的去除,僅僅使用URLConnection還是不夠的。 在這裏我們可以使用
原创 hive的視圖與索引的相關語法知識
1.views odds and ends ( the conceptual view still applies when the view and a query that uses it both contain an ORDE
原创 Windows遠程連接Linux圖形界面
我使用的Linux版本是 Red Hat Enterprise Linux 4,已經設置默認啓動圖形界面. 利用VNC來進行Linux的遠程桌面連接。 默認情況下,Red Hat Enterprise Linux安裝程序會將VN
原创 Debain啓動MyEclipse2015報錯:A fatal error has been detected by the Java Runtime Environment:
好不容易在Debain上安裝好了MyEclipse2015結果啓動時卻報出如下錯誤: A fatal error has been detected by the Java Runtime Environment: SIGSEGV (0
原创 Debain中文亂碼及添加中文支持
用VNC遠程連接debain服務器發現中文顯示好多方塊,看着很不舒服,於是在網上海淘並整理了如何在debain中添加中文支持以及添加中文輸入法: 1、生成locales: 運行 dpkg-reconfigure locales,選擇
原创 UML實踐詳細經典教程----用例圖、順序圖、狀態圖、類圖、包圖、協作圖
面向對象的問題的處理的關鍵是建模問題。建模可以把在複雜世界的許多重要的細節給抽象出。許多建模工具封裝了UML(也就是Unified Modeling Language™),這篇課程的目的是展示出UML的精彩之處。 UML中有九種建模
原创 NLPIR中文分詞的java接口使用方法
Java接口使用步驟不理解NLPIR中文分詞的原理,沒什麼可說的,這裏僅記錄一下其Java接口的使用步驟,留以後用。1、準備資源在官網下載頁面中下載“NLPIR漢語分詞系統(又名ICTCLAS2013版)下載包(u0416)”,該下載包包
原创 hive的數據查詢的相關語法知識
select … from clause: 1.1array類型: hive> SELECT name, subordinates FROM employees; John Doe ["Mary Smith","Todd Jones"
原创 yum安裝配置GCC
步驟一、進入/etc/yum.repos.d/目錄, 步驟二、終端中輸入wget http://www.linuxidc.com/files/2011/05/06/CentOS-Base.repo 或者vault.centos.org/
原创 (java:11276): GLib-GObject-WARNING **: cannot register existing type `GdkDisplayManager'
這篇是繼上篇 Debain啓動MyEclipse2015報錯:A fatal error has been detected by the Java Runtime Environment:的錯誤調整好後又出現的新問題。 廢話不多說
原创 利用word2vec對關鍵詞進行聚類
轉載自:http://blog.csdn.net/zhaoxinfan/article/details/11069485 繼上次提取關鍵詞之後,項目組長又要求我對關鍵詞進行聚類。說實話,我不太明白對關鍵詞聚類跟新聞推薦有什麼聯繫,不過
原创 圖形界面遠程訪問Linux(Debian安裝VNC以及開機啓動)
聲明的是我用的是debain系統: 1.首先安裝VNC apt-get update apt-get install vnc4server apt-get install x-window-system-core apt-
原创 wget 下載整個網站,或者特定目錄
wget -c -r -np -k -L -p www.xxx.org/pub/path/ 在下載時。有用到外部域名的圖片或連接。如果需要同時下載就要用-H參數。 wget -np -nH -r --span-hosts www.x