原创 DKhadoop安裝配置步驟教程與常見問題解決

上週分別就DKHadoop的安裝準備工作以及服務器操作系統配置寫了兩篇分享的文章,這是個人第一次嘗試寫一個系統性的分享文章,必然會有很多疏漏的地方,還望見諒吧。今天分享的是DKHadoop安裝以及常見問題的解決方案方法介紹。【DKHadoo

原创 Hanlp在ubuntu中的使用方法介紹

HanLP的一個很大的好處是離線開源工具包,換而言之,它不僅提供免費的代碼免費下載,而且將辛苦收集的詞典也對外公開啦,此誠乃一大無私之舉.我在安裝的時候,主要參照這份博客: blog.csdn.net/article/details?id

原创 DKhadoop環境安裝配置步驟詳解

在上一篇的分享文章中我是給大家分享了運行部署hadoop的一些安裝準備工作,這篇接上一篇繼續爲大家分享一些個人的學習經驗總結。我學習用的是大快發行版DKHadoop,所以所有的經驗分享都是以DKHadoop爲基礎,這裏要先說明一下。個人覺得

原创 HanLP中人名識別分析詳解

在看源碼之前,先看幾遍論文《基於角色標註的中國人名自動識別研究》關於命名識別的一些問題,可參考下列一些issue:l ·名字識別的問題 #387l ·機構名識別錯誤l ·關於層疊HMM中文實體識別的過程HanLP參考博客:詞性標註層疊HMM

原创 DKHadoop安裝的環境準備介紹

前幾天去參加了一個線下的聚會,參加聚會的基本都是從事互聯網工作的。會上有人提到了區塊鏈,從而引發了一場關於大數據方面的探討。我也是從去年才正式接觸大數據,一直在學習hadoop。相信接觸過hadoop的人都知道,。單獨搭建hadoop裏每個

原创 人力資源數據可視化技術架構

大數據技術的應用正在潛移默化改變着我們的日常生活習慣和工作方式,很多看起來有點“不可思議”的事情也漸漸被我們“習以爲常”。大數據可能在國內的起步較晚,但我們可能卻是對大數據應用最好的了代表了。前些時候有分享了一個大數據技術在智慧人社上面的應

原创 HanLP二元核心詞典詳細解析

本文分析:HanLP版本1.5.3中二元核心詞典的存儲與查找。當詞典文件沒有被緩存時,會從文本文件CoreNatureDictionary.ngram.txt中解析出來存儲到TreeMap中,然後構造start和pair數組,並基於這兩個數

原创 hanlp中文智能分詞自動識別文字提取實例

需求:客戶給銷售員自己的個人信息,銷售幫助客戶下單,此過程需要銷售人員手動複製粘貼收穫地址,電話,姓名等等,一個智能的分詞系統可以讓銷售人員一鍵識別以上各種信息經過調研,找到了一下開源項目1、word 分詞器 2、ansj 分詞器 3、mm

原创 Hadoop基礎入門之發行版本的選擇

經常會看到這樣的問題:零基礎學習hadoop難不難?有的人回答說:零基礎學習hadoop,沒有想象的那麼難,也沒有想象的那麼容易。看到這樣的答案不免覺得有些尷尬,這個問題算是白問了,因爲這個回答似乎什麼也沒給出來。這個問題的關鍵在於“零基礎

原创 互聯網數據化運營基礎應用之信息質量模型

信息質量模型在互聯網行業和互聯網數據化運營中也是有着廣泛基礎性應用的。具體來說,電商行業和電商平臺連接買賣雙方最直接、最關鍵的紐帶就是海量的商品目錄、商品Offer、商品展示等,無論是B2C(如噹噹網、凡客網),還是C2C(如淘寶網),或者

原创 Python圖像處理:圖像腐蝕與圖像膨脹

圖像的膨脹(Dilation)和腐蝕(Erosion)是兩種基本的形態學運算,主要用來尋找圖像中的極大區域和極小區域。其中膨脹類似於“領域擴張”,將圖像中的高亮區域或白色部分進行擴張,其運行結果圖比原圖的高亮區域更大;腐蝕類似於“領域被蠶食

原创 大數據分析技術在新型智慧能源建設中的應用

智慧一概念已經提出很多年,這是一種全新的能源形式,包括符合生態文明和可持續發展要求的相關能源技術和能源制度體能源這系。智慧能源是以互聯網技術爲基礎,以電力系統爲中心,將電力系統與天然氣網絡、供熱網絡以及工業、交通、建築系統等緊密耦合,橫向實

原创 大規模特徵構建實踐總結

背景一般大公司的機器學習團隊,纔會嘗試構建大規模機器學習模型,如果去看百度、頭條、阿里等分享,都有提到過這類模型。當然,大家現在都在說深度學習,但在推薦、搜索的場景,據我所知,ROI並沒有很高,大家還是參考wide&deep的套路做,其中的

原创 Hadoop的集羣環境部署說明

Hadoop集羣環境搭建是很多學習hadoop學習者或者是使用者都必然要面對的一個問題,網上關於hadoop集羣環境搭建的博文教程也蠻多的。對於玩hadoop的高手來說肯定沒有什麼問題,甚至可以說事“手到擒來”的事情,但對於hadoop的初