假期Hadoop項目完畢

臨近放假之前,本來打算把一個軟件著作權完成的,然後再利用假期準備一下找工作的東西,可是突然冒出一個Hadoop項目來,只能順着導師的意思,完成這個項目了,一眨眼功夫,一個多月過去了,項目馬馬虎虎算是湊合着過去了。

現在想想,其實也是挺鬧眼子的,Hadoop項目看起來挺牛挺神奇的東西,被我們這麼一用也不見得有啥的,搞幾臺電腦主機,而且還不是服務器,通過hadoop環境部署連接起來,分佈式的處理任務,總體用起來不見得有多快,甚至有些地方還沒有之前的好~

整個工作就是將之前的一個網站功能重新部署到Hadoop平臺上去,網站信息的下載處理還是按老方法,用java實現,後面的統計詞頻和聚類分類換 成了hadoop的mapreduce來實現了,不過實現起來效果不是很理想,聚類和分類都是用了Mahout裏面已有的方法來做的,最後的頁面展示部 分,主要從HBase裏面讀取數據顯示到頁面上,讀取效率太低了,主要是源於Hbase沒有自己的索引功能,還要自己根據需要建立模擬索引表來提高效率。 整個項目在真正去做的時候才發現也不見得有多麼的神奇,不見的有多麼的了不起。

大致瞭解了Hadoop的單機環境配置,運行原理,知道了MapReduce的一個執行方式,瞭解了HBase的存儲方法,優缺點,真正用的最多的 是HBase的過濾機制,通過過濾對信息進行篩選,通過Get方法對信息進行提取。還有HDFS的一些遠程命令,文件操作命令等的使用,實戰經驗還是掌握 的不多,只能說是一個大致的瞭解而已,使得這個東西對我來說不再是那麼神祕了。

整個項目由於項目管理者沒能很好的發揮作用,使得各個小組在進行功能組合的時候發生了很多的不一致,在調節不一致這個點上又浪費了好多時間,同時也 由於需求是不明確,不精確,整個項目是想改就改,實在是很糾結人,這時想想,一個項目的需求分析實在是太重要了,文檔的細緻更是重要至極啊!

不管怎麼樣,算是跟各位同學一同經歷了一段共同努力的日子,一起進步,一起學習,每天都有收穫的感覺還是非常好的!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章