原创 我的neo4j學習筆記

這篇博文目錄如下: - About neo4j - Install neo4j - learn to create and query data - Import your data 包括對Neo4j圖形數據庫的簡介和

原创 Linux的配置文件/etc/profile和/bashrc

前不久安裝neo4j時一直報一個錯:error java version neo4j是要求jdk8以上版本的,我在終端下查看 java -version時,返回的也是jdk1.8.0_91。用gedit /etc/profil

原创 Ubuntu系統:分佈式spark環境搭建

三臺機子,系統爲ubuntu14.01,公用一個路由器組成一個小型局域網。 首先配置固定的ip地址。 點擊屏幕右上方的網絡連接,Edit Connections -> Add -> 類型選Ethernet -> Create -> 選

原创 apt-get安裝任何軟件都報錯:E:Unmet dependencies. Try 'apt-get -f install' with no packages

如題,使用apt-get install去安裝任何軟件都報錯這個錯: E: Unmet dependencies. Try 'apt-get -f install' with no packages (or specify a sol

原创 python中類方法、實例方法、靜態方法

懷着萬分的羞恥和悲憤之情寫下這篇博客。下午考了一套筆試,編程題怎麼也通不過,代碼邏輯應該是沒有問題的,由於不允許使用本地IDE沒報錯信息一直沒發現問題所在。 剛剛把代碼再寫了一遍,我做題時候用的是python,雖然我對python其實

原创 爬蟲工具selenium

在我爬蟲的過程中,遇到的主要問題有:有一些網頁鏈接似乎有重定向功能,獲取到的並不是真實的源碼;還有一些網站對ip的限制特別嚴重…… 關於後者,我找過一些免費的ip網站如西刺,但是那些ip大多數都不能用(´゚д゚`) 這裏順便貼一下關於配

原创 java實現spark

這篇博客簡要回顧一下我對spark的認識,主要記錄的是對spark的兩個轉換操作aggregate() combineByKey()的運用。下載配置完spark後,注意要把spark的jar導入項目中。 在spark中兩個重要的概念就是R

原创 HDFS再學習:HA和Federation機制

通過之前(上一篇HDFS的博客)的學習我們已經瞭解到了hdfs的一些大致基本情況,這篇博客主要補充一下針對HDFS1.0的不足,HDFS2.0的HA機制和Federation機制。 先對之前的學習做個小概括: hadoop的特點有:

原创 lucene搜索系統搭建和算法反思

信息檢索大作業組隊做了一個檢索系統(鹹魚如我大學真的是平時隨隨便便期末戰戰兢兢,感謝一起爆肝的同學哈哈哈哈),雖然做的比較簡單不夠完善但也學到了一些東西,寫一篇博客記錄一下自己在搭建整個系統時候學到的一點東西和對lucene的一些思考吧。

原创 tensorflow cnn文本分類

給定文本數據training.txt。 每一行格式爲:{"label": "label_name", "content": "content_n"} 類別標籤有四個。 通過大量其他的新聞文本訓練一個word2vec模型,將賽題數據的w

原创 百度貼吧爬蟲:理解網頁的加載過程

最近在學習爬蟲,就順便記錄一下吧(つд⊂) 以百度貼吧的主題帖爲例子,首先,在百度貼吧主頁那個大大的搜索框旁邊,點那個小小的“高級搜索”,輸入關鍵詞,以“王思聰”爲例,enter後在排序結果那裏點主題帖(這種類型的帖子相關性比較高) 獲

原创 素描svm

支持向量機是一個比較複雜的機器學習模型,之所以複雜,當然就是裏面的數學知識多了。剛剛接觸的時候瀏覽衆多博客,發現很多都很寫得細緻,但是對運算的細緻全面講解很容易讓基礎不怎麼好的人很難堅持看下去。這一篇博客簡單闡述svm的思路(也是因爲偶自

原创 NLPIR加入自定義詞典(java)

1 下載NLPIR,http://ictclas.nlpir.org/downloads 2 下載後解壓,將Data文件夾複製到eclipse的項目下(與src同級) 3 根據自己到電腦配置,拷貝NLPIR的lib文件夾下有對應不同版本(

原创 電影評論人名抽取與情感分析

電影評論的數據挖掘是我一直以來的項目。最近的剛完成的一個工作是於分析影評中表露出來的對演員角色的情感傾向。主要的工作便是識別評論中人名+情感分析。 評論人名抽取與情感分析 影迷用戶的電影評論中往往包含大量對本部電影中演員的評價和看法,爲了

原创 淺談Hive

讓我們開門見山來一句介紹,Hive是建立在Hadoop HDFS上的數據倉庫基礎架構。 在Hadoop大數據體系中,Hive和HBase事兩種基於Hadoop的不同技術,Hive是一類類SQL的引擎,其數據存放在HDFS上,並運用Map