原创 邏輯迴歸python實現(隨機增量梯度下降,變步長)

關於邏輯迴歸的學習,建議大家看看這篇blog,講的很清楚:點擊打開鏈接 代碼實現是根據機器學習實戰,照着代碼自己來了一遍 邏輯迴歸,實際上就是對線性迴歸多增加了一個函數映射,使其值域由無窮區間映射到[0,1]區間 在線性迴歸中,估計函數爲

原创 樸素貝葉斯分類文本 python實現

樸素貝葉斯(naive bayes)模型主要用於文本分類,比如要將郵件分類爲正常郵件和帶侮辱性詞彙郵件 對於一封郵件來說其特徵可以表示爲該郵件中單詞出現的情況。 比如我們有一個5000個詞的詞典表,那麼郵件的特徵可表示成一個特徵向量,特徵

原创 java使用poi讀取excel數據(xlsx)

首先要下載poi的jar包:下載地址 之後在項目中需要把poi下載目錄裏的所有jar包導入。 然後我自己封裝了一個xlsx讀取類,輸入文件地址,要獲取的列。輸出二維數組,第一維代表一行數據,第二維代表每一行的單元格數據。 import

原创 Mysql #1366 無法插入中文解決辦法(ubuntu,mysql5.7) php中文變量值爲???的解決

數據表插入不了中文,折騰了1個小時,終於找到錯誤所在。 首先設置數據庫的默認字符集 : 打開終端,輸入  mysql -uroot -p  ,輸入密碼,進入mysql命令行 輸入 status;  查看當前字符集狀態,我的終端上顯示如下內

原创 Kaggle入門模板:以手寫識別Digit Recognizer爲例

首先本文參考了點擊打開鏈接 這篇博客,然後可能時間有點久遠,Kaggle的這道題給的數據文檔和之前的不一樣了,以及還有一些注意點這篇文章裏沒有突出。因此這裏重新做個總結,希望大家能早點入個門。 這裏我使用的sklearn中的支持向量機來解

原创 Louvain 社團發現算法學習(我的java實現+數據用例)

爲了大家方便,直接把數據放在github了:https://github.com/qq547276542/Louvain算法介紹:Louvain 算法是基於模塊度的社區發現算法,該算法在效率和效果上都表現較好,並且能夠發現層次性的社區結構

原创 Mac下安裝hadoop2.x後,ResourceManager無法啓動問題解決

starting resourcemanager, logging to /Users/hadoop/hadoop-2.7.3/logs/yarn-hadoop-resourcemanager-MacBook-Pro-2.local.o

原创 社交網絡度量---中心性

中心性定義了網絡中一個結點的重要性。換句話說,我們要求的是,在社會網絡中,誰是中心角色(具有影響力的用戶) 舉個例子,某個明星開通了微博,在短短數小時內,就有幾十萬的粉絲關注了他的微博。我們可以認爲,他的“受歡迎程度”很高。如果把社交網絡

原创 層次分析法(AHP)

層次分析法(AHP) 問題的提出 日常生活中有許多決策問題。決策是指在面臨多種方案時需要依據一定的標準選擇某一種方案。 購物:買鋼筆,一般要依據質量、顏色、實用性、價格等方面的因素來選擇某一隻鋼筆。 買飯,則要依據色、香、味

原创 java下的mysql數據庫插入越插越慢的問題解決(百萬數據量級別)

        最近的項目需要導入大量的數據,插入的過程中還需要邊查詢邊插入。插入的數據量在100w左右。一開始覺得100w的數據量不大,於是就插啊插,吃了個飯,回來一看,在插入了50多w條數據後,每秒就只能插10條了。。覺得很奇怪,爲啥

原创 排隊論入門學習 (for 數學建模)

排隊論入門學習 (for 數學建模) 文字部分引用了很多浙大數學建模排隊論ppt中的內容,本人做個總結和代碼實現 爲什麼研究排隊論? 研究排隊問題,就是要把排隊的時間控制到一定的程度內,在服務質量的提高和成本的降低之間取得平衡,找

原创 Linux下切換python2和python3爲默認執行版本的方式(也能作用於sublime等編輯器的默認執行方式)

使用 alternate 機制可以自由切換python默認版本,只需要在終端輸入簡單的幾個指令: sudo update-alternatives --install /usr/bin/python python /usr/bin/py

原创 Ubuntu下安裝MySQLdb(mysql-python)的過程

MySQLdb 是鏈接python和mysql數據庫的工具,Ubuntu 自帶了python,但是這個工具還是需要我們自己安裝配置的 前提:系統安裝了python和mysql 1:下載MySQLdb: 點擊鏈接  http://downl

原创 hadoop實例(java模板):數字逆序輸出 (自定義mapper,reducer,自定義key2類型,重寫compareTo函數,HDFS操作)

主要是整理了mapreduce常用的操作模板 主函數(請忽略主類的名字。。忘記改了): package hadoop.wordCount; import java.io.IOException; import org.apache.

原创 Java使用poi讀取excel數據(excel可能很大,先轉換爲csv再讀取)

  ————————————配置————————————   jdbc.properties中加入: excelUrl=/……xlsx文件目錄路徑/ (excelUrl + “xxxx.xlsx” 爲完整路徑)       導入