原创 機器學習 - 一圖勝千言

1. 常用算法 算法分類 性能對比 超參數Tuning 2. 算法選擇 參考路線一 參考路線二 3. 模型訓練 一般流程 特徵工程

原创 docker 安裝mysql

Step 1 下載鏡像並初始化 下載鏡像 docker pull mysql 下載官方的mysql docker鏡像 初始化mysql docker run -v /data/var/mysql/:/var/lib/mysql -e MY

原创 Python中文處理:str與unicode

使用python2.x做中文的文本挖掘,遇到了幾個坑,現總結如下: 1. 默認的defaultcoding:ascii UnicodeDecodeError: ‘ascii’ codec can’t decode byte …… 如果遇到

原创 推薦引擎相關算法 - 協同過濾 及 Mahout的應用

爲了加深對協同過濾的理解,差異了一些資料,這篇文章講的還不錯,加上一些個人理解的註釋,分享如下 本文內容主要來自:http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommst

原创 python 在不同層級目錄import 模塊的方法

轉自:http://www.361way.com/python-import-dif-dir-module/4064.html 一、同級目錄下的調有 程序結構如下: -- src |-- mod1.py |-- test1.p

原创 pyspark開發環境搭建

包依賴問題解決 方法一:使用findspark庫自動識別spark依賴包 1. 安裝findspark pip install findspark 2. 使用findspark初始化pyspark的依賴 import findspark

原创 中文分詞詞性對照表

原文:http://blog.csdn.net/kevin_darkelf/article/details/39520881 最近在用jieba分詞做中文標籤的提取,對於標註的詞性縮寫比較困惑,查了一下資料,記錄如下: 漢語詞性對照表

原创 使用docker快速搭建運行環境

最近在搭建虛擬機上的運行環境,最開始是按照傳統方法一個一個安裝軟件,一大堆軟件裝下確實是挺費時間的。現在容器技術非常的火,於是就去看了一下docker,完全能夠滿足我的需求,省時省力, 何樂而不爲? 什麼是docker? 簡單的說,Do

原创 調度對比:Crontab vs Quartz

1、執行粒度不同:Crontab是進程調度,Quartz是線程調度。線程調度帶來2點優勢,一是更節省資源,二是可以在進程內做數據交換。 2、Crontab依賴於Unix系列平臺,Quartz是Java實現因此是跨平臺的 3、調度操作集上,

原创 無法連接外網時如何安裝Python Package

生產環境的服務器(以下簡稱內網服務器)由於安全限制,可能無法連接外網。這種情況下將無法直接使用pip命令安裝python的包,下面介紹2種解決方法: (a) 通過代理服務器連接外網安裝 內網服務器一般是通過跳板機連接的,若你的跳板機可以正

原创 spring配置: Annotation vs XML

項目上大量用到Spring的相關組件,發現spring官網上的說明文檔基本都基於annotation的方式,而自己之前還是採用xml的方式進行配置。 爲了更好的指導今後的開發工作,花時間對比了一下2種配置的差異,總結如下: Annota

原创 使用 Maven Profile 和 Filtering 打各種環境的包

轉自:https://segmentfault.com/a/1190000003908040 每個項目都會有多套運行環境(開發,測試,正式等等),不同的環境配置也不盡相同(如jdbc.url),藉助Jenkins和自動部署提供的便利

原创 Java實現快速排序(泛型)

算法的原理詳見:《坐在馬桶上看算法:快速排序》 http://developer.51cto.com/art/201403/430986.htm package sort; import java.util.Arrays; /**

原创 Linux配置免密碼登錄(原理 + 實踐)

一、免密登錄的原理 Linux免密登錄,本質上是使用了”公鑰登錄”。原理很簡單,就是用戶將自己的 公鑰 儲存在遠程主機上。登錄的時候,遠程主機會向用戶發送一段 隨機字符串,用戶用自己的 私鑰 加密後,再發回來。遠程主機用事先儲存的公鑰進行

原创 Spring-Cache key設置注意事項

爲了提升項目的併發性能,考慮引入本地內存Cache,對:外部數據源訪問、Restful API調用、可重用的複雜計算 等3種類型的函數處理結果進行緩存。目前採用的是Spring Cache的@Cacheable註解方式,緩存具體實現選取的