原创 一文讀懂機器學習,大數據/自然語言處理/算法全有了……

在本篇文章中,我將對機器學習做個概要的介紹。本文的目的是能讓即便完全不瞭解機器學習的人也能瞭解機器學習,並且上手相關的實踐。這篇文檔也算是EasyPR開發的番外篇,從這裏開始,必須對機器學習瞭解才能進一步介紹EasyPR的內核。當然,本

原创 Linux安裝Mysql+Apach+PHP+php

一、安裝mysql(mysql-5.0.21.tar.gz)    # tar zxf mysql-5.0.21.tar.gz # cd mysql-5.0.21 #./configure --prefix=/usr/local/mysq

原创 C++全角與半角互轉

1.全角:指一個字符佔用兩個標準字符位置。漢字字符和規定了全角的英文字符及國標GB2312-80中的圖形符號和特殊字符都是全角字符。一般的系統命令是不用全角字符的,只是在作文字處理時纔會使用全角字符。 2.半角:指一字符佔用一個標準的

原创 工作流程與模型調優

1. 前序工作流程 1.1 數據部分 數據清洗:丟掉不可信的樣本; 不用缺省值極多的字段。數據採樣:採用下/上採樣保證樣本均衡。 1.2 特徵工程   上一篇筆記重點講了特徵工程中的特徵處理和特徵選擇。特徵處理包括數值型、類別型、時

原创 python中半角與全角互相轉換

半角與全角的轉換,代碼如下: # -*- coding: cp936 -*- def strQ2B(ustring): """全角轉半角""" rstring = "" for uchar in ustring:

原创 開發者必備的6款源碼搜索引擎

摘要:雖然自己編碼很重要,但是在遇到一個功能時,利用現成的代碼不失爲一種好方法,或許還會達到事半功倍的效果。但千萬不要單純地“用”,更多地是理解與提升,這樣纔會進步。 在推動技術變革上,開源運動發揮了非常顯著的作用。而Linux成功地

原创 決策樹算法實現(python)

''' Created on Oct 12, 2010 Decision Tree Source Code for Machine Learning in Action Ch. 3 @author: cainiao ''' from ma

原创 扒網頁並且解析

解析問答與百度的首頁: #!/usr/bin/python #coding=utf-8 import sys import re import urllib2 from urllib import urlencode from ur

原创 php數據庫操作

<?php function fuck_json(array &$data) { $str = ''; $arr_root = array(); foreach($data['result'] as $row)

原创 使用boost正則表達式查找所有字符串

場景: 1.比如在html中查找出現過的<img>標籤,好提取圖片地址. 2.編譯器不支持C++11標準時使用boost庫是比較好的選擇. 例子: #include <stdio.h> #include <string> #in

原创 [轉]讀《Boost程序庫完全開發指南》

第1章 Boost程序庫總論 使用Boost,將大大增強C++的功能和表現力    第2章 時間與日期 timer提供毫秒級的計時精度,內部是通過std::clock取時間的progress_timer自動打印某生命週期的執行時間原則

原创 排序算法彙總總結

一、插入排序 直接插入排序(Insertion Sort)的算法描述是一種簡單直觀的排序算法。它的工作原理是通過構建有序序列,對於未排序數據,在已排序序列中從後向前掃描,找到相應位置並插入。插入排序在實現上,通常採用in-place

原创 K-Means聚類的Python實踐

K-Means應該是最簡單的聚類算法之一了吧,理論上很簡單,就是隨即初始化幾個中心點,不斷的把他們周圍的對象聚集起來,然後根據這羣對象的重置中心點,不斷的迭代,最終找到最合適的幾個中心點,就算完成了。 然後,真正實踐的時候纔會思考的更

原创 蓄水池抽樣算法證明

這個題很老了,剛剛遇到一個類似的題目,不是讓寫怎麼實現的,而是要證明結果確實是等概率,我了擦一下子忘了怎麼證明了,以前竟然是把答案給背下來了,鄙視一下自己 原題:現在有一組數,不知道這組數的總量有多少,請描述一種算法能夠在這組數據中隨

原创 決策樹代碼實現

代碼說明: 函數:createDataSet():初始化 函數:calcShannonEnt(dataSet):求取熵 函數:splitDataSet(dataSet, axis, value):依據axis,與value進行劃分 函數: