原创 plda源碼(四)

corpus.h typedef std::list<LDADocument*> LDACorpus; // Stores multiple documents and manages the memory pool of //

原创 plda源碼(三)

document.h class DocumentWordTopicsPB; // Stores a document as a bag of words and provides methods for interacting /

原创 plda源碼(二)

vocabulary.cc 存儲單詞到id的映射 class Vocabulary { public: int GetOrCreateID(string word,bool &created); bool Get

原创 Factorization Machine

很久很久沒有更新這個博客了,最近想發點東西,先發點以前寫的吧 簡介 因子分解機(Factorization Machine, FM)是由Steffen Rendle提出的一種基於矩陣分解的機器學習算法。 對於因子分解機FM來說,最大的

原创 plda源碼(一)

common.h 主要是TopicDistribution, DocumentWordTopicsPB,Random三個類的定義 // A dense vector of counts used for storing topic c

原创 Linux服務器調優

Linux服務器調優 安裝一臺新的Linux服務器之後都要做些配置調整工作,優化一下系統,以前零零碎碎記錄過一些,這裏集中整理一下。 Linux內核參數 http://space.itpub.net/17283404/viewsp

原创 Thrift Java Servers Compared

Thrift Java Servers Compared 原文地址:https://github.com/m1ch1/mapkeeper/wiki/Thrift-Java-Servers-Compared 這篇文章僅僅只關於java

原创 nagios安裝使用

nagios nagios自身在ubuntu上的安裝可參照http://nagios.sourceforge.net/docs/3_0/quickstart-ubuntu.html NRPE安裝參照http://blog.c1g

原创 MongoDB 雜事

MongoDB 雜事¶ 昨天線上mongo發生一次故障,出現客戶端連不上,查詢巨慢等現象,排除一整天也無法復原問題出現,不過這個過程中對mongo和pymongo有更進一步瞭解,特此筆記。 819連接數 查看日誌看到大量如下日誌:

原创 生成全局唯一Id

生成全局唯一Id 參考了: http://www.cnblogs.com/heyuquan/p/global-guid-identity-maxId.html GUID import uuid uuid.uuid1() 優點

原创 datrie中文支持不夠?

要找一個trie的python包,希望性能不錯,支持中文。pytrie是python實現,而且是基於hash數據結構的,先pass,找了下,發現datrie , 看起來是不錯, C實現的 double array trie數據結構,應該可

原创 幾個git指令

幾個git指令 平時用git都只會用到幾個很簡單的命令,pull, push, commit等,其實git還有不少命令,正好最近可能會被問到,所以搜索並簡記之。 git fetch git fetch 相當於是從遠程獲取最新版本到

原创 vim整理

vim整理 以前也寫過一些vim的博客,如 http://blog.csdn.net/largetalk/article/details/8259813 和 http://blog.csdn.net/largetalk/article

原创 lua筆記

lua 先按照官網安裝好lua解釋器, 下載源碼編譯也很簡單,下載地址:http://www.lua.org/download.html lua類型 lua是動態類型語言,變量無須定義 Numbers: 包括整數,無精度限制整數,

原创 Zero-sized Array

Zero-sized Array 在memcached源碼中看到的: /** * Structure for storing items within memcached. */ typedef struct _stritem