原创 merge json (incomplete)

from pprint import pprint a = { "_types" : [ "InterimResponseHistory" ], "uptim

原创 一次欲哭無淚的debug

我現有個服務,其中有段功能是將地理位置信息的json轉成protobuf,代碼不難: import json import geobuf j = json.load(open('xx', 'r')) pb = geobuf.encod

原创 plda源碼(十一)

plda源碼(十一) Alias Table sample alias class VoseAlias { unsigned short n; //Dimension double wsum; //S

原创 mysql set

from: http://www.itzk.com/thread-582269-53-1.shtml 本篇文章主要來介紹一下set語句。SET 語句的作用是指定各種選項。最好是省去詞OPTION,因爲它在MySQL 的未來版本中將被刪除。

原创 使用scrapy爬取flickr上某人照片

flickr免費帳號坑爹的只有200張照片的限額,用用就到限制了,準備換個相冊。可上面的照片一個一個下下來就麻煩了,正好想用用scrapy,現學現賣,寫了一個。代碼在 https://github.com/largetalk/flickr

原创 使用Tushare統計收盤價中位數

使用Tushare統計收盤價中位數 獲取交易數據 tushare只能獲取一隻股票的一段時間成交數據或某一天全部股票成交數據,我選擇獲取一隻股票的歷史數據然後存起來再計算 #coding:utf8 import tushare as t

原创 JVM ClassLoader筆記

非常詳細的ClassLoader介紹:https://blog.csdn.net/briblue/article/details/54973413 在此下載jdk7源碼:http://jdk7src.sourceforge.net/

原创 從0開始學架構課後題

01. 你原來理解的架構是如何定義的?對比我今天講的架構定義,你覺得差異在哪裏? 一直以來,對架構這個詞不知道怎麼表述,似乎就是指一些MVC,前後分離,讀寫分離等等這些概念的集成,這些似乎也沒錯,但是不夠準確。李的定義是 ”軟件架構指

原创 plda源碼(十二)

plda源碼(十二) LightLDA 原始 Gibbs Sampling 採樣函數如下: p(zdi=k∣rest)∝(nkd−di+αk)(nkw−di+βw)nk−di+β‾p(z_{di}=k | rest) ∝ \frac{

原创 plda源碼(十)

plda源碼(十) Sparse LDA StandardGibbs採樣公式如下 q(z)=nk,¬it+βnk,¬i+βV(nm,¬ik+αk)\begin{aligned} q(z) &= \frac{n^{t}_{k,

原创 plda源碼(九)

plda源碼(九) BaseSampler是把Sampler抽象一下,添加詞相識度和爲新採樣方法提供接口 class BaseSampler { public: BaseSampler(double a

原创 plda源碼(八)

plda源碼(八) sampler.h 終於來到最關鍵的地方,lda不能直接算出word和document的topic分佈,只能不停的隨機對應的topic分佈,然後選擇接受與否,即Gibbs採樣 // LDASampler train

原创 plda源碼(六)

plda源碼(六) LDAModel 只增加了IncrementTopic和ReassignTopic函數 class LDAModel : public ModelBase<int32> void LDAModel::Incre

原创 plda源碼(七)

plda源碼(七) FastMatrix vals和mapped_vec class FastMatrix { public: struct FElem { int col; double val; }

原创 plda源碼(五)

plda源碼(五) model_base.h 存儲所有word的topic分佈 // The ModelBase class stores topic-word co-occurrence count vectors as // we