原创 熵的總結

知識點:自信息量,熵,交叉熵,相對熵,聯合熵, 條件熵,信息增益 自信息量:首先知道什麼是自信息量,一個事件的自信息量是該事件發生概率的負對數,即I(xi)=−logp(xi)。事件發生概率越大,自信息量越少,反之,自信息量越多

原创 strcpy、memset和memcpy的使用

strcpy 原型:extern char *strcpy(char *dest,char *src); 功能:把src所指由NULL結束的字符串複製到dest所指的數組中。 說明:src和dest所指內存區域不可以重疊且dest必須有足

原创 傅里葉變換和正弦函數和歐拉公式

知識點:重點講解正弦函數和歐拉公式的關係,以及它們在傅里葉變換中的作用,附加:傅里葉變換和卷積公式 這是我第二次學習傅里葉變換,其實第一次就已經懂了時域和頻域的關係,也知道一維傅里葉變換就是將一個函數轉化爲很多頻率不同的正弦函數的

原创 信息檢索中常用的評價指標:MAP,nDCG,ERR,F-measure

知識點文本檢索常用的評價指標:MAP、nDCG、ERR、F-score/F-measure以及附加的Precision、Recall、AveP、CG、DCG、IDCG、MRR、cascade models 而ROC曲線及其度量指標

原创 常用的概率分佈:二項式分佈,貝塔分佈,狄裏克雷分佈

知識點:伯努利分佈、二項式分佈、多項式分佈、先驗概率,後驗概率,共軛分佈、貝塔分佈、貝塔-二項分佈、負二項分佈、狄裏克雷分佈,伽馬函數、分佈 一,伯努利分佈(bernouli distribution) 又叫做0-1分佈,指一次

原创 python迭代器、生成器、yield和xrange

1,迭代器: 支持next和__iter__方法的類, 其中next需要拋出StopIteration異常或返回迭代值, __iter__需要返回迭代器自己, 也可以實現send函數,但要保證send函數調用next。 class My

原创 狄裏克雷平滑(Dirichlet)、線性插值平滑(Linear Interpolated)、拉普拉斯平滑(Laplacian)

一元語言模型(Unigram Language Model)就是關於全部單詞上的一個概率分佈,它認爲每篇文章都對應一個一元語言模型,文章中的單詞都是從這個概率分佈中採樣得到。所以計算文章和查詢語句之間的相關性,相當於計算文章對應的一元語言

原创 new、init和metaclass

1,__new__和__init__方法: __new__方法限於新式類,是靜態方法,且不是類方法,用來創建對象。 __init__方法是普通方法,用來初始化對象。 流程是(不完全正確): obj = classObj.__new__(c

原创 python引用計數和gc垃圾回收

一,引用計數和垃圾回收介紹: python採用"引用計數"和"垃圾回收"兩種機制來管理內存。 引用計數通過記錄對象被引用的次數來管理對象。 對對象的引用都會使得引用計數加1,移除對對象的引用,引用計數則會減1, 當引用計數減爲0時,對象所

原创 python屬性和方法的訪問

以下的討論都限於,新式類(個人認爲最好限於新式類) 1,python一切皆對象 除了object和type,兩個逆天的存在,不是說它們不是,而是它們更高級一點。 第一個區分的就是對象之間的關係,由__bases__和__class__兩個

原创 模型優化中的過擬合與欠擬合

知識點:過擬合、欠擬合,以及它們與正則化的權重、模型參數的複雜度、和訓練集樣本數的關係圖 轉載:http://blog.csdn.net/lonelyrains/article/details/49305795 模型不理想時,怎麼調整

原创 python輸入,格式化輸入,以及scanf的替代方案

一,普通讀入數據 有一下5種方式: n, m = [int(i) for i in temp.split(' ')] n, m = map(int,raw_input().split(' ')) import sys for lin

原创 降維的四種方法:PCA、LDA、LLE、Laplacian Eigenmaps

知識點:降維的四種方法,PCA、LDA、LLE、Laplacian Eigenmaps 注意區分LDA:  信息檢索中也有LDA(Latent Dirichlet allocation),主題模型,,表示文檔的生成過程:先根據超參選擇主

原创 損失函數 目標函數

轉載:http://blog.csdn.net/shenxiaoming77/article/details/51614601 損失函數,目標函數都是用來衡量,模型在該參數下的好壞。 MLE最大似然估計就是一種簡單的衡量參數的目標函數。

原创 轉載:10種檢測Python程序運行時間、CPU和內存佔用的方法

原文網址:http://www.jb51.net/article/63244.htm