原创 盲反饋檢索系統實驗記錄一

在進行實驗之前,先了解相關反饋和盲反饋的一些概念:相關反饋是基於用戶的,由用戶標出初次查詢結果相關還是不相關,再經過Rocchio算法或其他算法使檢索結果更能滿足用戶需求;盲反饋也稱僞反饋,是由計算機自動處理檢索結果,不需要用戶的參與也可以

原创 盲反饋檢索系統實驗記錄二

在實驗記錄一中我們提到了一個獲取所有txt格式的IT新聞內容的方法fileStr,在獲取內容的同時我們也計算出了每篇新聞的長度(包括標點符號)://獲取每篇文檔的內容和長度 static public function fileStr(){

原创 我的友情鏈接

51CTO博客開發

原创 博客搬家說明

本人的技術博客已經在csdn安家,歡迎志同道合的朋友參觀!新博客地址:http://blog.csdn.net/u012078682

原创 使用CURL構建爬蟲,抓取百度百科內容

實現這個功能的步驟:首先打開百度百科,在搜索框輸入“php”關鍵詞,得到搜索列表,一般都是10條;然後使用火狐的Firebug分析百度列表的內容組成,主要是html標籤,發現去向百科內容的連接的格式都是http://baike.baidu.

原创 中文分詞軟件SCWS

windows下安裝SCWS的中文擴展:去官網下載php_scws.dll(PHP-5.2.x根據php版本選擇) 、XDB 詞典文件(簡體中文(UTF-8)可選gbk,也可以把兩個詞典文件都下載)、規則集文件(rules.tgz)創建c:

原创 PHP算法

改自韓順平老師的算法公開課。1、單鏈表。使用單鏈表解決水滸英雄排行問題。<!doctype html> <html> <head> <meta http-equiv="Content-Type" content="text/html; ch

原创 PHP算法

改自韓順平老師的算法公開課。1、單鏈表。使用單鏈表解決水滸英雄排行問題。<!doctype html> <html> <head> <meta http-equiv="Content-Type" content="text/html; ch

原创 PHP圖片的裁剪與縮放

圖片太大且規格不統一,顯示的控制需要靠JavaScript來完成,用在移動設備上時顯示效果不好且流量巨大,需要對現有圖片庫的圖片進行一次處理,生成符合移動設備用的縮略圖,將原來客戶端JS做的工作轉移到服務器端用PHP的GD庫來集中處理。圖片

原创 盲反饋檢索系統實驗記錄三

計算tf/idf在使用fileStr獲取新聞的內容和長度後,我們就可以計算他們的tf和idf://計算tf\idf static public function tf_df($seg){ $str=self::fileStr();

原创 博客搬家說明

本人的技術博客已經在csdn安家,歡迎志同道合的朋友參觀!新博客地址:http://blog.csdn.net/u012078682

原创 PHP計算文檔頻率與特徵向量

步驟:(1)讀取3篇txt格式的英文文檔;(2)對每篇文檔進行分詞;(3)利用正則表達式去掉逗號、句號等標點符號;(4)計算文檔頻率;     (5)統計特徵向量<?php $_txts = array('1.txt','2.txt

原创 使用CURL構建爬蟲,抓取百度百科內容

實現這個功能的步驟:首先打開百度百科,在搜索框輸入“php”關鍵詞,得到搜索列表,一般都是10條;然後使用火狐的Firebug分析百度列表的內容組成,主要是html標籤,發現去向百科內容的連接的格式都是http://baike.baidu.

原创 中文分詞軟件SCWS

windows下安裝SCWS的中文擴展:去官網下載php_scws.dll(PHP-5.2.x根據php版本選擇) 、XDB 詞典文件(簡體中文(UTF-8)可選gbk,也可以把兩個詞典文件都下載)、規則集文件(rules.tgz)創建c:

原创 PHP讀取文本並計算單詞所在行列

騰訊PHP工程師筆試有道題,要你把《聖經》中的單詞能夠檢索出來,並顯示單詞所在的行列數,稍微思考了一下,寫出了一個最簡單的計算單詞行列的php程序,但是算法複雜度已經超出了要求,有興趣的同學可以改進.$_fp = fopen('test.t