原创 mongodb搭建校內搜索引擎——爬取網頁文本

目標: 讀取excle文檔中存儲的url列表,爬取列表中網頁的文本內容 概要: 在已經在獲得爬蟲獲取的url列表的工作基礎上,進行網頁內容的獲取。編程用到request(獲取網頁源碼),BeautifulSoup(解析

原创 centos下mongodb3.2數據庫的備份與恢復初步

數據庫的備份 mongodump -h dbhost -d dbname -o dbdirectory -h MongDB所在服務器地址,在本地操作時服務器默認地址是127.0.0.1。 -d 需要備份的數據庫實例。 -o 備

原创 SSH+rsync實現服務器的自動備份

備份說明 備份目錄 /boot /etc /home /root /usr/local /var 客戶端 114.212.239.114(Nova1) 服務器 114.212.235.54(Host) 環境 服務器上都有r

原创 Linux系統換源

Linux系統換源 Linux系統換源 linux界兩大主流RPM和DPKG Linux換源 在Ubuntu上更換清華源 在Centos上更換163源 關於update和upgrade linux界兩大主流:RPM和DPK

原创 Elasticsearch安裝分詞插件IK及問題解決

安裝環境準備 1.安裝 jdk 2.安裝Maven 依賴關係如下: 因爲沒有現成的安裝包,需要使用Maven對Github上的源碼進行編譯。所以安裝的Jdk版本取決於你的Maven版本。至於Maven版本的選擇就選擇最新的。 以下

原创 垂直搜索引擎框架(更新中)

自己用思維導圖做的垂直搜索引擎框架,目前知道的要點僅限於此,會不斷更新!

原创 centos7網絡時間服務器的配置與管理

NTP服務器的概念: 網絡時間協議(英語:Network Time Protocol,NTP)是以分組交換把兩臺電腦的時鐘同步化的網絡傳輸協議。NTP使用UDP端口123作爲傳輸層。它是用作抵銷可變延遲的影響。 NTP是仍在使用中的最古

原创 單播、多播(主播)、廣播簡介

單播 簡介 單播(unicast)是指封包在計算機網絡的傳輸中,目的地址爲單一目標的一種傳輸方式。每次只有兩個實體相互通信,發送端和接收端都是唯一確定的。它是現今網絡應用最爲廣泛,通常所使用的網絡協議或服務大多采用單播傳輸,例如一切基於

原创 windows下使用pip安裝python模塊lxml

嘗試了很多方法,在Windows下安裝lxml果然沒有在linux下來的方便。不過最後還是找到了解決辦法。 直接使用: pip install lxml 會有如下問題: 結果一路解決下去,解決了一個坑還是有一個坑,遂放棄,查找有沒有

原创 查看Linux的硬件配置

1.查看機器所有硬件信息: dmidecode |more dmesg |more 這2個命令出來的信息都非常多,所以建議後面使用”|more”便於查看 2.查看CPU信息 方法一: Linux下CPU相關的參數保存在 /proc

原创 python處理數據——去除字符串兩端的引號

在用python處理數據,會出現獲得的數據本身兩端帶有引號,而我們需要的是形如xxx,而不是“xxx”否則就會出現問題。比如: 『解決方法一:』 使用lstrip()和rsrtip()字符串函數 函數說明如下: str.lstri

原创 XAMPP+SCWS安裝

由於高版本的XAMPP對SCWS可能支持有問題,因爲高版本的XAMPP 集成了高版本的php,對一些函數放棄了支持,所以選擇了低版本的XAMPP,安裝的時候選擇了XAMPP1.8.3-5,並且是足夠用了。本機的系統是Centos7,親測可

原创 成爲FSD(全棧工程師)

轉載自:從知乎上看到“全棧開發者”討論之後的自黑 竊以爲 full stack 不是那麼簡單的事情。當然,不同的地方可能有不同的標準,且聽我慢慢道來。 既然大家都在以 Web 爲例,那我也說 Web 好了。不過事實上 full stack

原创 完全用Python工作---Harness the power of Python

完全用Python工作—Harness the power of Python 作者: 石雨濃 引自:完全用Python工作 第一天, 太初有道, 神諭, import light, 於是便有光. (Quick fact: 在pyt

原创 隨機性偏差模型(DFR)介紹

第一次翻譯文章,可能有不少錯誤,但是希望可以對原文閱讀起到幫助。 隨機性偏差模型 (DFR) 是信息檢索的最早模型之一,哈特的 2-泊松索引-模型 [1] 的最早模式之一。2-泊松模型基於在一系列的具有價值的文檔所提供的詞語,這些詞語在