文章採集系統(我的世界我採集網)

文章採集系統是有(我的世界我採集網)歷時4年開發而成,網上信息採集系統是根據用戶定義的關鍵詞字,從互聯網上檢索出相關的數據,並對數據進行合理的截取、分類、去重和過濾,並以文件或數據庫的方式保存下來。


目錄
文章採集系統過程
相關資料功能詮釋
展開
文章採集系統過程
相關資料功能詮釋
展開
編輯本段
文章採集系統過程
  系統的開發工具使用.Net的C#進行系統的開發,數據庫採用SQL Server 2000。
一、軟件系統總體設計要求
  1.當網站搜索深度爲5層,網站搜索廣度爲50個網頁時,數據查全率達到98%。
  2.當網站搜索深度爲5層,網站搜索廣度爲50個網頁時,數據查準率大於97%。
  3.數據儲存能力:存儲量≥100G。
  4.當在單個網站搜索時,網站搜索深度:最大第5層網頁;網站搜索廣度:最多搜索50個網頁。超過60秒沒結果則自動放棄搜索。
  5.併發搜索強度:可以同時10個線程併發搜索。 
  6.5億個漢字的信息平均查詢時間少於3秒。
二、應用系統設計要求
  1.要求系統能進行多線程採集信息;
  2.能自動分類索引記錄;
  3.自動過濾重複、自動標引記錄;
三、應用系統功能的詳細描述
  實時網上採集(內容抓取模塊) 快速:網頁抓取採用多線程併發搜索技術,並可設置併發線程的最大個數。靈活:可以同時跟蹤抓取多個網站,能夠提供靈活的網站、欄目或頻道的採集策略,以及利用邏輯關係定位採集內容。準確:不多抓與少抓,可自定義需要抓取的文件格式,能夠抓取圖片和表格信息,抓取過程成熟可靠,容錯性強,完成初始設定後可長時間穩定運行。 高效自動分類支持機檢分類――能夠利用預定義的關鍵詞和規則方法判定類別;支持自動分類――通過機器自動學習或預學習自動分類,並達到80%以上的準確率。(這條比較麻煩,可以考慮不做)支持多種分類標準――比如按地域(華北、華南等)、內容(政治、科技、軍事、教育等)、來源(新華網、人民網、新浪網等)等。 自動網頁分析內容過濾――能夠過濾掉廣告、導航信息、版權等無用信息,能夠剔除反動、色情內容。內容排重――對於不同網站相同或雷同的內容,能夠自動判別並標註爲雷同,判別的方法可以由用戶定義的規則判定及自動按內容的相似度判定。格式轉換――自動將HTML格式轉換爲文本文件。自動標引――對網頁自動提取標題、版次、日期、作者、欄目、分類等信息。 系統管理整合的單一界面――系統提供基於Web的用戶使用界面和管理員界面,滿足系統管理員和用戶雙重需求,可利用瀏覽器遠程管理分類目錄、用戶權限並調整、加強分類結果。完整的目錄維護――提供完整的對分類目錄進行新增、移動、修改、刪除等管理維護權限管理,可設定管理目錄和單一文件使用權限,加強安全管理。實時的文件管理――可以瀏覽每個目錄分類結果,並實時進行移動、更名等調整。
編輯本段
相關資料功能詮釋
  用文章採集系統,整個系統可以在線自動安裝,後臺有新版本可自動升級;如果系統文件損壞也能自動修復,站長從此無憂
1、自動建設功能
  強大的關鍵詞管理系統
  可自動批量獲取指定關鍵詞的常見相關詞語,輕鬆掌控用戶搜索行爲
  自動文章採集系統四大類內容
  文章採集過程中自動剔除重複內容,並可以自由設置各類內容的聚合數量
  三重過濾保證內容質量
  特別是首創的任意詞語密度判斷功能,爲搜索引擎收錄提供了有力保證
  自動生成原創專題
  文章採集首創以專題爲內容組織形式,這是門戶網站內容制勝的法寶
  專題內容自動更新
  專題不僅可自動創建也可自動更新,並可分別設置各類內容的更新週期
  原創標籤綜合頁面
  全站集成統一通用的分類標籤體系,不僅讓內容關聯,更是原創內容頁面
2、個性定製功能
  原創標籤綜合頁面
  全站集成統一通用的分類標籤體系,不僅讓內容關聯,更是原創內容頁面
  兼容多種靜態化模式
  不僅有效保證搜索引擎收錄,更可以增加網站的持續性訪問
  任意頂部導航條設定
  可隨意增加、刪減頂部導航條,讓網站有高度的定製性
  任意url連接地址名稱
  不僅讓你的網站是獨一無二,更能在一定程度上提高搜索引擎排名
  支持多模板套系
  採用模板編譯替補技術,即使只改動一個文件也可製作個性界面
  任意顯示數量控制
  專即可設置專題頁面各類內容的數量,也可設置各列表頁面的顯示數量
3、內置的站長工具
  全程記錄蜘蛛來訪
  智能識別99%的搜索引擎蜘蛛來訪,並全程掌控蜘蛛爬行記錄
  自動創建站點地圖
  全自動生成baidu和google地圖,並可分類設置,有效提高網站內容收錄
  一鍵查看排名和收錄
  不僅可查看Alexa排名,更可精確掌握網站近日收錄,還能增加網站外鏈
  查看網站中的非法關鍵詞
  可以自動批量查詢網站中是否存在國家禁止的非法內容
  在線自動安裝和文件修復
  setup.php工具不僅可自動獲取授權、在線自動安裝系統,更有系統修復功能
  後臺智能自動升級
  可自動判斷當前需升級的版本,並自動下載升級,讓站長擺脫更新煩惱
4、高效性能
  超高效自動分詞技術
  首創採用數字化詞庫和雙向切詞校驗,大大提高了中文分詞效率和準確度
  高效動態頁面緩存
  採用分模塊的頁面緩存技術,有效保證系統負載能力和網站的動態性
  代碼切分調用技術
  使系統每次調用最少程序代碼,減少解析時間,有效提高系統的執行效率
  編譯模板技術
  所有未變動的模板只需要編譯一次,減少了解析模板時間,提高訪問速度
  最少化數據讀取設計
  大大減少數據庫資源的消耗,可支持更多用戶快速訪問
  圖片縮略圖保存
  默認將圖片文件生成縮略圖保存本地,極大減少了服務器空間和帶寬的壓力
5、整站互動功能
  個性羣組功能
  專題可轉換爲羣組,並擁有比論壇更自由的權限控制
  對外個人主頁
  可在個人頁面看到其發起的話題、訂閱的專題以及好友等
  我的個人家園
  擁有SNS特性,可跟蹤我的話題動態,也可以好友的站內動態
  站內好友體系
  可以自由加好友,也可看到好友的動態信息
  個性收藏系統
  你可以將任何你喜歡的內容進行收藏,並設置是否公;
  站內短信系統
  這是你與網站會員的私密溝通系統,有人加你好友也將通過此通知;
  文章採集系統運行環境要求
  a)語言類型:PHP,推薦V5.x ,最低支持 V4.3.x;
  b)需數據庫:MySQL,推薦V5.x,最低支持 V4.1.x;
  c)程序加速:Zend Optimizer,推薦V3.x,最低支持 V2.6。 文章採集用業界最流行的php+mysql開發,在絕大部分空間上都可以正常運行
發佈了6 篇原創文章 · 獲贊 0 · 訪問量 2萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章