靈玖軟件:NLPIR技術助力行業大數據智能挖掘

  大數據時代業已到來,當今世界正處在一個數據爆炸的時代。伴隨着多媒體、雲計算、物聯網、社交網絡等技術的發展,以及天文觀測、空間地理、金融分析等各領域每天都在產生巨量的數據,這些數據如此龐大,其規模、其涌現速度和其處理難點超出目前常規技術能管理、處理和分析的能力。一般來說,大數據具有量大(Volume)、流動性大(Velocity),種類多(Variety),分佈式(distributed)、非一致(nonuniformity)等特性,這些特點決定了在大數據時代,我們傳統的數據處理技術必須有革命性的變化,包括數據的存儲與組織方式、計算方法、數據分析,而對大數據的智能分析技術將尤爲重要。
  大數據的潛在價值是真實而巨大的,爲了充分挖掘大數據的價值,必須解決一系列技術問題,這些問題包括數據採集、信息抽取和清理、數據集成、數據分析以及解釋和部署.這些問題涉及數據獲取、數據存儲和管理、數據分析、數據可視化、應用服務、信息共享、數據安全和隱私保護、大規模並行計算、流計算、雲計算等多層面的信息技術,需要計算機軟、硬件的綜合解決方案.
  計算智能是人工智能發展的新階段,是受到大自然智慧和人類智慧的啓發而設計出的一類解決複雜問題方法的統稱.與傳統的人工智能相比,計算智能的最大特點是不需要建立問題本身的精確(數學或邏輯)模型,不依賴於知識表示,而是在觀測數據上直接對輸入信息進行處理.這一特點非常適合於解決大數據分析中那些由於難以建立有效的形式化模型而用傳統技術難以解決,甚至無法解決的問題.近年來,計算智能理論與技術發展迅速,在圖像處理、模式識別、知識獲取、經濟管理、生物醫學、智能控制等許多領域都得到了廣泛應用,取得了一系列令人鼓舞的研究成果.同時,大數據也給計算智能發展帶來新的挑戰與機遇.
  在大數據環境下,人們生產和採集數據的能力日益增強,手段愈發豐富,這將導致數據在規模增大的同時,屬性(維度)也隨之增長.這樣的高維數據會帶來兩個問題:首先,對於特定的應用而言,一般不需要關注數據的全部屬性(維度),原始數據中包含的大量冗餘信息和噪聲反而會隱藏其中的有價值信息;其次,高維數據嚴重影響算法的性能,一些在低維特徵空間中有效的算法,在超過30維的特徵空間中將出現性能退化.
  北京理工大學大數據搜索與挖掘實驗室張華平主任研發的NLPIR大數據語義智能分析技術是滿足大數據挖掘對語法、詞法和語義的綜合應用。NLPIR大數據語義智能分析平臺是根據中文數據挖掘的綜合需求,融合了網絡精準採集、自然語言理解、文本挖掘和語義搜索的研究成果,並針對互聯網內容處理的全技術鏈條的共享開發平臺。
  NLPIR大數據語義智能分析平臺主要有精準採集、文檔轉化、新詞發現、批量分詞、語言統計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉換等十餘項功能模塊,平臺提供了客戶端工具,雲服務與二次開發接口等多種產品使用形式。各個中間件API可以無縫地融合到客戶的各類複雜應用系統之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統平臺,可以供Java,Python,C,C#等各類開發語言使用。
  數據挖掘技術本身就是當前數據技術發展的新領域,文本挖掘則發展歷史更短。傳統的信息檢索技術對於海量數據的處理並不盡如人意,文本挖掘便日益重要起來,可見文本挖掘技術是從信息抽取以及相關技術領域中慢慢演化而成的。在信息管理領域,綜合應用數據挖掘技術和人工智能技術,獲取用戶知識、文獻知識等各類知識,將是實現知識檢索和知識管理髮展的必經之路。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章