技術原理丨超高精準度IP地址定位這樣實現

       超高精準度IP地理位置定位技術,採用將數據挖掘與網絡測量相結合的總體模型,搭建先劃分IP地址應用場景再進行IP地址定位的技術架構,利用動態IP地址多區域定位算法,解決了基準點數據利用率低、單一技術無法實現超高精度IP地址定位等問題,形成街道級IP地理位置定位,極大程度上提升了IP地址定位的精確度和覆蓋度。與世界上最先進的IP地址定位技術相比,精確度提高了三十倍,技術上處於國際領先地位。

       超高精度IP地理位置定位技術通過設計探測機選擇算法,根據探測機地理位置、網絡出口等指標,選擇最優探測機組合,搭建高可用、易擴展的分佈式探測機羣組。研發高併發海量數據爬蟲系統,部署在分佈式探測羣組之上,針對萬維網、移動平臺的數據進行深度挖掘,完成WHOIS、BGP等開源數據庫數據和IP地址基準點數據採集。

       針對傳統網絡測量方式獲取到的網絡路徑不全、時延經常發生膨脹、採集效率低下等問題,採用基於Per-Flow方式探測的Paris traceroute和MDA traceroute的探測技術,採集基於UDP和ICMP類型的網絡路徑,設計時延修復和路徑修復算法,保證網絡拓撲信息的完整性和正確性。

       針對同一類別的IP指紋信息、地理覆蓋範圍、網絡拓撲、對應域名、端口等屬性存在相似性,不同類別間存在明顯差異的特點。爲了解決目前應用場景劃分停留在運營商、數據中心等級別,顆粒度粗糙等問題。結合IP的物理特徵和網絡特徵,利用機器學習分類算法,完成17類IP應用場景的精細劃分。從而針對不同場景使用差異化的基準點過濾算法和IP定位算法,提高整體定位的準確度。

       結合IP應用場景判定結果,根據不同來源的數據特徵,設定不同的清洗規則,對IP基準點數據進行清洗,確保數據的真實性和準確性。針對WHOIS和BGP數據,根據註冊機構的類型、地域以及登記的時間,篩選可用基準點。

       針對移動基準點數據,使用獨立IP和IP簇雙重過濾原則。對獨立IP,篩選一定時間內蒐集到的位置數量(不少於10條位置信息)和來源數量(不少於3個數據來源)都比較豐富的情況,劃定其經常出現的區域,並刪除不在區域內的異常基準點;對相鄰的IP簇,使用多種數據來源(不少於3個數據來源)提供的IP豐富位置信息(不少於20條位置信息),劃定該IP簇經常出現的區域,並刪除不在區域內的異常基準點。

       針對單一使用數據挖掘技術或網絡測量技術,從可行性上來講,要實現超高精度IP地址定位是十分困難的問題。研發超高精度IP地理位置定位算法,對不同應用場景下的、有基準點的IP進行動態聚類分析,針對不同的聚類參數,權衡聚類覆蓋區域的面積大小以及聚類覆蓋區域下的基準點召回率,找到效果最優的聚類參數,給出不同應用場景下IP地理位置的最大覆蓋範圍;對沒有基準點的IP進行網絡拓撲相似度比較,完成IP定位。

       超高精度IP地址定位技術將數據挖掘與網絡測量兩種技術相結合,從而產生化學反應,極大程度上提升了IP地址定位的精確度和覆蓋度。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章