餘弦方法計算相似度算法實現

(1)餘弦相似性

          通過測量兩個向量之間的角的餘弦值來度量它們之間的相似性。0度角的餘弦值是1,而其他任何角度的餘弦值都不大於1;並且其最小值是-1。從而兩個向量之間的角度的餘弦值確定兩個向量是否大致指向相同的方向。所以,它通常用於文件比較。

          詳見百科介紹(點擊打開鏈接

(2)算法實現的中未使用權重(IDF ---逆文檔頻率),使用詞項的出現次數作爲向量空間的值。

 

import java.util.HashMap;
import java.util.Iterator;
import java.util.Map;

public class SimilarDegreeByCos
{
	/*
	 * 計算兩個字符串(英文字符)的相似度,簡單的餘弦計算,未添權重
	 */
     public static double getSimilarDegree(String str1, String str2)
     {
    	//創建向量空間模型,使用map實現,主鍵爲詞項,值爲長度爲2的數組,存放着對應詞項在字符串中的出現次數
    	 Map<String, int[]> vectorSpace = new HashMap<String, int[]>();
    	 int[] itemCountArray = null;//爲了避免頻繁產生局部變量,所以將itemCountArray聲明在此
    	 
    	 //以空格爲分隔符,分解字符串
    	 String strArray[] = str1.split(" ");
    	 for(int i=0; i<strArray.length; ++i)
    	 {
    		 if(vectorSpace.containsKey(strArray[i]))
    			 ++(vectorSpace.get(strArray[i])[0]);
    		 else
    		 {
    			 itemCountArray = new int[2];
    	         itemCountArray[0] = 1;
    	         itemCountArray[1] = 0;
    	         vectorSpace.put(strArray[i], itemCountArray);
    		 }
    	 }
    	 
    	 strArray = str2.split(" ");
    	 for(int i=0; i<strArray.length; ++i)
    	 {
    		 if(vectorSpace.containsKey(strArray[i]))
    			 ++(vectorSpace.get(strArray[i])[1]);
    		 else
    		 {
    			 itemCountArray = new int[2];
    	         itemCountArray[0] = 0;
    	         itemCountArray[1] = 1;
    	         vectorSpace.put(strArray[i], itemCountArray);
    		 }
    	 }
    	 
    	 //計算相似度
    	 double vector1Modulo = 0.00;//向量1的模
    	 double vector2Modulo = 0.00;//向量2的模
    	 double vectorProduct = 0.00; //向量積
    	 Iterator iter = vectorSpace.entrySet().iterator();
    	 
    	 while(iter.hasNext())
    	 {
    		 Map.Entry entry = (Map.Entry)iter.next();
    		 itemCountArray = (int[])entry.getValue();
    		 
    		 vector1Modulo += itemCountArray[0]*itemCountArray[0];
    		 vector2Modulo += itemCountArray[1]*itemCountArray[1];
    		 
    		 vectorProduct += itemCountArray[0]*itemCountArray[1];
    	 }
    	 
    	 vector1Modulo = Math.sqrt(vector1Modulo);
    	 vector2Modulo = Math.sqrt(vector2Modulo);
    	 
    	 //返回相似度
		return (vectorProduct/(vector1Modulo*vector2Modulo));
     }
     
     /*
      * 
      */
     public static void main(String args[])
     {
    	 String str1 = "gold silver truck";
    	 String str2 = "Shipment of gold damaged in a fire";
    	 String str3 = "Delivery of silver arrived in a silver truck";
    	 String str4 = "Shipment of gold arrived in a truck";
    	 String str5 = "gold gold gold gold gold gold";
    	 
    	 System.out.println(SimilarDegreeByCos.getSimilarDegree(str1, str2));
    	 System.out.println(SimilarDegreeByCos.getSimilarDegree(str1, str3));
    	 System.out.println(SimilarDegreeByCos.getSimilarDegree(str1, str4));
    	 System.out.println(SimilarDegreeByCos.getSimilarDegree(str1, str5));
     }
}



發佈了70 篇原創文章 · 獲贊 35 · 訪問量 59萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章