python--利用餘弦相似度公式計算兩字符串的相似性

原創

2019-08-28 15:19

步驟：

1、先對下面兩字符串進行分詞處理：

	s1 = "hi，今天溫度是12攝氏度。"
    s2 = "hello，今天溫度很高。"

分詞結果：

    ['hi', '今', '天', '溫', '度', '是', '12', '攝', '氏', '度']
    ['hello', '今', '天', '溫', '度', '很', '高']

2、再講上面的分詞結果轉成向量形式：

	合併分詞列表：['12', '天', '今', '高', '是', '度', '氏', '溫', 'hello', 'hi', '攝', '很']
	s1轉爲向量： word_vector1 = [1. 1. 1. 0. 1. 2. 1. 1. 0. 1. 1. 0.]
	s2轉爲向量： word_vector2 = [0. 1. 1. 1. 0. 1. 0. 1. 1. 0. 0. 1.]

2、再利用餘弦相似度公式計算兩字符串對應的向量的相似度。

   s1和s2的相似度爲：	0.545544725589981

代碼：

import numpy as np
import re
import warnings
warnings.filterwarnings('ignore')

def get_word_vector(s1,s2):
    """
    :param s1: 句子1
    :param s2: 句子2
    :return: 返回中英文句子切分後的向量
    """
   
    # 把句子按字分開，中文按字分，英文按單詞，數字按空格
    regEx = re.compile('[\\W]*')
    res = re.compile(r"([\u4e00-\u9fa5])")

    p1 = regEx.split(s1.lower())
    str1_list = []
    for str in p1:
        if res.split(str) == None:
            str1_list.append(str)
        else:
            ret = res.split(str)
            for ch in ret:
                str1_list.append(ch)
    # print(str1_list)

    p2 = regEx.split(s2.lower())
    str2_list = []
    for str in p2:
        if res.split(str) == None:
            str2_list.append(str)
        else:
            ret = res.split(str)
            for ch in ret:
                str2_list.append(ch)
    # print(str2_list)

    list_word1 = [w for w in str1_list if len(w.strip()) > 0]  # 去掉爲空的字符
    list_word2 = [w for w in str2_list if len(w.strip()) > 0]  # 去掉爲空的字符
    print(list_word1,list_word2)

    # 列出所有的詞,取並集
    key_word = list(set(list_word1 + list_word2))
    print(key_word)
    # 給定形狀和類型的用0填充的矩陣存儲向量
    word_vector1 = np.zeros(len(key_word))
    word_vector2 = np.zeros(len(key_word))

    # 計算詞頻
    # 依次確定向量的每個位置的值
    for i in range(len(key_word)):
        # 遍歷key_word中每個詞在句子中的出現次數
        for j in range(len(list_word1)):
            if key_word[i] == list_word1[j]:
                word_vector1[i] += 1
        for k in range(len(list_word2)):
            if key_word[i] == list_word2[k]:
                word_vector2[i] += 1

    # 輸出向量
    print(word_vector1)
    print(word_vector2)
    return word_vector1, word_vector2


def cos_dist(vec1,vec2):
    """
    :param vec1: 向量1
    :param vec2: 向量2
    :return: 返回兩個向量的餘弦相似度
    """
    dist1=float(np.dot(vec1,vec2)/(np.linalg.norm(vec1)*np.linalg.norm(vec2)))
    return dist1


if __name__ == '__main__':
    
    s1 = "hi，今天溫度是12攝氏度。"
    s2 = "hello，今天溫度很高。"
  
    vec1,vec2=get_word_vector(s1,s2)
    dist1=cos_dist(vec1,vec2)
    print(dist1)

輸出結果：

['hi', '今', '天', '溫', '度', '是', '12', '攝', '氏', '度']  ['hello', '今', '天', '溫', '度', '很', '高']
['12', '天', '今', '高', '是', '度', '氏', '溫', 'hello', 'hi', '攝', '很']
[1. 1. 1. 0. 1. 2. 1. 1. 0. 1. 1. 0.]
[0. 1. 1. 1. 0. 1. 0. 1. 1. 0. 0. 1.]
0.545544725589981

分析結果：

字符串：
    s1 = "hi，今天溫度是12攝氏度。"
    s2 = "hello，今天溫度很高。"
的相似度爲：0.545544725589981

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python--利用餘弦相似度公式計算兩字符串的相似性

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

【2024-05-21】以茶會友

連接mysql報錯：2003

特徵工程詳解

python--中英文混合字符串的切分（中文按字斷開，英文按單詞分開，數字按空格等特殊符號斷開）

十大Python數據可視化庫（繪圖專用）

pycharm快捷鍵

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結