步驟:
1、先對下面兩字符串進行分詞處理:
s1 = "hi,今天溫度是12攝氏度。"
s2 = "hello,今天溫度很高。"
分詞結果:
['hi', '今', '天', '溫', '度', '是', '12', '攝', '氏', '度']
['hello', '今', '天', '溫', '度', '很', '高']
2、再講上面的分詞結果轉成向量形式:
合併分詞列表:['12', '天', '今', '高', '是', '度', '氏', '溫', 'hello', 'hi', '攝', '很']
s1轉爲向量: word_vector1 = [1. 1. 1. 0. 1. 2. 1. 1. 0. 1. 1. 0.]
s2轉爲向量: word_vector2 = [0. 1. 1. 1. 0. 1. 0. 1. 1. 0. 0. 1.]
2、再利用餘弦相似度公式計算 兩字符串對應的向量的相似度。
s1和s2的相似度爲: 0.545544725589981
代碼:
import numpy as np
import re
import warnings
warnings.filterwarnings('ignore')
def get_word_vector(s1,s2):
"""
:param s1: 句子1
:param s2: 句子2
:return: 返回中英文句子切分後的向量
"""
# 把句子按字分開,中文按字分,英文按單詞,數字按空格
regEx = re.compile('[\\W]*')
res = re.compile(r"([\u4e00-\u9fa5])")
p1 = regEx.split(s1.lower())
str1_list = []
for str in p1:
if res.split(str) == None:
str1_list.append(str)
else:
ret = res.split(str)
for ch in ret:
str1_list.append(ch)
# print(str1_list)
p2 = regEx.split(s2.lower())
str2_list = []
for str in p2:
if res.split(str) == None:
str2_list.append(str)
else:
ret = res.split(str)
for ch in ret:
str2_list.append(ch)
# print(str2_list)
list_word1 = [w for w in str1_list if len(w.strip()) > 0] # 去掉爲空的字符
list_word2 = [w for w in str2_list if len(w.strip()) > 0] # 去掉爲空的字符
print(list_word1,list_word2)
# 列出所有的詞,取並集
key_word = list(set(list_word1 + list_word2))
print(key_word)
# 給定形狀和類型的用0填充的矩陣存儲向量
word_vector1 = np.zeros(len(key_word))
word_vector2 = np.zeros(len(key_word))
# 計算詞頻
# 依次確定向量的每個位置的值
for i in range(len(key_word)):
# 遍歷key_word中每個詞在句子中的出現次數
for j in range(len(list_word1)):
if key_word[i] == list_word1[j]:
word_vector1[i] += 1
for k in range(len(list_word2)):
if key_word[i] == list_word2[k]:
word_vector2[i] += 1
# 輸出向量
print(word_vector1)
print(word_vector2)
return word_vector1, word_vector2
def cos_dist(vec1,vec2):
"""
:param vec1: 向量1
:param vec2: 向量2
:return: 返回兩個向量的餘弦相似度
"""
dist1=float(np.dot(vec1,vec2)/(np.linalg.norm(vec1)*np.linalg.norm(vec2)))
return dist1
if __name__ == '__main__':
s1 = "hi,今天溫度是12攝氏度。"
s2 = "hello,今天溫度很高。"
vec1,vec2=get_word_vector(s1,s2)
dist1=cos_dist(vec1,vec2)
print(dist1)
輸出結果:
['hi', '今', '天', '溫', '度', '是', '12', '攝', '氏', '度'] ['hello', '今', '天', '溫', '度', '很', '高']
['12', '天', '今', '高', '是', '度', '氏', '溫', 'hello', 'hi', '攝', '很']
[1. 1. 1. 0. 1. 2. 1. 1. 0. 1. 1. 0.]
[0. 1. 1. 1. 0. 1. 0. 1. 1. 0. 0. 1.]
0.545544725589981
分析結果:
字符串:
s1 = "hi,今天溫度是12攝氏度。"
s2 = "hello,今天溫度很高。"
的相似度爲:0.545544725589981