用
fuzz.ratio我的距离度量,计算我的距离矩阵这样
df3 = pd.Dataframe(index=df.index, columns=df2.index)for i in df3.index: for j in df3.columns: vi = df.get_value(i, 'PRODUCT_DEscriptION') vj = df2.get_value(j, 'PROD_DEscriptION') df3.set_value( i, j, fuzz.ratio(vi, vj))print(df3) 0 1 2 3 4 50 63 15 24 23 34 271 26 84 19 21 52 322 18 31 33 12 35 343 10 31 35 10 41 424 29 52 32 10 42 125 15 28 21 49 8 55
50
查找
df2每行具有最大值的索引值(对于)。
threshold = df3.max(1) > 50idxmax = df3.idxmax(1)
进行作业
df['PROD_ID'] = np.where(threshold, df2.loc[idxmax, 'PROD_ID'].values, np.nan)df['PROD_DEscriptION'] = np.where(threshold, df2.loc[idxmax, 'PROD_DEscriptION'].values, np.nan)df
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)