我在查找字符串相似度时遇到了一个问题.
场景:由以下字段组成的字符串 名字、中间名和姓氏
我要做的是找到A和B之间的字符串相似性(两者都有相同的字段),但确保考虑到所有的可能性.
case 1: 假设字符串A的名字是:Rahul 中间名是:库马尔 姓氏是:""
字符串B的名字是:库马尔 中间名:"" 姓氏:拉胡尔
通过观察,我们可以说这两个名字可能是相同的.但目前的相似度算法给出的相似度约为71%.
case 2:
比方说,字符串B的名字是:Rahul 中间名:"" 姓氏:K.
在本例中,相似度%age下降,但名称可能相同.
考虑到名字、中间名和姓氏的所有可能组合,并以一种优化的方式,我应该如何处理相似性?
E.g Rahul Rakesh Kumar可以像 拉胡尔·库马尔 拉胡尔 拉胡尔·K. 库马尔·拉胡尔 库马尔·拉杰什·拉胡尔. 拉胡尔·R·库马尔什么的.
我曾try 使用Jaccard、CoSine、Jaro-Wrinklr相似性算法,但结果并不令人满意.
注意:我必须根据名称找到重复数据删除,这就是为什么我必须考虑所有可能的名称.