加急见刊

大规模数据的集合相似度估计研究进展

何安娜; 陈华辉 宁波大学信息科学与工程学院; 宁波315211

摘要:相似度估计是实现近似集合检索的一个重要组成部分。针对于不用的相似度度量方式,主要有使用Jaccard相似度的Min Hash算法和基于海明距离的Sim Hash算法,它们是两种常用的大规模数据相似度度量技术。此外,还有基于集合包含度下的集合相似度估计算法。通过总结多篇已,详细地回顾了不同的相似度度量方式下的集合相似度估计方法。

注: 保护知识产权,如需阅读全文请联系无线通信技术杂志社