CS-XMLSim:一种XML文档分类的改进方法
摘要:由于越来越多的结构化或半结构化的数据采用XML格式存储和交换,对XML数据的挖掘变得日益重要,其中对XML文档分类的研究越来越广泛。针对目前XML文档基于结构和内容的编辑距离分类算法的不足,本文在计算相似性度量时提出了一种新的改进方法CS-XMLSim方法,使得当XML文档结构相似而内容差异大时(即XML文档集由同一个DTD生成时)分类也有很高的准确率,并应用于k均值算法进行分类。CS-XMLSim方法在计算XML文档相似性时使用欧氏距离度量,其中计算内容相似性度量时运用谱聚类算法进行降维,对偏重于内容的XML文档分类时有更好的效果。实验结果表明,当XML文档结构相似内容差异大时,CS-XMLSim方法在提高分类准确率方面有了明显改善。
注: 保护知识产权,如需阅读全文请联系心智与计算杂志社