加急见刊

基于社会媒体内容和网络拓扑的特定话题推特摘要研究

贺瑞芳; 段兴义; 张雪菲; 赵文丽 天津大学智能与计算学部; 天津300350; 天津市认知计算与应用重点实验室; 天津300350

摘要:推特摘要旨在从话题相关的社会媒体短文本中提炼概要的推文集,以获取有效信息,可用于舆情监控、竞争情报分析及电子商务等.然而社会媒体的海量、嘈杂及不规范性使得仅依赖纯文本的传统摘要方法难以直接迁移到社交媒体情景中;而现有的推特摘要方法很少考虑数据稀疏性和社会网络传播带来的强冗余性,鲜有通过挖掘推文之间潜在的社会网络结构关系进行文摘内容选择,忽略了信息可以沿着社交网络进行传播.受压缩感知及社会学理论的启发,该文提出基于社会网络和稀疏重构的推特摘要方法(SNSR)以更好地融合社会媒体内容和结构信息.首先,挖掘推文中隐含的摘要模式,将其建模为组稀疏正则项,以捕捉代表性的推特摘要组合;其次,建模社会网络中表达一致性与表达传染性为社会化正则项,以探索推文之间的潜在网络结构关系在推特摘要中的作用;再次,建模社会媒体信息传播带来的强冗余性为多样性正则项,进而将这些约束整合到稀疏重构的推特摘要框架中;最后,提出基于Nesterov加速梯度下降的推特摘要算法,以解决推特摘要优化框架中的覆盖性、稀疏性以及多样性等问题.同时,由于推特摘要标准语料的缺乏,作者建设了12个话题的评测数据集.相关的实验结果证明了文中提出方法的有效性.

注: 保护知识产权,如需阅读全文请联系计算机学报杂志社