专利成果

一种基于目标文本的计算文本相似度的方法(专利号:2013101054502)

日期: 2016-06-17浏览:

专利号:

2013101054502

申请日:

2013/03/28

授权公告日:

2015/12/23

专利权人:

大连理工大学

发明人:

孔祥杰;宋秀苗;夏锋

摘要

    本发明公开了一种基于目标文本的计算文本相似度的方法。为了克服现有文本相似度算法单纯地考虑算法的准确率和效率,本发明结合项目实际情况综合考虑算法的准确率和效率两方面,保证在一定准确度的前提下提高算法的效率。在提高算法准确度方面,本发明充分考虑专业词汇对相似度计算的影响,采用了对不同类别的关键词加权的方式计算相似度;而在提高算法效率方面,本发明采用倒排索引聚类方法和维过滤方法。本发明既保证了文本之间的专业相关度计算的准确度,同时又兼顾了计算效率。