专利号: |
2013101054502 |
申请日: |
2013/03/28 |
授权公告日: |
2015/12/23 |
专利权人: |
大连理工大学 |
发明人: |
孔祥杰;宋秀苗;夏锋 |
摘要:
本发明公开了一种基于目标文本的计算文本相似度的方法。为了克服现有文本相似度算法单纯地考虑算法的准确率和效率,本发明结合项目实际情况综合考虑算法的准确率和效率两方面,保证在一定准确度的前提下提高算法的效率。在提高算法准确度方面,本发明充分考虑专业词汇对相似度计算的影响,采用了对不同类别的关键词加权的方式计算相似度;而在提高算法效率方面,本发明采用倒排索引聚类方法和维过滤方法。本发明既保证了文本之间的专业相关度计算的准确度,同时又兼顾了计算效率。