科研系统
成果转化平台
常见问题检索
在线提问咨询
返回旧版
科学技术研究院2023
┝━首页
┝━机构设置
┝━━部门介绍
┝━━职能分工
┝━━科研管理联络网
┝━重要通知
┝━━科技项目(民口)
┝━━科技项目(军口)
┝━━文科科研
┝━━产学研与成果转化
┝━━科研基地
┝━━科技奖励与综合
┝━科技新闻
┝━科研项目
┝━━科技项目(民口)
┝━━━重要通知
┝━━━政策法规
┝━━━办事指南
┝━━━文件下载
┝━━科技项目(军口)
┝━━━重要通知
┝━━━政策法规
┝━━━办事指南
┝━━━文件下载
┝━━文科科研
┝━━━重要通知
┝━━━社科动态
┝━━━政策法规
┝━━━办事指南
┝━━━文件下载
┝━科研成果
┝━━科研进展
┝━━成果推广
┝━━━新能源
┝━━━新能源汽车
┝━━━新兴信息产业
┝━━━节能环保
┝━━━高端装备制造业
┝━━━新材料
┝━━━生物产业
┝━━━新医药
┝━━━新化工
┝━━━综合其它
┝━━专利成果
┝━基地团队
┝━━科研基地
┝━━━政府批建机构
┝━━━联合共建机构
┝━━科研团队
┝━━━国家级科技创新团队
┝━━━省市级科技创新团队
┝━信息公开
┝━━成果转化公示
┝━━收益分配公示
┝━━其他公示
┝━党务工作
┝━━学习园地
┝━━支部活动
┝━服务指南
┝━━政策法规
┝━━━科技项目(民口)
┝━━━科技项目(军口)
┝━━━文科科研
┝━━━产学研与成果转化
┝━━━科研基地
┝━━━科技奖励与综合
┝━━办事指南
┝━━━科技项目(民口)
┝━━━科技项目(军口)
┝━━━文科科研
┝━━━产学研与成果转化
┝━━━科研基地
┝━━━科技奖励与综合
┝━━文件下载
┝━━━科技项目(民口)
┝━━━科技项目(军口)
┝━━━文科科研
┝━━━产学研与成果转化
┝━━━科研基地
┝━━━科技奖励与综合
┝━产学研与成果转化
┝━━重要通知
┝━━政策法规
┝━━办事指南
┝━━文件下载
┝━科研基地
┝━━重要通知
┝━━政策法规
┝━━办事指南
┝━━文件下载
┝━科技奖励
┝━━重要通知
┝━━政策法规
┝━━办事指南
┝━━文件下载
首页
机构设置
部门介绍
职能分工
科研管理联络网
重要通知
科技项目(民口)
科技项目(军口)
文科科研
产学研与成果转化
科研基地
科技奖励与综合
科技新闻
科研项目
科技项目(民口)
科技项目(军口)
文科科研
科研成果
科研进展
成果推广
专利成果
基地团队
科研基地
科研团队
信息公开
成果转化公示
收益分配公示
其他公示
党务工作
学习园地
支部活动
服务指南
政策法规
办事指南
文件下载
科研成果
科研成果
科研进展
成果推广
新能源
新能源汽车
新兴信息产业
节能环保
高端装备制造业
新材料
生物产业
新医药
新化工
综合其它
专利成果
专利成果
首页
>
科研成果
>
专利成果
>
正文
基于中文标点符号的三重网页文本内容识别及过滤方法(专利号:200710011057.1)
日期: 2015-03-30
浏览:
专利号:
200710011057.1
申请日:
2007/4/18
授权公告日:
2010/4/21
专利权人:
大连理工大学
发明人:
宋明秋;吴新涛
摘要:
一种基于中文标点符号的三重网页文本内容识别及过滤方法。该方法针对现有的基于URL、基于关键字的网页信息过滤方法中存在的滤准率和滤全率低的问题,提出了一种复合型的基于URL、基于关键字、以及基于文本向量空间知识表示方法的网页文本内容过滤方法。采用基于黑白名单的URL地址过滤方法;采用中文标点符号的统计特征来有效地去除导航信息、相关链接信息、广告链接信息、版权信息等网页内容噪声信息,提取文本内容;采用向量空间模型进行文本知识表示,通过计算文本向量与不良信息模版中特征向量间的夹角余弦,与设定的阈值相比较,确定文本所属类别。该发明可广泛地应用于网络不良信息的过滤及网页个性化信息服务领域。
上一篇:
一种燃料电池用双极板及其表面氮镍铬薄膜制备方法(专利号:200810086375.9)
下一篇:
纤维编织网增强自密实混凝土方法(专利号:200510046304.2)