基于树结构模式挖掘的Web信息抽取研究

负责人:吴共庆

依托单位:合肥工业大学

批准年份:2010

前往基金查询
项目简介
项目名称
基于树结构模式挖掘的Web信息抽取研究
项目批准号
61005044
学科分类
F030504 信息科学部 _自动化 _人工智能与知识工程 _数据挖掘与机器学习
资助类型
信息科学
负责人
吴共庆
依托单位
合肥工业大学
批准年份
2010
起止时间
201101-201112
批准金额
7.00万元
摘要
围绕基于树结构模式挖掘的Web信息抽取问题,从模型设计、问题描述及其复杂性分析、算法设计与分析,到实际领域的应用,开展了系统地研究,取得了丰硕的阶段性成果。设计了基于树编辑距离度量的Web表格抽取算法,相对于字符串编辑距离度量,有效地提高了Web表格抽取的精度。设计了一种特殊的树结构模式-区分路径模式,提出了能否仅用路径模式精准抽取Web新闻的研究问题?围绕该问题,我们完成了节点级Web新闻语料标注工具开发和语料标注工作,对基于区分路径模式的Web信息抽取模型、模式发现问题及其复杂性分析、模式发现问题的求解算法开展了研究,并面向现实的数据集开展了实证研究。在上述工作的基础上,我们完成了个性化的Web新闻过滤和总结系统的应用研究,面向抽取文本处理过程中带有通配符的模式匹配、用户兴趣建模、基于语义分析的特征降维、高性能聚类等相关问题开展了探索性研究。受本课题资助,已发表SCI收录论文1篇、国际会议论文5篇(已被EI收录3篇),已录用国内核心期刊论文1篇,已投稿SIGKDD-2012论文1篇,获ICTAI -2011最优论文奖1项,为进一步深入地研究奠定了坚实的基础。
评论区 (0)
#插入话题