汉语动词搭配知识的自动发现研究

负责人:周强

依托单位:清华大学

批准年份:1999

前往基金查询
项目简介
项目名称
汉语动词搭配知识的自动发现研究
项目批准号
69903007
学科分类
F020601 信息科学部 _计算机科学 _自然语言理解与机器翻译 _计算语言学
资助类型
信息科学
负责人
周强
依托单位
清华大学
批准年份
1999
起止时间
200001-200212
批准金额
12.00万元
摘要
搭配作为描述词间组合能力的一种重要的词汇知识,在自然语言处理各个应用领域的研究中,包括汉语自动分析、汉外机器翻译、信息抽取和文本检索等,都发挥了重要作用。本项研究主要探索运用汉语自动句法分析和语料库统计技术,从大规模真实文本中自动发现汉语动词的词汇搭配和语法搭配组合,构建大规模的汉语动词搭配知识库。经过三年的努力,我们主要取得了以下研究成果: 1)提出了一套分层次的汉语部分句法信息描述体系,开发完成了不同层次的部分句法信息标注语料库,其中200万汉字的功能语块库在标注规模和信息容量上处于国际领先水平。 2)探索了不同层次的汉语部分分析技术,在基本短语层次取得了较好的实验效果。 3)开发了一套有效的汉语词汇搭配自动获取算法,从6个月的人民日报标注语料库中获取形成了包含50多万搭配词对的汉语动词词汇搭配库。 4)通过知识融合实验,初步形成了包含1万多个记录项的比较完整的汉语动词语法搭配模板描述知识库。 在此基础上对搭配知识获取问题进行更深入的探索,可以将句法语义分析有机结合起来,逐步建立起比较完整的汉语动词句法、词汇、语义描述知识库。
评论区 (0)
#插入话题