|
广西师范大学学报(自然科学版) ›› 2010, Vol. 28 ›› Issue (1): 127-130.
黄锋1,2, 吴华瑞1,2
HUANG Feng1,2, WU Hua-rui1,2
摘要: 提出一种自适应的Web信息抽取规则自动生成方法,通过多样本页面对比模式和单样本重复模式提取Web上复合类型的数据并进行迭代修正,基于语义分析的规则方法进行动态抽取。实验结果表明,该方法具有较好的精确性和鲁棒性。
中图分类号:
[1] 徐铁,耿佳宁.网页信息抽取方法的研究[J].信息技术,2009(4):112-115. [2] 李洋.基于Web的信息抽取研究[J].吉林工程技术师范学院学报,2007,23(12):70-71. [3] 何召卫,陈俊亮.基于本体关系匹配的信息抽取[J].计算机工程,2007(21):207-209. [4] 陆剑江,钱培德.基于语料的Web页面抽取器的研究与实现[J].计算机工程,2003(6):34-35. [5] 陈华,梁循,杨健.面向专题的智能化中文搜索引擎[J].广西师范大学学报:自然科学版,2007,25(2):103-106. [6] 任玉,樊勇,郑家恒.基于分块的网页主题文本抽取[J].广西师范大学学报:自然科学版,2009,27(1):141-144. |
[1] | 万福成,马宁,何向真. 融合事件特征及语义角色标注的藏文信息抽取技术[J]. 广西师范大学学报(自然科学版), 2018, 36(2): 18-23. |
[2] | 张春元. 基于CRFs的新闻网页主题内容自动抽取方法[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 138-142. |
|
版权所有 © 广西师范大学学报(自然科学版)编辑部 地址:广西桂林市三里店育才路15号 邮编:541004 电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn 本系统由北京玛格泰克科技发展有限公司设计开发 |