广西师范大学学报(自然科学版) ›› 2010, Vol. 28 ›› Issue (1): 127-130.

• • 上一篇    下一篇

一种自适应的Web信息抽取规则自动生成方法

黄锋1,2, 吴华瑞1,2   

  1. 1.国家农业信息化工程技术研究中心,北京 100097;
    2.农业部农业信息技术重点开放实验室,北京 100097
  • 收稿日期:2009-12-20 出版日期:2010-03-20 发布日期:2023-02-07
  • 通讯作者: 吴华瑞(1975—),男,山东冠县人,国家农业信息化工程技术研究中心副研究员。E-mail:wuhr@nercita.org.cn
  • 基金资助:
    国家自然科学基金资助项目(60871042);国家农业部“948”项目(2006-G63);国家863计划资助项目(2007AA10Z235,2007AA01Z179);国家科技支撑计划项目(2008BADA0B05)

An Automatic Generating Method of Adaptable Web Information Extraction Rule

HUANG Feng1,2, WU Hua-rui1,2   

  1. 1. National Engineering Research Center for Information Technology in Agriculture,Beijing 100097,China;
    2. Key Laboratory for Information Technologies in Agriculture,the Ministryof Agriculture,Beijing 100097,China
  • Received:2009-12-20 Online:2010-03-20 Published:2023-02-07

摘要: 提出一种自适应的Web信息抽取规则自动生成方法,通过多样本页面对比模式和单样本重复模式提取Web上复合类型的数据并进行迭代修正,基于语义分析的规则方法进行动态抽取。实验结果表明,该方法具有较好的精确性和鲁棒性。

关键词: 信息抽取, 语义分析, 自适应方法

Abstract: An automatic generating method of adaptable Web information extraction rule is proposed,which extracts data of complex type on the Web andrevises iteration by comparing with multi-sampling page and discovering repeatpattern in one-sample and extracts dynamic base on method of semantic analysisrules.Experimental results show that the method performs well in both precision and robustness.

Key words: information extraction, semantic analysis, adaptive approach

中图分类号: 

  • TP391
[1] 徐铁,耿佳宁.网页信息抽取方法的研究[J].信息技术,2009(4):112-115.
[2] 李洋.基于Web的信息抽取研究[J].吉林工程技术师范学院学报,2007,23(12):70-71.
[3] 何召卫,陈俊亮.基于本体关系匹配的信息抽取[J].计算机工程,2007(21):207-209.
[4] 陆剑江,钱培德.基于语料的Web页面抽取器的研究与实现[J].计算机工程,2003(6):34-35.
[5] 陈华,梁循,杨健.面向专题的智能化中文搜索引擎[J].广西师范大学学报:自然科学版,2007,25(2):103-106.
[6] 任玉,樊勇,郑家恒.基于分块的网页主题文本抽取[J].广西师范大学学报:自然科学版,2009,27(1):141-144.
[1] 万福成,马宁,何向真. 融合事件特征及语义角色标注的藏文信息抽取技术[J]. 广西师范大学学报(自然科学版), 2018, 36(2): 18-23.
[2] 张春元. 基于CRFs的新闻网页主题内容自动抽取方法[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 138-142.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 陈永淇, 白克钊, 邝华, 孔令江, 刘慕仁. 教室内布局对人员疏散影响的研究[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 1 -4 .
[2] 许伦辉, 叶凡. 基于横、轴、竖加速度干扰模型的行车舒适性评价[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 5 -9 .
[3] 阳丽, 孔令江. 微纳米球形颗粒之间的毛细力研究[J]. 广西师范大学学报(自然科学版), 2012, 30(1): 1 -4 .
[4] 贺青, 刘剑, 韦联福. 微弱电磁信号的物理极限检测:单光子探测器及其研究进展[J]. 广西师范大学学报(自然科学版), 2022, 40(5): 1 -23 .
[5] 白克钊, 罗旭东, 孔令江, 刘慕仁. 开放边界条件下一种数据传输元胞自动机模型[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 1 -4 .
[6] 许伦辉, 廖燃火昆. 基于车流轨迹的交叉口相位相序优化[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 5 -9 .
[7] 王修信, 秦丽梅, 农京辉, 梁宗经, 朱启疆. 利用单窗算法反演喀斯特城市地表温度[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 10 -14 .
[8] 黎玉芳, 张军舰. NA样本回归函数估计的强相合性[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 15 -19 .
[9] 贾保华. 一个不满足中心极限定理的严平稳相伴随机序列[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 20 -23 .
[10] 陈翠玲, 李明, 梁家梅, 李略. Wolfe线搜索下一类新的共轭梯度法及其收敛性[J]. 广西师范大学学报(自然科学版), 2010, 28(3): 24 -28 .
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发