一种自适应的Web信息抽取规则自动生成方法

广西师范大学学报（自然科学版） ›› 2010, Vol. 28 ›› Issue (1): 127-130.

一种自适应的Web信息抽取规则自动生成方法

黄锋^1,2, 吴华瑞^1,2

1.国家农业信息化工程技术研究中心,北京 100097;
2.农业部农业信息技术重点开放实验室,北京 100097

收稿日期:2009-12-20 出版日期:2010-03-20 发布日期:2023-02-07
通讯作者: 吴华瑞(1975—),男,山东冠县人,国家农业信息化工程技术研究中心副研究员。E-mail:wuhr@nercita.org.cn
基金资助:
国家自然科学基金资助项目(60871042);国家农业部“948”项目(2006-G63);国家863计划资助项目(2007AA10Z235,2007AA01Z179);国家科技支撑计划项目(2008BADA0B05)

An Automatic Generating Method of Adaptable Web Information Extraction Rule

HUANG Feng^1,2, WU Hua-rui^1,2

1. National Engineering Research Center for Information Technology in Agriculture,Beijing 100097,China;
2. Key Laboratory for Information Technologies in Agriculture,the Ministryof Agriculture,Beijing 100097,China

Received:2009-12-20 Online:2010-03-20 Published:2023-02-07

摘要/Abstract

摘要： 提出一种自适应的Web信息抽取规则自动生成方法,通过多样本页面对比模式和单样本重复模式提取Web上复合类型的数据并进行迭代修正,基于语义分析的规则方法进行动态抽取。实验结果表明,该方法具有较好的精确性和鲁棒性。

关键词: 信息抽取, 语义分析, 自适应方法

Abstract: An automatic generating method of adaptable Web information extraction rule is proposed,which extracts data of complex type on the Web andrevises iteration by comparing with multi-sampling page and discovering repeatpattern in one-sample and extracts dynamic base on method of semantic analysisrules.Experimental results show that the method performs well in both precision and robustness.

Key words: information extraction, semantic analysis, adaptive approach

中图分类号:

TP391

黄锋, 吴华瑞. 一种自适应的Web信息抽取规则自动生成方法[J]. 广西师范大学学报（自然科学版）, 2010, 28(1): 127-130.

HUANG Feng, WU Hua-rui. An Automatic Generating Method of Adaptable Web Information Extraction Rule[J]. Journal of Guangxi Normal University(Natural Science Edition), 2010, 28(1): 127-130.

参考文献

[1] 徐铁,耿佳宁.网页信息抽取方法的研究[J].信息技术,2009(4):112-115.
[2] 李洋.基于Web的信息抽取研究[J].吉林工程技术师范学院学报,2007,23(12):70-71.
[3] 何召卫,陈俊亮.基于本体关系匹配的信息抽取[J].计算机工程,2007(21):207-209.
[4] 陆剑江,钱培德.基于语料的Web页面抽取器的研究与实现[J].计算机工程,2003(6):34-35.
[5] 陈华,梁循,杨健.面向专题的智能化中文搜索引擎[J].广西师范大学学报:自然科学版,2007,25(2):103-106.
[6] 任玉,樊勇,郑家恒.基于分块的网页主题文本抽取[J].广西师范大学学报:自然科学版,2009,27(1):141-144.

Metrics

Viewed

Full text

Abstract

Cited

Shared

Discussed

本文评价

推荐阅读 10

[1]	陈永淇, 白克钊, 邝华, 孔令江, 刘慕仁. 教室内布局对人员疏散影响的研究[J]. 广西师范大学学报（自然科学版）, 2011, 29(1): 1 -4 .
[2]	许伦辉, 叶凡. 基于横、轴、竖加速度干扰模型的行车舒适性评价[J]. 广西师范大学学报（自然科学版）, 2011, 29(1): 5 -9 .
[3]	阳丽, 孔令江. 微纳米球形颗粒之间的毛细力研究[J]. 广西师范大学学报（自然科学版）, 2012, 30(1): 1 -4 .
[4]	贺青, 刘剑, 韦联福. 微弱电磁信号的物理极限检测:单光子探测器及其研究进展[J]. 广西师范大学学报（自然科学版）, 2022, 40(5): 1 -23 .
[5]	白克钊, 罗旭东, 孔令江, 刘慕仁. 开放边界条件下一种数据传输元胞自动机模型[J]. 广西师范大学学报（自然科学版）, 2010, 28(3): 1 -4 .
[6]	许伦辉, 廖燃火昆. 基于车流轨迹的交叉口相位相序优化[J]. 广西师范大学学报（自然科学版）, 2010, 28(3): 5 -9 .
[7]	王修信, 秦丽梅, 农京辉, 梁宗经, 朱启疆. 利用单窗算法反演喀斯特城市地表温度[J]. 广西师范大学学报（自然科学版）, 2010, 28(3): 10 -14 .
[8]	黎玉芳, 张军舰. NA样本回归函数估计的强相合性[J]. 广西师范大学学报（自然科学版）, 2010, 28(3): 15 -19 .
[9]	贾保华. 一个不满足中心极限定理的严平稳相伴随机序列[J]. 广西师范大学学报（自然科学版）, 2010, 28(3): 20 -23 .
[10]	陈翠玲, 李明, 梁家梅, 李略. Wolfe线搜索下一类新的共轭梯度法及其收敛性[J]. 广西师范大学学报（自然科学版）, 2010, 28(3): 24 -28 .