|
广西师范大学学报(自然科学版) ›› 2011, Vol. 29 ›› Issue (1): 133-137.
夏天1,2
XIA Tian1,2
摘要: 本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,并进行修正形成正文区域;通过近邻优先遍历算法,实现标题节点的定位和附加属性的抽取。实验结果表明:该方法可以实现常规文章类网页的高精度抽取,并具有良好的适应性。
中图分类号:
[1] 刘兵.Web数据挖掘[M].北京:清华大学出版社,2009:231-274. [2] KUSHMERICK N.Wrapper induction for information extraction[D].Seattle:University of Washington,1997. [3] SUHIT G,GAIL K,DAVID N,et al.DOM-based content extraction of HTMLdocuments[C]//Proceedings of the 12th international conference on World WideWeb.New York:ACM Press,2003:207-214. [4] 王琦,唐世渭,杨冬清,等.基于DOM的网页主题信息自动抽取[J].计算机研究与发展,2004,41(10):1786-1792. [5] 任玉,樊勇,郑家恒.基于分块的网页主题文本抽取[J].广西师范大学学报:自然科学版,2009,27(1):141-144. [6] CAI Deng,YU Shi-peng,WEN Ji-rong,et al.VIPS:a vision-basedpage segmentation algorithm:MSR-TR-2003-79[R].Beijing:Microsoft Research,2003. [7] 张霞亮,陈家骏.基于逻辑行和最大接纳距离的网页正文抽取[J].计算机工程与应用,2009,45(25):125-128. [8] 王利,刘宗田,王燕华,等.基于内容相似度的网页正文提取[J].计算机工程,2010,36(6):102-104. [9] VNIKIC.HtmlCleaner[EB/OL].(2008-09-02)[2010-11-01].http://htmlcleaner.sourceforge.net/. [10] 汉语言智能实验室.新闻类网页正文提取在线演示系统[EB/OL].(2009-08-16)[2010-11-01].http://dm.griddss.c-n/contentdemo.aspx. |
[1] | 李双群, 徐久成, 张灵均, 李晓艳. 基于相容粒的彩色图像检索算法[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 173-178. |
[2] | 李丽娜, 余正涛, 王亚盛, 毛存礼, 郭剑毅. 中文专家实体主页识别方法研究[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 157-161. |
[3] | 崔林卫, 苏伟, 郭卫, 李廉. 基于Nutch的Web数学公式提取[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 167-172. |
[4] | 唐楠, 杨志豪, 吴佳金, 王艳华, 林鸿飞. 基于监督学习的蛋白质络合物抽取方法[J]. 广西师范大学学报(自然科学版), 2011, 29(2): 174-179. |
[5] | 罗辛, 潘乔, 王洪亚, 陈美, 北研二. 基于SOFM的高速图像检索算法实现[J]. 广西师范大学学报(自然科学版), 2011, 29(2): 180-184. |
|
版权所有 © 广西师范大学学报(自然科学版)编辑部 地址:广西桂林市三里店育才路15号 邮编:541004 电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn 本系统由北京玛格泰克科技发展有限公司设计开发 |