广西师范大学学报(自然科学版) ›› 2011, Vol. 29 ›› Issue (1): 138-142.

• • 上一篇    下一篇

基于CRFs的新闻网页主题内容自动抽取方法

张春元   

  1. 海南大学信息科学技术学院,海南海口570228
  • 收稿日期:2010-12-29 发布日期:2018-11-16
  • 通讯作者: 张春元(1973—),男,湖北武汉人,海南大学讲师,硕士。E-mail: zhangcy@hainu.edu.cn
  • 基金资助:
    国家自然科学基金资助项目(60863001)

Automatic Web News Content Extraction Based on CRFs

ZHANG Chun-yuan   

  1. College of Information Science and Technology,Hainan University,Haikou Hainan 570228,China
  • Received:2010-12-29 Published:2018-11-16

摘要: 针对当前新闻网页主题内容抽取方法较少利用网页块之间关联特性这一问题,提出了一种基于条件随机场(CRFs)的新闻网页主题内容自动抽取方法。该方法首先将待抽取网页解析成DOM树,经过滤、剪枝以及压缩处理后,然后按照一定的启发式规则将DOM树切割成块并转换成为一个数据序列,再定义CRFs特征函数来提取各网页块自身状态特征和相邻块间类别转移特征,通过CRFs模型对数据序列进行类别标注来实现网页主题内容的抽取。实验表明,该方法对新闻网页主题内容的抽取具有较高检准率和较强适应能力,引入块间关联特性可改善新闻网页主题内容的抽取。

关键词: Web信息抽取, 条件随机场, 网页分块

Abstract: Most previous works on Web information extraction seldom use associations among Web page blocks.In order to solve this problem,this paper proposes an automatic Web news content extraction approach based on conditional random fields (CRFs).Firstly,it parses a target news page to a DOM tree.After eliminating invalid nodes,pruning subtrees and deleting single nodes in the tree,it uses heuristic rules to segment the DOM tree to blocks and converts theseblocks into a data sequence.Then,it defines feature functions to extract each block's own state features and neighbor blocks' category transition features.Finally,by labeling the data sequence based on CRFs,it identifies each block's category to extract the page's content.Experimental results indicate that this approach is precise and adaptable for Web news content extraction,and importing associations among page blocks can improve Web news content extraction.

Key words: Web information extraction, conditional random fields, Web page segmentation

中图分类号: 

  • TP391
[1] 胡飞.基于标记树的Web页面区域划分和搜索方法[J].计算机学报,2005,32(8):182-185.
[2] 于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976.
[3] 刘晨曦,吴扬扬.一种基于块分析的网页去噪方法[J].广西师范大学学报:自然科学版,2007,25(2):149-152.
[4] 黄文蓓,杨静,顾君忠.基于分块的网页正文内容提取算法研究[J].计算机应用,2007,27(6):24-26.
[5] 时达明,林鸿飞,杨志豪.基于网页框架和规则的网页噪音去除方法[J].计算机工程,2007,33(19):276-278.
[6] ZHENG Shu-yi,SONG Rui-hua,WEN Ji-rong.Template-independent news extraction based on visual consistency[C]//Proceedings of the 22nd NationalConference on Artificial Intelligence.Menlo Park,CA:AAAI Press,2007:1507-1513.
[7] LAFFERTY J,MCCALLUM A,PEREIRA F.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//Proceedings of 18th International Conference on Machine Learning.San Fransisco:Morgan Kaufmann Publishers Inc,2001:282-289.
[8] 黄健斌,姬红兵,孙鹤立.基于混合跳链随机场的异构Web记录集成方法[J].软件学报,2008,19(8):2149-2158.
[9] SHA F,PEREIRA F.Shallow parsing with conditional random fields[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology.Stroudsburg,PA:Association for Computational Linguistics,2003:131-14
[1] 张灿龙, 李燕茹, 李志欣, 王智文. 基于核相关滤波与特征融合的分块跟踪算法[J]. 广西师范大学学报(自然科学版), 2020, 38(5): 12-23.
[2] 王健, 郑七凡, 李超, 石晶. 基于ENCODER_ATT机制的远程监督关系抽取[J]. 广西师范大学学报(自然科学版), 2019, 37(4): 53-60.
[3] 肖逸群, 宋树祥, 夏海英. 基于多特征的快速行人检测方法及实现[J]. 广西师范大学学报(自然科学版), 2019, 37(4): 61-67.
[4] 王勋, 李廷会, 潘骁, 田宇. 基于改进模糊C均值聚类与Otsu的图像分割方法[J]. 广西师范大学学报(自然科学版), 2019, 37(4): 68-73.
[5] 陈凤,蒙祖强. 基于BTM和加权K-Means的微博话题发现[J]. 广西师范大学学报(自然科学版), 2019, 37(3): 71-78.
[6] 张随远, 薛源海, 俞晓明, 刘悦, 程学旗. 多文档短摘要生成技术研究[J]. 广西师范大学学报(自然科学版), 2019, 37(2): 60-74.
[7] 孙容海, 施林甫, 黄丽艳, 唐振军, 俞春强. 基于图像插值和参考矩阵的可逆信息隐藏算法[J]. 广西师范大学学报(自然科学版), 2019, 37(2): 90-104.
[8] 朱勇建, 彭柯, 漆广文, 夏海英, 宋树祥. 基于机器视觉的太阳能网版缺陷检测[J]. 广西师范大学学报(自然科学版), 2019, 37(2): 105-112.
[9] 王祺, 邱家辉, 阮彤, 高大启, 高炬. 基于循环胶囊网络的临床语义关系识别研究[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 80-88.
[10] 武文雅, 陈钰枫, 徐金安, 张玉洁. 基于高层语义注意力机制的中文实体关系抽取[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 32-41.
[11] 岳天驰, 张绍武, 杨亮, 林鸿飞, 于凯. 基于两阶段注意力机制的立场检测方法[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 42-49.
[12] 余传明, 李浩男, 安璐. 基于多任务深度学习的文本情感原因分析[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 50-61.
[13] 林原, 刘海峰, 林鸿飞, 许侃. 基于损失函数融合的组排序学习方法[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 62-70.
[14] 万福成,马宁,何向真. 融合事件特征及语义角色标注的藏文信息抽取技术[J]. 广西师范大学学报(自然科学版), 2018, 36(2): 18-23.
[15] 夏海英,刘伟涛,朱勇建. 一种改进的快速SUSAN棋盘格角点检测算法[J]. 广西师范大学学报(自然科学版), 2018, 36(1): 44-52.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发