广西师范大学学报(自然科学版) ›› 2011, Vol. 29 ›› Issue (1): 143-146.

• • 上一篇    下一篇

一种基于本体的文本特征选取方法

陈振亚1, 陈光辉2, 徐建民3   

  1. 1.河北大学图书馆,河北保定071002;
    2.中国银行衡水分行,河北衡水053003;
    3.河北大学数学与计算机学院,河北保定071002
  • 收稿日期:2010-11-15 发布日期:2018-11-16
  • 通讯作者: 徐建民(1966—),男,河北馆陶人,河北大学教授,博士。E-mail: yy.csi@hbu.cn
  • 基金资助:
    国家自然科学基金资助项目(70571056);中国博士后科学基金(20070420700);河北省自然科学基金资助项目(F2011201146)

A Selection Method of Ontology-based Text Feature

CHEN Zhen-ya1, CHEN Guang-hui2, XU Jian-min3   

  1. 1.Library,Hebei University,Baoding Hebei 071002,China;
    2.Branchof Hengshui,Bank of China,HengshuiHebei 053003,China;
    3.College of Mathematics and Computer,Hebei University,Baoding Hebei 071002,China
  • Received:2010-11-15 Published:2018-11-16

摘要: 传统的文本特征选取方法和赋权方法没有考虑术语之间语义关系,由此引起的特征项权重变化得不到合理反映。针对这个不足,提出一种基于本体的文本特征选取方法。通过将本体引入到特征选取中,将特征项映射到概念,对特征项的权重进行加权调整,使得选取的文本特征能够更好地反映文本内容。最后通过实验,说明该方法的有效性,能够在一定程度上提高特征提取的准确性。

关键词: 特征选取, 本体概念, 映射

Abstract: The traditional text feature selecting and weightingmethods don't take into consideration the semantic relationship between terms,sothat the weight of features cannot be reflected.In this paper,one weighting methodof ontology-based feature is presented,which solves the problems mentioned above.By mapping feature item to concept and then adjusting the weight of the feature item,the selected feature can better reflect the text characteristics.At last,to illustrate the effectiveness of the method,the paper introduces an example,which shows that it can improve the accuracy of feature extraction to a certain extent.

Key words: feature selection, ontology concept, mapping

中图分类号: 

  • TP391
[1] 吕震宇,林永民,赵爽,等.基于同义词词林的文本特征选择与加权研究[J].情报杂志,2008(5):130-132.
[2] 林东文,白清源,谢丽聪,等.一种基于本体论的文本特征选取方法[J].计算机科学,2008,35(3):152-154.
[3] 唐晓文.基于本体论的文本特征提取[J].电脑与信息技术,2005,13(1):36-38.
[4] 伍建军,康耀红.文本分类中特征选择方法的比较和改进[J].郑州大学学报:理学版,2007,39(2):110-113.
[5] 呼声波,刘希玉.网页分类中特征提取方法的比较与改进[J].山东师范大学学报:自然科学版,2008,23(3):35-37,53.
[6] STUDER R,BENJAMINS V R,FENSEL D.Knowledge engineering:principles and methods[J].Data and Knowledge Engineering,1998,25(1/2):161-197.
[7] 肖宝,施雅贤,蒋运承.基于语义的旅游信息搜索引擎[J].广西师范大学学报:自然科学版,2009,27(3):138-141.
[8] 罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033.
[9] 肖洪.面向知识组织与检索的SCORM语义化研究[D].北京:北京大学信息管理系,2006.
[10] 徐建民,刘清江,付婷婷.基于量化同义词关系的改进特征词提取方法[J].河北大学学报:自然科学版,2010,30(1):97-101.
[11] XU Jian-min,TIAN Jin-kun,ZHANG Yan-chun,et al.Using ontology evidences to extend belief network IR model[C]//2010 International Conference onComputer Application and System Modeling (ICCASM).Washington DC:IEEE Computer Society,2010:31-35.
[1] 孙祚晨, 王麒翰, 龙波涌. 单叶调和函数的一个子类[J]. 广西师范大学学报(自然科学版), 2020, 38(1): 54-59.
[2] 刘铭, 张双全, 何禹德. 基于改进SOM神经网络的异网电信用户细分研究[J]. 广西师范大学学报(自然科学版), 2018, 36(3): 17-24.
[3] 庞 杨,韦煜明,冯春华. 一类分数阶微分方程两点边值问题正解的存在性[J]. 广西师范大学学报(自然科学版), 2017, 35(4): 68-75.
[4] 韦扬江, 梁艺耀, 唐高华, 苏磊磊, 陈蔚凝. 模n高斯整数环的商环的立方映射图[J]. 广西师范大学学报(自然科学版), 2016, 34(3): 53-61.
[5] 冯嘉礼, 毕经迎. 基于属性论的肺癌细胞识别[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 183-186.
[6] 罗辛, 潘乔, 王洪亚, 陈美, 北研二. 基于SOFM的高速图像检索算法实现[J]. 广西师范大学学报(自然科学版), 2011, 29(2): 180-184.
[7] 冯嘉礼, 杨润泽. 属性论方法在图像分割中的应用研究[J]. 广西师范大学学报(自然科学版), 2011, 29(2): 191-194.
[8] 周炎岩, 冯嘉礼. 基于定性映射的数字音频水印算法[J]. 广西师范大学学报(自然科学版), 2011, 29(2): 200-204.
[9] 孟鑫, 范钦杰, 王宏仁. 集值离散动力系统的拓扑遍历性与链遍历性[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 20-23.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发