广西师范大学学报(自然科学版) ›› 2011, Vol. 29 ›› Issue (4): 28-34.

• • 上一篇    下一篇

从百度百科挖掘领域知识相关度

胡婕茹1, 杨小平1, 黄都培2   

  1. 1.中国人民大学信息学院,北京100872;
    2.中国政法大学科学技术教学部,北京100088
  • 收稿日期:2011-09-07 发布日期:2018-11-16
  • 通讯作者: 杨小平(1956—),男,福建福州人,中国人民大学教授。E-mail:yang@ruc.edu.cn
  • 基金资助:
    国家自然科学基金资助项目(70871115);法律信息元数据及其语义检索研究规划基金资助项目(08JA820039)

Mining Relevance between Domains Via Baidupedia

HU Jie-ru1, YANG Xiao-ping1, HUANG Du-pei2   

  1. 1.School of Information,Renmin University of China,Beijing 100872,China;
    2.Education Department of Technology,China University of Political Scienceand Law,Beijing 100088,China
  • Received:2011-09-07 Published:2018-11-16

摘要: 本文提出利用百度百科这个开放的中文知识百科全书来计算知识领域间关联度的方法。通过抽取百度百科中词条的解释和分类信息,并经过分词以后,我们可以用向量空间模型(VSM)量化分类中的词条,然后提出用领域内词条的关联矩阵迭代的方法来计算单个领域中各个词条的权重。要计算2个领域的相关度,首先要分别算出它们各自领域中每个词条的权重,而后通过扩展向量空间的方式把它们的概念空间扩展为一个公共的向量空间,并在此公共向量空间中用余弦夹角的方法计算2个领域的相关度。该研究成果可以辅助我们发现领域间的关联,加快不同领域间知识的融合。

关键词: 领域知识, 相关度, Web挖掘, 百度百科

Abstract: As modern society diversification develops,interdisciplinary studies have turned out to be the inherent need of this irreversible trend.But the problem is that there are thousands of well-developed subjects in the world and the discoveryof possibility to integrate different domains can only be handled by specialists in different domains separately.The reason for this is obviously that no one can master all knowledge in all domains.Therefore,an algorithm should be broughtout to calculate the relevance between two domains.By this method,it can figureout which domain is more relevant with a specified domain,and thus it might be possible to start a cross-domain research or build up a new subject.

Key words: domain knowledge, relevance, Web mining, baidupedia

中图分类号: 

  • TP182
[1] 周循.基于领域知识的面向分类的属性泛化研究[D].合肥:合肥工业大学计算机与信息学院,2008.
[2] 杨立.基于领域知识的知识发现研究[D].北京:中国科学院研究生院软件研究所,2005.
[3] YIN Shi-qun,QIU Yu-hui,ZHONG Cheng-wen,et al.Study of Web information extraction and classification method[C]//Proceedings of 2007 International Conference on Wireless Communications,Networking and Mobile Computing.Los Alamitos,CA:IEEE Computer Society,2007:5548-5552.
[4] HU Xue-gang,HU Xie-fei,WANG De-xing,et al.A classification algorithm based on multi-relation domain knowledge[C]//Proceedings of 2005 International Conference on Machine Learning and Cybernetics:Vol 4.Los Alamitos,CA:IEEE Computer Society,2005:2067-2072.
[5] 邢丽莉.基于Web的中文文本分类技术的研究[D].邯郸:河北工程大学信息与电气工程学院,2008.
[6] 尹世群.Web文本分类关键技术研究[D].重庆:西南大学计算机与信息科学学院,2008.
[7] 秦玉平.基于支持向量机的文本分类算法研究[D].大连:大连理工大学软件学院,2008.
[1] 唐素勤, 黄运有, 王娜娜. 基于依存语法及本体技术的问句分析[J]. 广西师范大学学报(自然科学版), 2014, 32(4): 52-58.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发