广西师范大学学报(自然科学版) ›› 2011, Vol. 29 ›› Issue (1): 109-115.

• • 上一篇    下一篇

搜索引擎日志中“V+N1+N2”型短语研究

吕学强, 舒燕, 孙立华, 程涛   

  1. 北京信息科技大学中文信息处理研究中心,北京100101
  • 收稿日期:2010-11-07 发布日期:2018-11-16
  • 通讯作者: 吕学强(1970—),男,山东鱼台人,北京信息科技大学副教授,博士。E-mail: lv.xueqiang@trs.com.cn
  • 基金资助:
    国家社会科学基金资助项目(09CYY021)

Phrase of “V+N1+N2” Structure in Search Engine Query Logs

LU·· Xue-qiang, SHU Yan, SUN Li-hua, CHENG Tao   

  1. Chinese Information Processing Research Center,Beijing Information Science and Technology University,Beijing 100101,China
  • Received:2010-11-07 Published:2018-11-16

摘要: 搜索引擎用短语词典能够有效地改善和提高信息检索的性能,“V+N1+N2”型结构是一种常见汉语短语结构。本文基于搜狗语料,分别从各组成要素特点、语义特征以及句法功能,对“V+N1+N2”型动词短语和名词短语进行统计分析和相关数据处理。针对不同语义关系,在不改变原语义的条件下,提出了相应的转换模式,为搜索引擎用短语词典的构建提供了理论支撑。

关键词: 搜索引擎, 信息检索, “V+N1+N2”型结构, 语义特征, 句法功能

Abstract: Phrase dictionary used in search engine can effectively improve and enhance the performance of information retrieval.“V+N1+N2”structure is a common phrase structure in Modern Chinese.This paper,based on Sogou log corpus,analyzes the “V+N1+N2” verb and the noun phrases and presents the processes of relational data from the perspective of the characteristics of constructional elements,semantic features and syntactic function.In terms of not changing the original semantic based on different semantic relations,thisarticle proposes a corresponding transformation model and provides a further theoretical support for phrase dictionary building of future search engines.

Key words: search engine, information retrieval, “V+N1+N2”structure, semantic features, syntactic function

中图分类号: 

  • TP391
[1] JANSEN B J,SPINK A,SARACEVIC T.Real life,real users,and real needs:a study and analysis of user queries on the web[J].Information Processing andManagement,2000,36:207-227.
[2] XIE Ying-lian,O`HALLARON D.Locality in search engine queries andits implications for caching[C]//Proc IEEE Infocom 2002.New York:IEEE Press,2002:1238-1247.
[3] OZMUTLU S,SPINK A,OZMUTLU H.A day in the life of web searching:an exploratory study[J].Information Processing and Management,2004,40:319-345.
[4] 窦志成,袁晓浩,何松柏.大规模中文搜索日志中查询重复性分析[J].计算机工程,2008,34(21):40-44.
[5] 赖茂生,屈鹏.搜索引擎查询日志的词性标注和挖掘研究[J].现代图书情报技术,2009,177(4):50-56.
[6] 许静芳,李星,李奥.信息检索中主题式词典的构建方法[J].计算机工程,2005,31(21):143-145.
[7] 金锡馍.关于“VN1+N2”语言结构的语法分析[J].湘潭师范学院学报,1999,20(5):89-94.
[8] 刘大为.关于动宾带宾现象的一些思考(上)[J].语文建设,1998,17(1):22-26.
[9] 刁晏斌.当代汉语中新的“名1+名2”形式——名词陈述化的一种新形式[J].语言与翻译(汉文),2005,84(4):23-27.
[10] 高苗红.面向中文信息处理的V+N结构句法与语义关系研究[D].河北:河北大学中文系,2008.
[11] 孙艳.“名词1+名词2”形式研究[J].语文学刊,2009,19(9):119-121.
[12] 杨炎华.名词的指称义对名词配价的影响[J].汉语学报,2009,28(4):87-92.
[13] 陈芙.现代汉语两种黏合式名词性结构:“VN1N2”“N1VN2”[D].河南:河南大学文学院,2007.
[14] 王惠,詹卫东,俞士汶.“现代汉语语义词典”的结构及应用[J].语言文字应用,2006,15(1):135-141.
[15] 郝长留.近代汉语短语的句法功能[J].河南教育学院学报,1999,68(2):78-83.
[16] 张美霞,吕志敏.“名词+名词”无标记比况短语语义和句法功能考察[J].南京师大学报:社会科学版,2009(5):143-151.
[1] 葛奕飞, 郑彦斌. 带有纠删或纠错性质的隐私保护信息检索方案[J]. 广西师范大学学报(自然科学版), 2020, 38(3): 33-44.
[2] 林原, 刘海峰, 林鸿飞, 许侃. 基于损失函数融合的组排序学习方法[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 62-70.
[3] 肖诗斌, 赵红改, 王洪俊, 吕学强. 搜索引擎日志中“N1+N2+V”型名词短语研究[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 116-122.
[4] 崔林卫, 苏伟, 郭卫, 李廉. 基于Nutch的Web数学公式提取[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 167-172.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发