广西师范大学学报(自然科学版) ›› 2022, Vol. 40 ›› Issue (3): 31-39.doi: 10.16088/j.issn.1001-6600.2021091504

• 研究论文 • 上一篇    下一篇

中文多模态知识库构建

晁睿, 张坤丽*, 王佳佳, 胡斌, 张维聪, 韩英杰, 昝红英   

  1. 郑州大学 计算机与人工智能学院, 河南 郑州 450001
  • 收稿日期:2021-09-15 修回日期:2021-12-28 出版日期:2022-05-25 发布日期:2022-05-27
  • 通讯作者: 张坤丽(1977—), 女, 河南巩义人, 郑州大学讲师, 博士。E-mail: ieklzhang@zzu.edu.cn
  • 基金资助:
    国家重点研发计划(2017YFB1002101); 国家社科基金重大项目(17ZDA138); 国家自然科学基金(62006211); 河南省科技攻关项目(192102210260); 河南省高等学校重点科研项目(19A520003, 20A520038); 教育部人文社科规划项目(20YJA740033)

Construction of Chinese Multimodal Knowledge Base

CHAO Rui, ZHANG Kunli*, WANG Jiajia, HU Bin, ZHANG Weicong, HAN Yingjie, ZAN Hongying   

  1. School of Computer and Artificial Intelligence, Zhengzhou University, Zhengzhou Henan 450001, China
  • Received:2021-09-15 Revised:2021-12-28 Online:2022-05-25 Published:2022-05-27

摘要: 多模态融合旨在将多个模态信息整合以得到一致、公共的模型输出,是多模态领域的一个基本问题。通过多模态信息的融合能获得更全面的特征并且提高模型鲁棒性,目前多模态融合技术已成为多模态领域核心研究课题之一。本文基于ImageNet、HowNet和CCD,通过人工标注构建了一个新的多模态知识库,已完成校准ImageNet中21 455个名词及动词概念的映射,有效地将HowNet以及CCD中概念映射到ImageNet中。该数据集能够应用于自然语言处理任务和计算机视觉任务,并通过图片信息和概念信息提高任务效果。在图片分类中,通过增加HowNet和ImageNet概念能够融合更多的图片特征来辅助分类;在语义理解中,通过映射增加图片信息可以更好地理解语义。

关键词: 多模态信息, 多模态融合, ImageNet, HowNet, CCD

Abstract: Multi-modal fusion aims to integrate multiple modal information to obtain a consistent and common model output, which is a basic problem in the multi-modal field. Through the fusion of multimodal information, more comprehensive features can be obtained and the robustness of the model can be improved. At present, multimodal fusion technology has become one of the core research topics in the field of multimodality. Based on Imagenet, HowNet and CCD, this paper constructs a new multimodal knowledge base through manual annotation. The calibration has completed the mapping of 21 455 noun concepts in ImageNet, effectively mapping the concepts in HowNet and CCD to ImageNet. The data set can be applied to natural language processing tasks and computer vision tasks, and improve the task effect through picture information and concept information. In image classification, by adding HowNet and ImageNet concepts, more image features can be integrated to assist classification. In semantic understanding, image information can be better understood by adding image information through mapping.

Key words: multimodal infomation, multimodal fusion, ImageNet, HowNet, CCD

中图分类号: 

  • TP391.1
[1]陈鹏, 李擎, 张德政, 等. 多模态学习方法综述[J]. 工程科学学报, 2020, 42(5): 557-569.
[2]RAMACHANDRAM D, TAYLORG W. Deep multimodal learning: a survey on recent advances and trends[J]. IEEE Signal Processing Magazine, 2017, 34(6): 96-108. DOI: 10.1109/MSP.2017.2738401.
[3]DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database[C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition.Piscataway, NJ: IEEE Press, 2009: 248-255. DOI: 10.1109/CVPR.2009.5206848.
[4]董振东, 董强. 知网和汉语研究[J]. 当代语言学, 2001, 3(1): 33-44.
[5]刘杨, 俞士汶, 于江生. CCD语义知识库的构造研究[J]. 小型微型计算机系统, 2005, 26(8): 1411-1415.
[6]赵京胜, 宋梦雪, 高祥. 自然语言处理发展及应用综述[J]. 信息技术与信息化, 2019(7): 142-145.
[7]XIE R B, LIU Z Y, LUAN H B, et al. Image-embodied knowledge representation learning[C]// Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence. Melbourne, Australia: IJCAI, 2017: 3140-3146. DOI: 10.24963/ijcai.2017/438.
[8]ZHANG Q, FU J, LIU X, et al. Adaptive co-attention network for named entity recognition in tweets[C]// Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 5674-5681.
[9]李霞, 卢官明, 闫静杰, 等. 多模态维度情感预测综述[J]. 自动化学报, 2018, 44(12): 2142-2159.
[10]NIU Z X, ZHOU M, WANG L, et al. Hierarchical multimodal LSTM for dense visual-semantic embedding[C]// 2017 IEEE International conference on Computer Vision(ICCV). Los Alamitos, CA: IEEE Computer Society, 2017: 1899-1907. DOI: 10.1109/ICCV.2017.208.
[11]孙影影, 贾振堂, 朱昊宇. 多模态深度学习综述[J]. 计算机工程与应用, 2020, 56(21): 1-10.
[12]MROUEH Y, MARCHERET E, GOEL V. Deep multimodal learning for audio-visual speech recognition[C]// 2015 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP).Piscataway, NJ: IEEE, 2015: 2130-2134. DOI: 10.1109/ICASSP.2015.7178347.
[13]LEI J, WANG L W, SHEN Y L, et al. Mart: memory-augmented recurrent transformer for coherent video paragraph captioning[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 2603-2614. DOI: 10.18653/v1/2020.acl-main.233.
[14]CORNIA M, STEFANINI M, BARALDI L, et al. Meshed-memory transformer for image captioning[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Los Alamitos, CA: IEEE Computer Society, 2020: 10578-10587. DOI: 10.1109/CVPR42600.2020.01059.
[15]韩晶. 基于视听信息融合的语音识别研究[D]. 哈尔滨: 哈尔滨理工大学, 2011.
[16]邓佩,谭长庚. 基于转移变量的图文融合微博情感分析[J]. 计算机应用研究, 2018, 21(7): 124-127.
[17]HUANG F R, ZHANG X M, ZHAO Z H, et al. Image-text sentiment analysis via deep multimodal attentive fusion[J]. Knowledge-Based Systems, 2019, 167: 26-37. DOI: 10.1016/j.knosys.2019.01.019.
[18]TIAN F, WANG Q G, LI X, et al. Heterogeneous multimedia cooperative annotation based on multimodal correlation learning[J]. Journal of Visual Communication and Image Representation, 2019, 58: 544-553. DOI: 10.1016/j.jvcir.2018.12.028.
[19]CHEN C, JAFARI R, KEHTARNAVAZ N. UTD-MHAD: A multimodal dataset for human action recognition utilizing a depth camera and a wearable inertial sensor[C]// 2015 IEEE International conference on image processing(ICIP).Piscataway, NJ: IEEE, 2015: 168-172. DOI: 10.1109/ICIP.2015.7350781.
[20]RINGEVAL F, SONDEREGGER A, SAUER J, et al.Introducing the RECOLA multimodal corpus of remote collaborative and affective interactions[C]// 2013 10th IEEE international conference and workshops on automatic face and gesture recognition(FG). Piscataway, NJ: IEEE, 2013: 1-8. DOI: 10.1109/FG.2013.6553805.
[21]AGRAWAL A, LU J S, ANTOL S, et al. VQA:visual question answering[J]. International Journal of Computer Vision, 2017, 123(1): 4-31. DOI: 10.1007/s11263-016-0966-6.
[22]NILSBACK M E, ZISSERMAN A. Automated flower classification over a large number of classes[C]// 2008 Sixth Indian Conference on Computer Vision, Graphics & Image Processing. Los Alamitos, CA: IEEE Computer Society, 2008: 722-729. DOI: 10.1109/ICVGIP.2008.47.
[23]HEILBRON F C, ESCORCIA V, GHANEM B, et al. Activitynet: a large-scale video benchmark for human activity understanding[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Piscataway, NJ: IEEE, 2015: 961-970. DOI: 10.1109/CVPR.2015.7298698.
[24]HRIPCSAK G, ROTHSCHILD A S. Agreement, the F-measure, and reliability in information retrieval[J]. Journal of the American Medical Informatics Association, 2005, 12(3): 296-298. DOI: 10.1197/jamia.M1733.
[25]CARLETTA J. Assessing agreement on classification tasks: the kappa statistic[J].Computational Linguistics. 1996, 22(2): 249-254.
[26]ARTSTEIN R, POESIO M. Inter-coder agreement for computational linguistics[J]. Computational Linguistics. 2008, 34(4): 555-596. DOI: 10.1162/coli.07-034-R2.
[1] 李正光, 陈恒, 林鸿飞. 基于双向语言模型的社交媒体药物不良反应识别[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 40-48.
[2] 周圣凯, 富丽贞, 宋文爱. 基于深度学习的短文本语义相似度计算模型[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 49-56.
[3] 孙岩松, 杨亮, 林鸿飞. 基于多粒度的分词消歧和语义增强的情景剧幽默识别[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 57-65.
[4] 王健, 郑七凡, 李超, 石晶. 基于ENCODER_ATT机制的远程监督关系抽取[J]. 广西师范大学学报(自然科学版), 2019, 37(4): 53-60.
[5] 宋俊, 韩啸宇, 黄宇, 黄廷磊, 付琨. 一种面向实体的演化式多文档摘要生成方法[J]. 广西师范大学学报(自然科学版), 2015, 33(2): 36-41.
[6] 张芬, 曲维光, 赵红艳, 周俊生. 基于CRF和转换错误驱动学习的浅层句法分析[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 147-150.
[7] 卓广平, 孙静宇, 李鲜花, 余雪丽. 一种基于CBR的个性化推荐算法[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 151-156.
[8] 刘金龙, 郭岩, 余智华, 刘悦, 俞晓明, 程学旗. 基于词聚类的跨媒体突发事件检测方法[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 23-31.
[9] 郑铿涛, 林楠铠, 付颖雯, 王连喜, 蒋盛益. 汉语-印尼语平行语料自动对齐方法研究[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 89-97.
[10] 程显毅, 潘燕, 朱倩, 孙萍. 面向事件的多文档文摘生成算法的研究[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 147-150.
[11] 杨亮, 潘凤鸣, 林鸿飞. 基于组块分析的评价对象识别及其应用[J]. 广西师范大学学报(自然科学版), 2011, 29(1): 151-156.
[12] 周鑫, 郝志峰, 蔡瑞初, 温雯. 带噪声的文本聚类及其在反垃圾邮件中的应用[J]. 广西师范大学学报(自然科学版), 2011, 29(2): 156-160.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 艾艳, 贾楠, 王媛, 郭静, 潘东东. 多性状多位点遗传关联分析的统计方法研究及其应用进展[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 1 -14 .
[2] 白德发, 徐欣, 王国长. 函数型数据广义线性模型和分类问题综述[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 15 -29 .
[3] 曾庆樊, 秦永松, 黎玉芳. 一类空间面板数据模型的经验似然推断[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 30 -42 .
[4] 张治飞, 段谦, 刘乃嘉, 黄磊. 基于Jackknife互信息的高维非线性回归模型研究[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 43 -56 .
[5] 杨迪, 方扬鑫, 周彦. 基于MEB和SVM方法的新类别分类研究[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 57 -67 .
[6] 陈钟秀, 张兴发, 熊强, 宋泽芳. 非对称DAR模型的估计与检验[J]. 广西师范大学学报(自然科学版), 2022, 40(1): 68 -81 .
[7] 杜锦丰, 王海荣, 梁焕, 王栋. 基于表示学习的跨模态检索方法研究进展[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 1 -12 .
[8] 李慕航, 韩萌, 陈志强, 武红鑫, 张喜龙. 面向复杂高效用模式的挖掘算法综述[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 13 -30 .
[9] 李正光, 陈恒, 林鸿飞. 基于双向语言模型的社交媒体药物不良反应识别[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 40 -48 .
[10] 周圣凯, 富丽贞, 宋文爱. 基于深度学习的短文本语义相似度计算模型[J]. 广西师范大学学报(自然科学版), 2022, 40(3): 49 -56 .
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发