广西师范大学学报(自然科学版) ›› 2020, Vol. 38 ›› Issue (6): 40-50.doi: 10.16088/j.issn.1001-6600.2020.06.005

• • 上一篇    下一篇

基于自适应局部特征的蛋白质三维结构分类

张汝昌1, 邱杰2*, 王明堂2, 陈庆锋1*   

  1. 1.广西大学 计算机与电子信息学院, 广西南宁530004;
    2.玉林师范学院计算机科学与工程学院, 广西玉林537000
  • 收稿日期:2020-03-30 发布日期:2020-11-30
  • 通讯作者: 陈庆锋(1972—), 男, 广西柳州人, 广西大学教授, 博士。 E-mail: qingfeng@gxu.edu.cn;邱杰(1987—), 男, 广西北流人, 玉林师范学院讲师。 E-mail: jgxyqj@126.com
  • 基金资助:
    国家自然科学基金(61963004);广西自然科学基金重点项目(2017GXNSFDA19803);广西重点研发计划(桂科AB17195055)

Classification of Protein 3D Structure Based on Adaptive Local Features

ZHANG Ruchang1, QIU Jie2*, WANG Mingtang2, CHEN Qingfeng1*   

  1. 1. School of Computer Electronics and Information, Guangxi University, Nanning Guangxi 530004, China;
    2. School of Computer Science and Engineering, Yulin Normal University, Yulin Guangxi 537000, China
  • Received:2020-03-30 Published:2020-11-30

摘要: 蛋白质的三维空间结构决定该蛋白质的生物功能,研究蛋白质结构的相似性在计算分子生物学中具有重要意义。本文将蛋白质Cα原子距离矩阵分解成许多小的子矩阵表示蛋白质的局部结构,通过对这些局部结构的统计分析得到局部特征频率向量计算蛋白质的相似性,在此基础上提出一种新的基于自适应局部特征频率向量的方法(ALFF)计算蛋白质三维结构相似性。ALFF在选取蛋白质局部特征的方式上,使用OTSU算法确定局部特征最合适的大小m,并通过MeanShift聚类计算出具有代表性的局部特征数量k。实验结果表明,ALFF可以更好更快地划分蛋白质的局部子结构,相对于人工选择参数的方法,ALFF在SCOP蛋白质结构分类中有更高的一致性,与TM-score比较有更好的准确性。

关键词: 蛋白质结构相似性, 局部特征, 距离矩阵, 聚类, 频率向量

Abstract: The three-dimensional spatial structure of protein determine its biological function. Structural similarity between proteins can be a good predictor of functional correlations. In this paper, the Cα atomic distance matrix of protein is decomposed into many small sub-matrices that represent the local structure of the protein. Through the statistical analysis of these local structures, a local feature frequency vector is obtained to calculate the similarity of the protein. Consequently, a new method to measure the similarity of protein structure by adaptive local feature frequency vector (ALFF) is proposed. In the way of selecting the local features of protein in ALFF, OTSU is adopted to determine the most appropriate size of the local features m, and MeanShift is applied to find the representative number of local features k, respectively. Experimental results demonstrate that ALFF can achieve better and faster division of the local substructures of proteins. In addition, compared with the method of manual selection of parameters, ALFF has higher consistency in protein structure classification and better accuracy in TM-score comparison.

Key words: protein structural similarity, local feature, distance matrix, clustering, frequency vector

中图分类号: 

  • TP39
[1] GAN J Z, QIU J, DENG C S, et al. KSIMC: predicting kinase-substrate interactions based on matrix completion[J]. International Journal of Molecular Sciences, 2019, 20(2): 302. DOI: 10.3390/ijms20020302.
[2] 傅广垣, 余国先, 王峻, 等. 基于有向混合图的蛋白质新功能预测[J]. 中国科学: 信息科学, 2016, 46(4): 461-475. DOI: 10.1360/N112015-00109.
[3] 徐永红, 褚泽斐, 洪文学. 基于黎曼流形的蛋白质三维结构数据相似性比较[J]. 燕山大学学报, 2015, 39(1): 35-41. DOI: 10.3969/j.issn.1007-791X.2015.01.006.
[4] 王超, 朱建伟, 张海仓, 等. 蛋白质三级结构预测算法综述[J]. 计算机学报, 2018, 41(4): 760-779.
[5] CHEN Q F, WANG Y Q, CHEN B S, et al. Using propensity scores to predict the kinases of unannotated phosphopeptides[J]. Knowledge-Based Systems, 2017, 135: 60-76. DOI: 10.1016/j.knosys.2017.08.004.
[6] DUBEY S P N, KINI N G, BALAJI S, et al. A review of protein structure prediction using latticemodel[J]. Critical ReviewsTM in Biomedical Engineering, 2018, 46(2): 147-162. DOI: 10.1615/CritRevBiomedEng.2018026093.
[7] CHEN Q F, LAI D H, LAN W, et al. ILDMSF: Inferring associations between long non-coding RNA and disease based on multi-similarity fusion[J/OL]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2019[2020-03-30]. https://ieeexplore.ieee.org/document/8807138. DOI: 10.1109/TCBB.2019.2936476.
[8] 曹成远, 吕强. 使用双向LSTM的深度神经网络预测蛋白质残基相互作用[J]. 小型微型计算机系统, 2017, 38(3): 531-535.
[9] MURZIN A G, BRENNER S E, HUBBARD T, et al. SCOP: a structural classification of proteins database for the investigation of sequences andstructures[J]. Journal of Molecular Biology, 1995, 247(4): 536-540. DOI: 10.1016/S0022-2836(05)80134-2.
[10] ORENGO C A, MICHIE A D, JONES S, et al. CATH: a hierarchic classification of protein domain structures[J]. Structure, 1997, 5(8): 1093-1109. DOI: 10.1016/S0969-2126(97)00260-8.
[11] ZHANG Y, SKOLNICK J. Scoring function for automated assessment of protein structure templatequality[J]. Proteins: Structure, Function, and Bioinformatics, 2004, 57(4): 702-710. DOI: 10.1002/prot.20264.
[12] XU J R, ZHANG Y. How significant is a protein structure similarity with TM-score=0.5?[J]. Bioinformatics, 2010, 26(7): 889-895. DOI: 10.1093/bioinformatics/btq066.
[13] HOLM L, OUZOUNIS C, SANDER C, et al. A database of protein structure families with common foldingmotifs[J]. Protein Science, 1992, 1(12): 1691-1698. DOI: 10.1002/pro.5560011217.
[14] HASEGAWA H, HOLM L. Advances and pitfalls of protein structuralalignment[J]. Current Opinion in Structural Biology, 2009, 19(3): 341-348. DOI: 10.1016/j.sbi.2009.04.003.
[15] SHINDYALOV I N, BOURNE P E. Protein structure alignment by incremental combinatorial extension (CE) of the optimalpath[J]. Protein Engineering Design &Selection, 1998, 11(9): 739-747. DOI:10.1093/protein/11.9.739.
[16] GIBRAT J F, MADEJ T, BRYANT S H. Surprising similarities in structurecomparison[J]. Current Opinion in Structural Biology, 1996, 6(3): 377-385. DOI: 10.1016/S0959-440X(96)80058-3.
[17] ORENGO C A, Taylor W R. SSAP: sequential structure alignment program for protein structure comparison[M]// Methods in Enzymology: Volume 266. London: Academic Press, 1996: 617-635. DOI: 10.1016/S0076-6879(96)66038-8.
[18] ZHU J H, WENG Z P. FAST: a novel protein structure alignment algorithm[J]. PROTEINS: Structure, Function, and Bioinformatics, 2005, 58(3): 618-627. DOI: 10.1002/prot.20331.
[19] AKUTSU T. Protein structure alignment using dynamic programing and iterative improvement[J]. IEICE Transactions on Information and Systems, 1996, E79-D(12): 1629-1636.
[20] ZHANG Y, SKOLNICK J. TM-align: a protein structure alignment algorithm based on the TM-score[J]. Nucleic Acids Research, 2005, 33(7): 2302-2309. DOI: 10.1093/nar/gki524.
[21] HEAL J W, BARTLETT G J, WOOD C W, et al. Applying graph theory to protein structures: an Atlas of coiledcoils[J]. Bioinformatics, 2018, 34(19): 3316-3323. DOI: 10.1093/bioinformatics/bty347.
[22] FOUT A, BYRD J, SHARIAT B, et al. Protein interface prediction using graphconvolutional networks[C]// Advances in Neural Information Processing Systems 30. Red Hook, NY: Curran Associates Inc, 2017: 6530-6539.
[23] ZHAI F Z, LI Q N. A Euclidean distance matrix model for protein molecular conformation[J]. Journal of Global Optimization, 2020, 76(4): 709-728. DOI: 10.1007/s10898-019-00771-4.
[24] TAYLOR W R, ORENGO C A. Protein structurealignment[J]. Journal of Molecular Biology, 1989, 208(1): 1-22. DOI: 10.1016/0022-2836(89)90084-3.
[25] CHOI I G, KWON J Y, KIM S H. Local feature frequency profile: a method to measure structural similarity in proteins[J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101(11): 3797-3802. DOI: 10.1073/pnas.0308656100.
[26] OTSU N. A threshold selection method from gray-levelhistograms[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1979, 9(1): 62-66. DOI: 10.1109/TSMC.1979.4310076.
[27] COMANICIU D, MEER P. Mean shift:a robust approach toward feature space analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(5): 603-619. DOI: 10.1109/34.1000236.
[28] 袁小翠, 黄志开, 马永力, 等. Otsu阈值分割法特点及其应用分析[J].南昌工程学院学报, 2019, 38(1): 85-90,97. DOI: 10.3969/j.issn.1006-4869.2019.01.015.
[29] 孟琭, 杨旭. 目标跟踪算法综述[J]. 自动化学报, 2019, 45(7): 1244-1260. DOI: 10.16383/j.aas.c180277.
[1] 王勋, 李廷会, 潘骁, 田宇. 基于改进模糊C均值聚类与Otsu的图像分割方法[J]. 广西师范大学学报(自然科学版), 2019, 37(4): 68-73.
[2] 苏雷,李俊英. 国家重点生态功能区县域生态环境质量状况分级标准探讨[J]. 广西师范大学学报(自然科学版), 2019, 37(3): 196-202.
[3] 刘金龙, 郭岩, 余智华, 刘悦, 俞晓明, 程学旗. 基于词聚类的跨媒体突发事件检测方法[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 23-31.
[4] 林越, 刘廷章, 黄莉荣, 奚晓晔, 潘建. 基于双向KL距离聚类算法的变压器状态异常检测[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 20-26.
[5] 林越,刘廷章,陈一凡,金勇,梁立新. 基于AP-HMM混合模型的充电桩故障诊断[J]. 广西师范大学学报(自然科学版), 2018, 36(1): 25-33.
[6] 闫 妍,胡宝清,侯满福,史莎娜. 广西岩溶区县域石漠化治理模式适宜性评价[J]. 广西师范大学学报(自然科学版), 2017, 35(4): 145-153.
[7] 胡郁葱, 陈杰, 邹小健, 陈枝伟. 基于两阶段聚类的电动自行车出行者选择研究[J]. 广西师范大学学报(自然科学版), 2017, 35(3): 22-29.
[8] 唐祺玲,陈志林,周善义. 基于属级阶元的中国蚁科昆虫地理区划研究[J]. 广西师范大学学报(自然科学版), 2017, 35(1): 82-91.
[9] 石亚冰, 黄予, 覃晓, 元昌安. 基于优化初始种子新策略的K-Means聚类算法[J]. 广西师范大学学报(自然科学版), 2013, 31(4): 33-40.
[10] 曹永春, 邵亚斌, 田双亮, 蔡正琦. 一种基于免疫遗传算法的聚类方法[J]. 广西师范大学学报(自然科学版), 2013, 31(3): 59-64.
[11] 马静, 邹艳丽, 李福涛, 莫玉芳. 最大度受限LBA网络模型研究[J]. 广西师范大学学报(自然科学版), 2011, 29(4): 21-24.
[12] 郑磊, 朱正礼, 侯迎坤. 基于改进的微粒群算法的WSN节点部署策略[J]. 广西师范大学学报(自然科学版), 2011, 29(4): 56-62.
[13] 沈泽豪, 叶中行. 期货公司客户风险管理的模糊聚类分析[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 101-104.
[14] 徐丽, 丁世飞, 郭锋锋. 基于改进属性约简的粗核聚类算法[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 105-109.
[15] 沙贝贝, 谢丽聪. 一种基于频繁项集的搜索引擎聚类浏览算法[J]. 广西师范大学学报(自然科学版), 2011, 29(2): 151-155.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 徐建闽, 韦佳, 首艳芳. 基于博弈论-云模型的城市道路交通运行状态综合评价[J]. 广西师范大学学报(自然科学版), 2020, 38(4): 1 -10 .
[2] 张灿龙, 李燕茹, 李志欣, 王智文. 基于核相关滤波与特征融合的分块跟踪算法[J]. 广西师范大学学报(自然科学版), 2020, 38(5): 12 -23 .
[3] 许伦辉, 曹宇超, 林培群. 基于融合免疫优化和遗传算法的多应急物资中心选址与调度[J]. 广西师范大学学报(自然科学版), 2020, 38(6): 1 -13 .
[4] 胡锦铭, 韦笃取. 分数阶永磁同步电机的广义同步研究[J]. 广西师范大学学报(自然科学版), 2020, 38(6): 14 -20 .
[5] 朱勇建, 罗坚, 秦运柏, 秦国峰, 唐楚柳. 基于光度立体和级数展开法的金属表面缺陷检测方法[J]. 广西师范大学学报(自然科学版), 2020, 38(6): 21 -31 .
[6] 唐熔钗, 伍锡如. 基于改进YOLO-V3网络的百香果实时检测[J]. 广西师范大学学报(自然科学版), 2020, 38(6): 32 -39 .
[7] 陈东, 胡葵. 覆盖Gorenstein AC-平坦维数[J]. 广西师范大学学报(自然科学版), 2020, 38(6): 51 -55 .
[8] 左佳斌, 贠永震. 一类分数阶微分方程的反周期边值问题[J]. 广西师范大学学报(自然科学版), 2020, 38(6): 56 -64 .
[9] 王跃, 叶红艳, 雷俊, 索洪敏. 带线性项Kirchhoff型问题的无穷多古典解[J]. 广西师范大学学报(自然科学版), 2020, 38(6): 65 -73 .
[10] 黄春贤, 周效良. 含等级治疗率与不完全康复率的SIRS模型的分岔分析[J]. 广西师范大学学报(自然科学版), 2020, 38(6): 74 -81 .
版权所有 © 广西师范大学学报(自然科学版)编辑部
地址:广西桂林市三里店育才路15号 邮编:541004
电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发