|
广西师范大学学报(自然科学版) ›› 2020, Vol. 38 ›› Issue (6): 40-50.doi: 10.16088/j.issn.1001-6600.2020.06.005
张汝昌1, 邱杰2*, 王明堂2, 陈庆锋1*
ZHANG Ruchang1, QIU Jie2*, WANG Mingtang2, CHEN Qingfeng1*
摘要: 蛋白质的三维空间结构决定该蛋白质的生物功能,研究蛋白质结构的相似性在计算分子生物学中具有重要意义。本文将蛋白质Cα原子距离矩阵分解成许多小的子矩阵表示蛋白质的局部结构,通过对这些局部结构的统计分析得到局部特征频率向量计算蛋白质的相似性,在此基础上提出一种新的基于自适应局部特征频率向量的方法(ALFF)计算蛋白质三维结构相似性。ALFF在选取蛋白质局部特征的方式上,使用OTSU算法确定局部特征最合适的大小m,并通过MeanShift聚类计算出具有代表性的局部特征数量k。实验结果表明,ALFF可以更好更快地划分蛋白质的局部子结构,相对于人工选择参数的方法,ALFF在SCOP蛋白质结构分类中有更高的一致性,与TM-score比较有更好的准确性。
中图分类号:
[1] GAN J Z, QIU J, DENG C S, et al. KSIMC: predicting kinase-substrate interactions based on matrix completion[J]. International Journal of Molecular Sciences, 2019, 20(2): 302. DOI: 10.3390/ijms20020302. [2] 傅广垣, 余国先, 王峻, 等. 基于有向混合图的蛋白质新功能预测[J]. 中国科学: 信息科学, 2016, 46(4): 461-475. DOI: 10.1360/N112015-00109. [3] 徐永红, 褚泽斐, 洪文学. 基于黎曼流形的蛋白质三维结构数据相似性比较[J]. 燕山大学学报, 2015, 39(1): 35-41. DOI: 10.3969/j.issn.1007-791X.2015.01.006. [4] 王超, 朱建伟, 张海仓, 等. 蛋白质三级结构预测算法综述[J]. 计算机学报, 2018, 41(4): 760-779. [5] CHEN Q F, WANG Y Q, CHEN B S, et al. Using propensity scores to predict the kinases of unannotated phosphopeptides[J]. Knowledge-Based Systems, 2017, 135: 60-76. DOI: 10.1016/j.knosys.2017.08.004. [6] DUBEY S P N, KINI N G, BALAJI S, et al. A review of protein structure prediction using latticemodel[J]. Critical ReviewsTM in Biomedical Engineering, 2018, 46(2): 147-162. DOI: 10.1615/CritRevBiomedEng.2018026093. [7] CHEN Q F, LAI D H, LAN W, et al. ILDMSF: Inferring associations between long non-coding RNA and disease based on multi-similarity fusion[J/OL]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2019[2020-03-30]. https://ieeexplore.ieee.org/document/8807138. DOI: 10.1109/TCBB.2019.2936476. [8] 曹成远, 吕强. 使用双向LSTM的深度神经网络预测蛋白质残基相互作用[J]. 小型微型计算机系统, 2017, 38(3): 531-535. [9] MURZIN A G, BRENNER S E, HUBBARD T, et al. SCOP: a structural classification of proteins database for the investigation of sequences andstructures[J]. Journal of Molecular Biology, 1995, 247(4): 536-540. DOI: 10.1016/S0022-2836(05)80134-2. [10] ORENGO C A, MICHIE A D, JONES S, et al. CATH: a hierarchic classification of protein domain structures[J]. Structure, 1997, 5(8): 1093-1109. DOI: 10.1016/S0969-2126(97)00260-8. [11] ZHANG Y, SKOLNICK J. Scoring function for automated assessment of protein structure templatequality[J]. Proteins: Structure, Function, and Bioinformatics, 2004, 57(4): 702-710. DOI: 10.1002/prot.20264. [12] XU J R, ZHANG Y. How significant is a protein structure similarity with TM-score=0.5?[J]. Bioinformatics, 2010, 26(7): 889-895. DOI: 10.1093/bioinformatics/btq066. [13] HOLM L, OUZOUNIS C, SANDER C, et al. A database of protein structure families with common foldingmotifs[J]. Protein Science, 1992, 1(12): 1691-1698. DOI: 10.1002/pro.5560011217. [14] HASEGAWA H, HOLM L. Advances and pitfalls of protein structuralalignment[J]. Current Opinion in Structural Biology, 2009, 19(3): 341-348. DOI: 10.1016/j.sbi.2009.04.003. [15] SHINDYALOV I N, BOURNE P E. Protein structure alignment by incremental combinatorial extension (CE) of the optimalpath[J]. Protein Engineering Design &Selection, 1998, 11(9): 739-747. DOI:10.1093/protein/11.9.739. [16] GIBRAT J F, MADEJ T, BRYANT S H. Surprising similarities in structurecomparison[J]. Current Opinion in Structural Biology, 1996, 6(3): 377-385. DOI: 10.1016/S0959-440X(96)80058-3. [17] ORENGO C A, Taylor W R. SSAP: sequential structure alignment program for protein structure comparison[M]// Methods in Enzymology: Volume 266. London: Academic Press, 1996: 617-635. DOI: 10.1016/S0076-6879(96)66038-8. [18] ZHU J H, WENG Z P. FAST: a novel protein structure alignment algorithm[J]. PROTEINS: Structure, Function, and Bioinformatics, 2005, 58(3): 618-627. DOI: 10.1002/prot.20331. [19] AKUTSU T. Protein structure alignment using dynamic programing and iterative improvement[J]. IEICE Transactions on Information and Systems, 1996, E79-D(12): 1629-1636. [20] ZHANG Y, SKOLNICK J. TM-align: a protein structure alignment algorithm based on the TM-score[J]. Nucleic Acids Research, 2005, 33(7): 2302-2309. DOI: 10.1093/nar/gki524. [21] HEAL J W, BARTLETT G J, WOOD C W, et al. Applying graph theory to protein structures: an Atlas of coiledcoils[J]. Bioinformatics, 2018, 34(19): 3316-3323. DOI: 10.1093/bioinformatics/bty347. [22] FOUT A, BYRD J, SHARIAT B, et al. Protein interface prediction using graphconvolutional networks[C]// Advances in Neural Information Processing Systems 30. Red Hook, NY: Curran Associates Inc, 2017: 6530-6539. [23] ZHAI F Z, LI Q N. A Euclidean distance matrix model for protein molecular conformation[J]. Journal of Global Optimization, 2020, 76(4): 709-728. DOI: 10.1007/s10898-019-00771-4. [24] TAYLOR W R, ORENGO C A. Protein structurealignment[J]. Journal of Molecular Biology, 1989, 208(1): 1-22. DOI: 10.1016/0022-2836(89)90084-3. [25] CHOI I G, KWON J Y, KIM S H. Local feature frequency profile: a method to measure structural similarity in proteins[J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101(11): 3797-3802. DOI: 10.1073/pnas.0308656100. [26] OTSU N. A threshold selection method from gray-levelhistograms[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1979, 9(1): 62-66. DOI: 10.1109/TSMC.1979.4310076. [27] COMANICIU D, MEER P. Mean shift:a robust approach toward feature space analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(5): 603-619. DOI: 10.1109/34.1000236. [28] 袁小翠, 黄志开, 马永力, 等. Otsu阈值分割法特点及其应用分析[J].南昌工程学院学报, 2019, 38(1): 85-90,97. DOI: 10.3969/j.issn.1006-4869.2019.01.015. [29] 孟琭, 杨旭. 目标跟踪算法综述[J]. 自动化学报, 2019, 45(7): 1244-1260. DOI: 10.16383/j.aas.c180277. |
[1] | 王勋, 李廷会, 潘骁, 田宇. 基于改进模糊C均值聚类与Otsu的图像分割方法[J]. 广西师范大学学报(自然科学版), 2019, 37(4): 68-73. |
[2] | 苏雷,李俊英. 国家重点生态功能区县域生态环境质量状况分级标准探讨[J]. 广西师范大学学报(自然科学版), 2019, 37(3): 196-202. |
[3] | 刘金龙, 郭岩, 余智华, 刘悦, 俞晓明, 程学旗. 基于词聚类的跨媒体突发事件检测方法[J]. 广西师范大学学报(自然科学版), 2019, 37(1): 23-31. |
[4] | 林越, 刘廷章, 黄莉荣, 奚晓晔, 潘建. 基于双向KL距离聚类算法的变压器状态异常检测[J]. 广西师范大学学报(自然科学版), 2018, 36(4): 20-26. |
[5] | 林越,刘廷章,陈一凡,金勇,梁立新. 基于AP-HMM混合模型的充电桩故障诊断[J]. 广西师范大学学报(自然科学版), 2018, 36(1): 25-33. |
[6] | 闫 妍,胡宝清,侯满福,史莎娜. 广西岩溶区县域石漠化治理模式适宜性评价[J]. 广西师范大学学报(自然科学版), 2017, 35(4): 145-153. |
[7] | 胡郁葱, 陈杰, 邹小健, 陈枝伟. 基于两阶段聚类的电动自行车出行者选择研究[J]. 广西师范大学学报(自然科学版), 2017, 35(3): 22-29. |
[8] | 唐祺玲,陈志林,周善义. 基于属级阶元的中国蚁科昆虫地理区划研究[J]. 广西师范大学学报(自然科学版), 2017, 35(1): 82-91. |
[9] | 石亚冰, 黄予, 覃晓, 元昌安. 基于优化初始种子新策略的K-Means聚类算法[J]. 广西师范大学学报(自然科学版), 2013, 31(4): 33-40. |
[10] | 曹永春, 邵亚斌, 田双亮, 蔡正琦. 一种基于免疫遗传算法的聚类方法[J]. 广西师范大学学报(自然科学版), 2013, 31(3): 59-64. |
[11] | 马静, 邹艳丽, 李福涛, 莫玉芳. 最大度受限LBA网络模型研究[J]. 广西师范大学学报(自然科学版), 2011, 29(4): 21-24. |
[12] | 郑磊, 朱正礼, 侯迎坤. 基于改进的微粒群算法的WSN节点部署策略[J]. 广西师范大学学报(自然科学版), 2011, 29(4): 56-62. |
[13] | 沈泽豪, 叶中行. 期货公司客户风险管理的模糊聚类分析[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 101-104. |
[14] | 徐丽, 丁世飞, 郭锋锋. 基于改进属性约简的粗核聚类算法[J]. 广西师范大学学报(自然科学版), 2011, 29(3): 105-109. |
[15] | 沙贝贝, 谢丽聪. 一种基于频繁项集的搜索引擎聚类浏览算法[J]. 广西师范大学学报(自然科学版), 2011, 29(2): 151-155. |
|
版权所有 © 广西师范大学学报(自然科学版)编辑部 地址:广西桂林市三里店育才路15号 邮编:541004 电话:0773-5857325 E-mail: gxsdzkb@mailbox.gxnu.edu.cn 本系统由北京玛格泰克科技发展有限公司设计开发 |