这篇文章介绍了一个名为CmhAttCPI的新型双向可解释的深度学习框架,用于预测化合物-蛋白质相互作用(CPIs)。该框架结合了多头交叉注意力机制,能够从化学和生物学两个角度提供预测结果的解释性。文章的主要内容包括:
1. **背景介绍**:化合物-蛋白质相互作用在药物发现中至关重要,但现有的实验方法成本高昂且耗时。近年来,深度学习方法在CPI预测中取得了显著成果,但仍面临一些挑战,如提供双向解释性、全面评估模型泛化性能以及展示模型的实际应用性。
2. **CmhAttCPI模型**:提出了一个基于交叉多头注意力的双向可解释CPI预测模型(CmhAttCPI)。该模型首先利用图卷积网络(GCN)和卷积神经网络(CNN)分别学习分子图和蛋白质序列的特征,然后通过交叉多头注意力模块计算原子和残基的注意力权重,最后使用全连接神经网络预测CPI评分。
3. **性能评估**:在平衡和不平衡数据集上评估了CmhAttCPI的性能,结果显示CmhAttCPI在多个数据集上的表现均优于现有的先进方法。此外,通过构建基于化合物和蛋白质聚类的场景,全面评估了模型的泛化能力,结果表明CmhAttCPI的泛化能力超过了其他模型。
4. **模型解释性**:通过可视化注意力权重,展示了CmhAttCPI从化学和生物学角度为CPI预测提供解释的能力。案例研究证实了CmhAttCPI在发现抗癌候选物方面的实际应用性。
5. **主要贡献**:文章总结了CmhAttCPI的主要贡献,包括提出了一种新的CPI预测模型,能够提供化学和生物学解释;全面评估了模型的泛化能力;并通过案例研究展示了模型的实际应用性。
6. **讨论**:讨论了CmhAttCPI模型的优势和潜在的改进空间,如整合更多生物学信息和探索全局特征与个体特征之间的几何关系。
7. **结论**:CmhAttCPI是一个优秀的双向可解释深度学习框架,用于识别化合物-蛋白质相互作用,具有出色的有效性、鲁棒性、泛化能力和实际应用性。
文章还提供了数据和代码的可用性信息,以及作者贡献声明和利益冲突声明。