大数据 ›› 2017, Vol. 3 ›› Issue (2): 45-66.doi: 10.11959/j.issn.2096-0271.2017019
Supported by:
徐优俊, 裴剑锋. 深度学习在化学信息学中的应用[J]. 大数据, 2017, 3(2): 45-66.
Youjun XU, Jianfeng PEI. Deep learning for chemoinformatics[J]. Big Data Research, 2017, 3(2): 45-66.
模型 应用问题 | 数据集 | 单(S)或多(M) | 编码方式 | 表现 | Pre-train | ReLU | Dropout | BN | V | Ref. |
DNN 生物活性 | Merck | S | 原子水平特征 | R2:0.494 | 1 | 1 | 1 | 0 | 0 | 35 |
生物活性 | PCBA | M | 分子水平特征(Dragon) | 平均 AUC:0.825 | 1 | 1 | 1 | 0 | 0 | 40 |
生物活性 | ChEMBL | M | 分子水平特征(ECFP) | 平均 AUC:0.830 | nan | nan | nan | nan | 0 | 46 |
生物活性 | PCBA、MUV、DUD-E | M | 分子水平特征(ECFP) | 中值 AUC:0.873、0.841、0.818 | 0 | 1 | 1 | 0 | 0 | 56 |
毒性 | Tox21 | M | 分子水平特征(ECFP等) | 平均 AUC:0.837 | 0 | 1 | 1 | 0 | 1 | 57 |
CNN 水溶性、药物有效性、有机光转化活性 | 参考文献[64-66] | S | 原子水平特征 | RMSE:0.520、1.16、1.43 | 0 | 1 | 0 | 1 | 1 | 61 |
水溶性、药物有效性、有机光转化活性 | 参考文献[64-66] | M | 原子水平特征 | RMSE:0.460、1.07、1.10 | 0 | 1 | 1 | 0 | 0 | 66 |
活性、毒性 | PCBA、MUV、Tox21 | 中值 AUC:0.909、0.875、0.867 | ||||||||
环氧化作用 | 参考文献[68] | S | 原子和分子水平特征 | AUC:0.949、0.793 | nan | nan | nan | nan | 1 | 68 |
与软亲核试剂的反应 | 参考文献[69] | ACC:80.6%、90.8% | 69 | |||||||
与蛋白口袋的作用 | DUD-E | S | 原子水平特征 | 平均 AUC:0.745~0.895 | 0 | 1 | 0 | 0 | 0 | 70 |
与蛋白口袋的作用 | DUD | S | 原子水平特征(word embedding) | 平均 AUC:0.810 | 0 | 1 | 0 | 0 | 0 | 76 |
RNN 水溶性 | 参考文献[78-81] | S | 原子水平特征 | R2:0.920、0.910、0.810 | 0 | 0 | 0 | 0 | 0 | 77 |
肝毒性 | [NCTR,Greene,Xu]、Liew | S | ACC:86.9%、74.8% | 0 | 0 | 0 | 0 | 0 | 82 | |
毒性 | Tox21、SIDER | S | 原子水平特征 | ACC:0.757~0.840、0.602~0.752 | 0 | 1 | 0 | 1 | 1 | 84 |
注:单( S )或多( M )表示单任务或者多任务模型;P r et r a in表示是否采用预训练技术;R e L U表示是否采用R e L U训练技术;B N表示是否采用B a t c h N o r m a liza t ion训练技术;D r o p o u t表示是否采用D r o p o u t训练技术;V表示是否对隐层进行可视化分析;R e f表示对应的参考文献;1 , 0 , n a n:1表示应用该技术, 0表示没有应用该技术, n a n表示未提及;A C C表示准确率( a c c u r a c y )。技术有助于开发高效的QSAR模型。 |
