我认为,在应用这些技术时,一个关键的挑战在于找到正确的“表征”(此外还要有足够的数据),举一个老例子: 论文 :Lusci, Alessandro, Gianluca Pollastri, and Pierre Baldi. "Deep architectures and deep learning in chemoinformatics: the prediction of aqueous solubility for drug-like molecules." Journal of chemical information and modeling 53.7 (2013): 1563-1575. Deep Architectures and Deep Learning in Chemoinformatics: The Prediction of Aqueous Solubility for Drug-Like Molecules 在这项研究中,研究者把分子表示为一种直接的非循环图(传统结构是间接循环图),把其作为一个递归神经网络的输入,用于预测这些分子的溶解度。 最近,令人激动的例子是: 论文:Gómez-Bombarelli, Rafael, et al. "Automatic chemical design using a data-driven continuous representation of molecules." arXiv preprint arXiv:1610.02415 (2016). [1610.02415] Automatic chemical design using a data-driven continuous representation of molecules(初稿刚写出来几周) 简单来说,研究者训练了一个自动编码器 ,用于生成一个真实的、合成的分子。在这里,他们的神经网络把SMILES字符转化成多个隐藏的表征(只包含统计上显著的压缩向量),并以极少或者无错误返回SMILES字符串中,SMILES字符串是1维分子表征。例如,表示阿司匹林 的SMILES 串可以表示为: CC(=O)OC1=CC=CC=C1C(=O)O 等同于一下二维结构: Aspirin (2-(acetyloxy)benzoic acid) 最后,2016年,机器学习的门槛降低也让我很兴奋,这要归功于过去几年间发展出来的工具,从 scikit-learn 到Theano,再到 TensorFlow以及Keras。这些工具带来的便利性在于它们让我可以更少地担心技术部署,从而聚焦于真正想解决的问题。 机器学习中 最重要的是统计学和概率论 问:机器学习中,哪些数学理论特别有用? 统计学、概率论、线性代数和微积分。 其中,又数统计学和概率论最为重要,因为首要任务通常都是在一个辨别模型和一个生成模型之间做选择,去定义一个性能标准,并评估结果。线性代数是机器学习部署的一个主要支柱,它能让我们把记录和实现保持在一个非常高效的水平。我想说的是,在纯机器学习应用中,微积分并不是那么重要,但是,如果我们对理解所采纳的算法感兴趣,多变量计算和优化理论就变得非常关键。 计算机生物学的优势在于有大量非标签数据 问:在生物学和机器学习之间,有哪些最令人兴奋的问题? 在计算机生物学中,通常我们会拥有大量的非标签数据,这是非常奢侈的(有时候标签数据也很多,这取决于项目)。 我认为,现实中一大挑战是我们如何表示这些数据,以把它们输入到机器学习算法中(也叫特征表示)。我最近发现了一些比较有潜力的创意和方法(就是上文推荐的论文)。 用一个简单的算法,10天掌握机器学习 ?问:如何在10天掌握机器学习??? 10天?这绝对是一个很有挑战性的任务。不过,我认为10天的时间足够让你对机器学习领域有一个非常好的了解了,或许你还可以开始在自己想要解决的问题上进行实践。 首先,你要对三个子领域(监督学习、非监督学习和增强学习)有一个入门级的了解。如果是我的话,j2直播,我可能会把时间花在一个能代表这三个领域的简单算法上(也可能会把增强学习留到后面)。 (责任编辑:本港台直播) |