思考一些我们想要解决的问题十分重要,无论我们是否能轻松手动推倒出规则或者,无是够需要机器学习。大体上说,机器学习就是把手动推倒规则和假设或逼近函数的工程自动化。另一个例子是 Joel Grus 写的: Fizz Buzz in Tensorflow()。 12. 从分子生物学学士到 Python 机器学习,你转行进入数据科学领域的想法是因何而起? 我得承认,在本科学分子生物的时候,我确实对其中的统计和数据分析最感兴趣,而不是那些「实际」的实验室工作,仅仅为了一篇老式的,无名的论文就花了我本科学习的大部分时间。顺便说一句,我在这篇论文中,用实验数据画结论中的图表用了一两天时间,做实验却用了一个多月。所以我不是那么地不喜欢分子生物学,但我很快发现潮湿的实验室不是我的归宿:我视它为:「必要的邪恶」——项目中繁琐的数据收集部分。希望我说完以后,实验室的同僚们不要对我发火,我很感谢他们的辛勤工作(笑)。 虽然我的博士学位是纯计算机领域的,我觉得我对数据科学和机器学习的热情来源于我在研究生学习期间的统计识别课程。学习这些技术非常有意思,而且效果立竿见影,我很快就能在生物学问题上用到它们。那段时间,我得说我对于算法和技术有点过于感兴趣了,而生物学被放在了第二位。今天,我对通用领域解决问题的过程最感兴趣,而生物学恰好是一个有很多数据的学科,恰好有很多问题需要解决。 13. 你认为机器学习和数据科学会对医疗领域产生什么样的影响? 我的工作并不涉及医疗领域,但是我遇到了几个在机器学习和医疗交叉领域工作的人。例如在我们学院的 Mias 实验室(G.Mias Lab)就专注于收集来自于各种在线数据库和数据源的基本数据,用以预测患上特定疾病的风险。《Why》的作者 Samantha Kleinberg 正在做着非凡的研究,她应用和开发了各种用于医疗行业的统计学建模技术。 看看那些生物医学的文献,我觉得描述特定蛋白质或基因的功能的经典方法是孤立地看待它们,然后分类至特定的表型。 这种自下而上的方法当然也是医疗领域中的关键。然而,基因或蛋白质其实只是更大,更复杂系统中的一小部分。我相信汇集实验和设备的信息能对我们理解这个复杂系统提供有用的信息,并且能使医疗进步。特别是,我希望监测随着时间推移不同风险因素的变化。如果这能够被高效地完成,那么我相信医疗界将会因此受益。我想说的是我们的目标是尽早获知健康隐患,最好是在这些隐患成为真正的问题之前。比如在一个人真正地患了糖尿病之前跟踪那些有患糖尿病风险的因素。 发展更好的糖尿病治疗方法是很重要的,但是如果我们更好地理解哪种外界环境的组合会提高患糖尿病的风险,我们就能帮助许多人避免患上这种疾病。我认为不需要在这方面做任何研究,只需要整合如家庭历史、基因表达水平、年龄、购物行为、锻炼等信息就能帮助我们尽早发现患病的风险。我们收集越来越多的数据在一定程度上可以是以匿名形式研究的,因为这样才可以更容易地把它加入到机器学习算法中来建立一个预测模型。 然而,主要的挑战就是这些数据是高度异质,原始的,并且结合不同的数据库也是也是一个瓶颈,当然,出于隐私方面的担忧——数据是匿名的,这种方式很难链接不同的数据集。然而,j2直播,苹果等公司正在研究如智能手机这类电子设备上的匿名追踪数据的解决方案。现如今,我认为找到一个将个人资料通过匿名方式提供给研究者的可行方法是建立一个更好的健康问题检测系统的第一步。我相信一旦解决这个问题,我们就为个人预警系统铺平了道路,这个系统是结合数据, 如购物行为, 日常锻炼和饮食信息, 也许个人基因组和偶尔的血液测试。 14. 你在计算生物学中参与过哪些有趣的项目? 我的大多数其他项目都专注于虚拟筛选的应用:我们一直与实验生物学的实验室合作,开发和使用各种方式,在不存在或存在蛋白质晶体结构的情况下预测单独抑制的(或活性的,取决于哪个项目)候选分子。最有趣的地方是预测与反馈之间的关系:我需要预测(在某些时候),得到实验结果,然后再看看我的尝试对不对,分析我的方式为什么比其他方式更好。这些项目的另外一个挑战在于研究者需要让所有算法在计算上可行——如果你有 1500 万个分子,想在其中选取 100 个候选分子有点像在大海捞针。通常在这种情况下我们会预先进行「过滤」步骤让计算变得简单一些,因为研究总是有时间限制的。我的项目需要所有人充分发挥自己的创造力和技术,但最终,我们的研究成果也需要对合作方产生价值。 (责任编辑:本港台直播) |