2017-08-12 08:30 来源:IBM中国 硅谷 /IBM /技术 本文译自CBR Ellie Burns (文中简称EB)对IBM研究员李蕴瑶(文中简称YL)的访谈,讲述了李蕴瑶从我国贵州的一个小城镇走到硅谷的成长故事。原文编辑Ellie Burns。本文根据YL本人的建议略有修改。 旧金山圣何塞的IBM Almaden实验室 EB问 YL答 Q EB:能否向读者介绍一下您的背景——您是如何开始对技术产生兴趣的? YL:虽然目前我从事的是人工智能领域与自然语言处理 (NLP)相关的工作,但在上大学之前,我从未见到过真正的计算机。上世纪 80 年代,我出生在中国西南部的一个小城镇——金沙县城关镇,对于当时的我而言,计算机这个术语只是从电视和报纸上得知的一个抽象概念。 我是我们县置县五十多年以来第一个被远在 2000 公里之外的北京清华大学录取的高考生。当年整个贵州省参加高考的考生有 20多万,我的高考成绩位列全省考生第三,应届生第一。受当时报纸和科幻小说的影响,我选择攻读了清华大学的自动化与经济学双学位。我希望通过综合学习计算机科学、电子工程和经济学这三门学科,掌握必要的知识和工具,帮助实现大量人工操作的自动化,让人们的生活变得更美好。 2017年6月15日,李蕴瑶代表AWING(Almaden女性权益小组) 在Laura Haas退休晚宴上,向她赠送了一幅集体签名海报。 Q EB:您在美国是如何进一步学习并进行技术研究的? YL:在我发现计算机拥有改变世界的力量之后,我决定在美国的密歇根大学攻读计算机科学博士学位,当时我的导师是 H. V. Jagadish 博士,他在数据库可用性研究领域非常有名。在校期间,我还开始了我的实习生涯继续以前的双重生活,与一些 MBA 学生一同参加了商业化学校的科研成果的项目。通过其中一个项目,我们帮助实现了骨组织培养专利技术的商业化,该技术有助于加快骨质疏松症等疾病治疗药物的发现过程;在另一个项目中,我们参与商业化了一项移动技术,直播,用来帮助改善课堂上师生的互动。 到目前为止,我已经在 IBM 研究院工作了整整10 年的时间,我负责领导 ScalableNLP (规模化自然语言处理)团队(也称为 SNap)。 李蕴瑶童年的照片。她现在是一名位于硅谷的IBM Almaden研究中心的研究员。 Q EB:自然语言处理研究员主要负责哪些方面的工作? YL:我们现在正在攻克的一个关键课题是信息提取 (IE),也就是从非结构化数据或半结构化数据中提取结构化信息。通过这种技术,机器将能够自动读取并构造知识库,而这种知识库正是包括 IBM Watson 在内的许多认知系统的基石。 在我所从事的专业领域中,一般有两种信息提取的方法。在学术研究领域,机器学习方法非常流行。不过,这种方法通常需要一个由带标签的数据集构成的大型集合,而在实际中通常很难获得这种数据集。此外,已学习的模型通常都是“黑盒子”,其内部工作机制通常都处于隐藏状态,因此难以理解和解释。 另一种信息提取的方法是使用声明式性语言来开发算法。在商业市场中,这种方法非常流行,因为它需要的是没有标签的数据,而且所得的程序非常容易理解。不过,这种方法非常耗时,需要很高的人工投入。 我们团队的研究理念是,唯有融合这两种方法,取其精华,才能开发出最好的解决方案,比如说 SystemT,它就是两种方法融合后的产物,是我们最新的自然语言处理引擎,目前有 10 多款 IBM 的产品和服务都采用的是这种引擎。 Q EB:你们近期在研究什么项目? (责任编辑:本港台直播) |