从 1999 年开始,他开始力推 Semantic Web。到了 2001 年的时候,他和 Jim Hendler,Ora Lassila 一起,在《科学美国人》上面发了这篇文章阐述了一个理念,如果我们有了结构化数据,用知识去标注的网络应用的能力话,我们能够实现怎样神奇的一些应用。实际上他描述的很多东西,我们现在已经实现了,比如像 Siri,IBM Watson, 就是 Tim Berners-Lee 在十几年前就已经描述的一些设想。当时认为是科幻,现在已成现实。 他 proposal 的第三部分,说我们有了知识以后还要怎么样?最重要的是人,Web 在往前走的每一步,它核心的思考,它真正能够带来的知识和最有价值的数据,不是机器,而是人产生出来的。所以如何让机器、人、知识能够关联在一起,这是 Tim Berners-Lee 最主要的思考。他在设计里面提出来,我们不但要能够读这些数据,更重要的是我们能够让人非常容易地去创造这些数据。当时还没有 Wiki 这个概念,但他描述了这样一个系统,实际上就是一个 Semantic Wiki 系统。 我们花了25年的时间,大概实现了他的第一个目标,然后第二个目标实现了一半。所以 Web 只走完了上半场,还有下半场要走。 三、从万维网到语义网 我们在剩下的 25 年时间内,从现在起到 2040 年,要实现另外一半目标。在《科学美国人》这篇文章里面,Tim Berners-Lee 再一次表达了他充分的乐观。我们刚才提到了,他第一次说花六个月时间就可以实现那个 proposal,最后证明他把这个任务的困难程度低估了一个数量级。同样,在这篇文章里,他再次低估了这个任务的复杂程度,他认为我们十年之内就能实现 Semantic Web ,但事实上没有做到。到了 2007 年、2008 年的时候,整个行业的人就已经发现,可能我们要花 30 年的时间,才能实现这个梦想,在 2007 年感觉 30 年后很远,但现在已经到 2017 年了,我们发现其实这个估计是挺靠谱的一件事情,我们下面细说为什么这个估计是靠谱的。
这是我从 W3C 的前语义网技术负责人 Ivan Herman 的一个 slides 里面偷来的。他是 2010 年讲的,在 2005 年的时候,他认为这个技术已经发展到什么程度呢?就是在前面这种 Innovator 这种层面,到了2010年的时候,他认为已经到了 Early Adopters ,他这个估计应该说是对的。
这样一个曲线对于正常的学科的发展是没有问题的,大家肯定也在其他地方看到过的,叫技术成熟度曲线。一般情况下,一开始一个技术没有什么人知道,过了一段时间之后,大家觉得这个技术太牛逼了,然后到了一个顶点;后来顶点过去以后,到达低谷,觉得你是骗子,大家开始失望,没有人投资了;经过一段时间的冬天,然后后来发现其实也不全然是欺骗,还是有合理的因素的,慢慢往回爬,最后爬到一个 majority,到成熟市场,通常“正常”的技术是这么来爬的。那么对于”正常”的技术,到了这个阶段的时候,就是一次冬天回去之后,往上爬的这个阶段,杀手级应用就会出现了。
但是我们知道人工智能技术不是“正常技术”,人工智能的技术的成熟曲线是这个样子的,差不多每过十年,我们要被人骂一次,我们是骗子。 那么具体来看,对于知识图谱技术,我们已经被人骂了几次。实际上其实这个曲线前面还有几次,我就没有画了,其实从 60 年代开始就有了。我们就从 80 年代开始讲,那时候我们有一大堆叫 Lisp Machine,当时是认为如果我们有了 Lisp,如果我们有了 Prolog,我们可以把整个人类所有的知识都建模。有个公司叫 Cyc,它就是努力想把整个人类的知识全部用逻辑表达出来。到了 80 年代末的时候,atv,日本人被忽悠得很厉害,说我们要有五代机。所以这个时候就产生了很大的一个泡沫,果不其然到了90年代中期的时候,大家说骗子。那个时候的博士生是非常悲摧的。 然后到了 90 年代末,慢慢地又开始往前跑了,当时 Guha 在苹果发明了 RSS,后来 1997 年的时候在苹果发明出来了 RDF。后来到了 1999 年的时候,RDF 成为了行业标准,然后DARPA(美国国防高级研究计划局) 成立了 DAML 工作小组。到了 2000 年前后的时候有了 OWL,整个语义网有了这样一种新希望。大家又开始觉得太厉害了,人类又要毁灭了,但事实证明又不是。所以大概从 2003 年、2004 年往后走,大家发现这个技术没有想的那么牛逼,很多问题解决不了。所以开始往下走。到了 2010 年的时候,虽然我们已经做了非常多的很好的工作,比如 Freebase 这样的工作,但当时基本上 Semantic Web 毕业的博士生找不到本职工作。 四、从语义网到知识图谱 (责任编辑:本港台直播) |