图像搜索,我想在座的很多同学可能都用过百度的图像搜索,这里面可以以图搜图,这个我们索引了超过100亿张的照片,能够快速的在100亿张照片里面找到你想要的照片。
我们现在的检索很重要的就是图片和文本的相似度,很多时候你输入的是文本去找图片,这个里面我们需要很好的去理解这个图片和文本的相似度。
IDL还在做的一个事情就是图片的图像技术,大家可能都知道ImageNet,它大概是1千类,150万张照片,这是一个非常重要的Benchmark。现在百度的类别做的比它大很多,因为百度是希望通过同样的图片识别,系统能够真正的非常有用。因此我们识别的东西,要比ImageNet里面1千类要多得多。我们目前做完的系统是可以识别4万类,这里面的训练集是7千万张照片。
我想给大家说一下,为什么这些数字有这么重要?比如说ImageNet,现在大家训练还是3天到5天,如果是全部的模式的话是5天。这个相比是40倍的区别,相当于原来如果ImageNet要训练5天的话,在我的大数据下要训练半年以上,就得200天,这个明显太慢了。百度为什么能做这个?其实也是因为我们有PaddlePaddle,还有非常大的计算集群。这也是为什么我们希望像这样的技术可以在国家工程实验室平台上开放出来,很多的科研单位,或者是很多的公司都可以来用这样一个平台。
这里面还要提一下,图像的技术里很重要的两个事情,一个是物体的检测,还有一个就是物体的分割。物体的检测就是给你一张照片,如果图像分类的话,只需要知道这里面有一条狗,但是不知道狗在哪里。如果是物体检测的话,还要知道这条狗的位置,用这个框的形式表示。百度在这个上面有非常好的技术,叫做Dense-Box,这个用到了百度非常多的产品线上,这个技术做得非常好。我们现在也在研发图片分割,我们希望能够对图片进行更好的一些理解。其实我下面还会提到一个我们现在在建的非常大的做视频分割的一个团队。
现在还有一个技术是OCR,这个应该比较容易理解。就是拍一张照片,上面如果有文字的话,我们能够把文字检测出来,还要知道这些文字是什么意思。如果是翻译的话,我们还可以直接把英文翻译成中文。百度现在的OCR应该说在国内是做得非常领先的,甚至在国际上也是做得非常领先的。我们其实几年以来都是有5个指标是世界第一。 这里面有两个Demo我们可以看一下,这是拍身份证的,比如说就这么一拍,我们下面的信息就可以直接提取出来了。我们也可以拍银行卡,这个都已经在产品里面了,现在拍银行卡的功能都已经在百度钱包里面了。
我刚才提到百度正在搭建一个非常重要的团队,就是对于视频有比较好的理解。在座的也有很多清华或者各个学校来的学生,如果大家在这个上面有兴趣的话,应该考虑到百度来,我们一起来做这个事情。
我们觉得下一步计算机视觉里面非常重要的一个事情就是视频的理解,当然视频的理解分两部分,一部分是我们叫Low Level的,我们希望这个视频知道这些是路面,这些是车,这些是树,另外是建筑物。我们希望在这个层面得到99%以上的精度,在这个领域里面大家知道这是非常难做的一个事情。
百度现在正在搭建一个非常重要的团队,就是我们希望做医疗图像的分析。比如说CT的图片,进来之后我们希望利用人工智能的方法,或者是图像识别的方法去看这个里面是不是有癌细胞,还是所有的细胞都是正常的。因此,我们认为这个应该会是AI在医疗上面一个非常重要的落地方向。 (责任编辑:本港台直播) |