在成立的三年中,Clarifai 已收集了 10 亿张被标记的图片用于训练。它们被分装在超过 100 个数据集中,这些数据集被用于训练特定模型,包括婚礼,旅行,色情内容等等;此外,对于需要解决特定问题的大型企业而言,Clarifai 团队也会在他们的内部数据基础上进行工作。这些数据是在互联网上无法访问的,Zeiler 认为科技巨头们在这点上并不占有优势,他的团队占有优势——他们可以使用这些数据,同时有着三年的领先经验,可以用最快的方式处理现实世界的问题。 当然,用数据训练建立的单独系统,在某种程度上来说是私有的,不应该被全部公开,面对这些连大公司都十分棘手的问题,Clarifai 将所需数据存储在安全协议框架内的云平台中以保证它们的安全,无论合作方是大公司还是使用他们 API 的小团队。 训练数据中存在的偏见是最近业界热议的话题。面对这个问题,Zeiler 虽然未能透露太多,但他认为,不平衡的数据和错误的标签在人工标记工作中是经常会出现的问题。它们在现实情况下屡见不鲜,但在学术界,很少有人探索这些问题。对于 Clarifai 来说,现实世界中出现的问题是研究中的重点,他们一直在增加人手,试图解决这些问题。 面对未来,Zeiler 信心满满地称团队拥有一份雄伟的蓝图,包括新产品和慈善活动,但现阶段主要的目标还是实现他们的路线图。 「我们的愿景是让人工智能回答所有问题,这需要全世界所有人都参与进来,因为多样化的团队才是强大的团队,多样化的用户会造就完美的人工智能。」 ©本文为机器之心原创,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |