答:对于不同的问题,不同的场景,会对优化算法有不同的需求,比如收敛速度、稀疏性、稳定性、是否便于实现、是否便于分布式并行、是否访存友好等等,先知支持多种优化算法(batch/stochastic 的都有),比如 lbfgs、FOBOS、RDA、FTRL、SVRG、Frank-wolfe 等等都会有涉及,同时针对不同的应用场景也需要做一定的改进和调整。 Q4:超参数学习这块是通过 bayes 还是强化学习呢? 答:目前产品中的是 bayesian 的,其他方式也正在尝试。 Q5:在何种情况下如何判定自动特征不能起作用而改为人工特征呢? 答:有很多特征选择的算法和策略,同时,对于实际的问题,可以先用自动特征处理取得一个初步的效果,再从实际模型效果去看是否需要人工介入做进一步的优化,自动特征工程是一个很难的问题,目前其实是很难做到 100% 全自动的,我们平台期望能够尽最大可能的降低人力。 Q6:先知在实现过程中用到参数服务器了没有?模型的训练,是采用异步 asp,还是同步 bsp,还是半异步的 ssp 这种?如果是异步,如何解决收敛困难的问题? 答:前面有提到,我们用到了 parameter server。模型训练支持多种模式,对于不同的算法,不同的计算环境,会采用不同的同步方式。其实目前大部分情况下,如果数据切分 计算调度得当,异步和同步差别没有特别大,计算资源有较大差别的时候,还是建议带版本控制;更好的方式是采用类似的计算资源做好数据切分和计算调度。 Q7: 第四范式的先知和谷歌的 Tensor flow 有什么区别? 答: 从覆盖范围上,先知是一个机器学习应用全生命周期管理的平台,而 Tensorflow 对应的是先知的 GDBT 部分。而对于 GDBT 和 Tensorflow 的区别来说,前面也讲到,首先 Tensorflow 更多是为算法研究目的而存在的,已经有一些 benchmark 说明 tensorflow 比目前很多开源的深度机器学习框架都要慢。当然我个人觉得,因为 Tensorflow 本身不是为大规模工业应用设计的,只是现在好的框架的确太贫乏了。Tensorflow 的一些设计理念比如高兼容性,跨平台也是很好的。这方面 GDBT 也都有考虑和规划。 Q8:GDBT 有没有解决模型并行训练问题?还是只依靠数据并行? 答:也分不同的算法,GDBT 同时支持模型分布式和数据分布式。 Q9:GDBT 怎么能够同时支持连续、离散的这两种数据的融合训练? 答:解决这个问题,一个是效率,首先框架底层上要能够支持很灵活的调度,能够根据连续和离散的数据的计算特性做针对性的设计,比如连续复杂模型是计算密集,可能需要调度到 GPU 运算,离散数据可能是 IO 密集,需要做好计算调度,资源异步调度;更重要的是在算法上做更多的新的改进,因为学术界大多情况下是分别考虑,我们有一系列自己重新设计的算法。对算法细节有兴趣的同学,可以考虑加入到第四范式,或者等我们的专利公开:) Q10:请问 GDBT 对于异构计算的支持情况如何? 答:GDBT 目前支持 CPU 和 GPU 的异构计算。在百度的时候,我们有过在模型预测时使用 FPGA,不过,最近 GPU 进展不错,比如 nvidia 有一些新的芯片比如 Tesla P4 的出现,可能会对 FPGA 有一定的冲击,对于 FPGA 的使用,目前我们研究上还是跟随状态,并没有集成到先知产品中。 Q11:第四范式的人工智能平台先知可以直接替代 Spark 么? 答: Prophet 诞生的原因是因为我们为各种行业提供服务,每个行业的差异化乍一看都不少,按照传统的方式,我们需要 case by case 的去应对,给出对应的方法,然后进行实施。但在这个 case by case 的过程中,大部分的精力是花在如何把对领域专有知识的理解(业务理解)转换为机器学习过程的具体操作(数据科学家的工作),对于端到端的两端,数据 和 服务,反而是比较通用的。那么如果能够利用技术和算法,解决专有知识到对应机器学习过程的映射问题,我们就可以建设一个通用的平台来使得 AI 应用到不同场景的代价变小,实现人工智能的傻瓜机。Prophet 就是这个目标的第一步。 (责任编辑:本港台直播) |