基于 Spark 的管道可以不费力地多次处理输入数据,甚至输入数据量高于 Hive 的巅峰处理量。例如,我们训练一个较大的语言模型,它可以在几小时内生成一个包含 192 亿 N-grams 的语言模型。能够用更多的数据并更快地运行试验训练的能力可以促使产生更高质量的模型。正如我们在我们自己的试验中观察到的,大规模语言模型通常会在相关的应用中得到更好的结果。 总结 Spark 的灵活性可以从以下方面为我们提供帮助: 用模块化的方式表达应用逻辑,相较于整体的 SQL 字符串,拥有更强的可读性和可持续性。 在计算的任何阶段都可以对数据实现自定义处理(例如,分区,重洗) 高性能的计算机引擎可以节省计算资源和试验时间 拥有输入更大规模数据的扩展能力可以训练出高质量的语言模型 建立一个通用的应用,可以用于在不同的产品上生成语言模型。 由于支持运行用户二进制文件(如 Hive's TRANSFORM)和与Hive数据交互的兼容性,我们可以从早期的解决方案实行改进。 Facebook 对加入 Spark 开源社区表示激动,并将共同协作致力于开发出 Spark 的全部潜能。 原文链接:https://code.facebook.com/posts/678403995666478/using-apache-spark-for-large-scale-language-model-training ©本文由机器之心编译,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |