动手实践:选择存储工具(如 Google Cloud,Amazon 等);为存储数据、训练和预测编码;可以使用开源框架(liblinear,Weka,Tensorflow 等)或自己的实现模型; 优点:可能成本更低(只需为聚类使用/数据存储付费);非常灵活;流行的框架有强大的社区支持 缺点:人力投入多(需要一个开发者/数据科学家的团队)
数据处理框架: Map / Reduce + Hadoop——分布式存储和处理系统 M / R——处理大量数据的范式 Pig,Hive,Cascalog——在Map / Reduce 上的框架 Spark——数据处理和训练的全栈解决方案(full stack solution) Google Cloud Dataflow
ML 工具:ML 即服务 ML即服务(ML as a service):预构建全栈解决方案(使用堆栈轻松训练和部署模型) 特点:较少参与;不同组件无缝工作(存储,聚类,训练和预测等);可能不是很灵活 其他选择:Amazon ML;Microsoft Azure;IBM Watson;Google Cloud ML
Google 云服务: 云存储(Cloud Storage) BigQuery Cloud DataLab Cloud DataFlow TensorFlow Google Cloud Machine Learning (alpha) 预训练模型(图像识别、语言检测和翻译、语音识别)
TensorFlow 开源计算引擎,专为神经网络设计,同时也可兼容其他非神经网络训练 将你需要做的计算表示为数据流图(包括节点、边和张量) 非常灵活:使用预定义的、构建神经网络常用的组件;可以根据特定的计算需求写你自己所需的图 在 CPU 和GPU上都能运行,在桌面端、服务器和移动端平台都能运行 使用 Python 和 C++,还有交互的iPython 使用教程 开发者社区非常活跃
谷歌云机器学习(alpha) 大规模机器学习最好的云上运行,这样开发起来更简单,运行速度也更快。 谷歌云机器学习的深度学习框架也用于驱动 Gmail、Google Photos 等产品 易于管理的 no-ops 基础设施 能训练任何大小数据集的模型 使用 TensorFlow 原生深度学习算法 有互动的 Datalab 模型开发设计教程 适用于多种不同类型的数据,与谷歌云平台产品整合
预训练的模型 (责任编辑:本港台直播) |