Databricks 统一分析平台提供 AutoML Toolkit

2009 年 2 月 12 日

Databricks
（ Apache Spark
数据分析引擎的母公司）最近发布了统一数据分析平台
，其中包括一个名为 AutoML Toolkit
的自动化机器学习工具。

通过自动化数据科学工作流的各个步骤——包括特征工程、超参数调优、模型搜索和部署——以获得完全受控和透明的增强 ML 体验。该工具包可用于帮助数据科学团队提高生产效率。这是 Databricks 实验室
提供的面向公民和专家数据科学家的定制化解决方案。在 MLflow
中，AutoML 工具包的执行会被自动跟踪。
Databricks 实验室项目是一个实验性的端到端监督学习解决方案，用于自动化特征清理、特征向量化、模型选择和训练、超参数优化和选择、批量预测以及记录模型结果和训练运行等步骤。
统一分析平台主要包括以下三个组件：

Databricks 工作区：以统一数据科学和工程为目标，工作区利用共享交互式笔记本、工具和 API 处理所有分析过程（从 ETL 到模型训练和部署）。
Databricks 运行时：运行时组件
帮助进行数据准备，并持续训练和部署AI/ML 应用程序的模型。它支持 Hyperopt、MLlib 和 MLflow 之间的集成
，从而支持分布式有条件的超参数调优、自动跟踪和增强的可视化。开始时，用户可以使用预配置的集群，包括一些流行的 ML 框架，如 Hadoop
、 Kafka
、Spark、 Parquet
、 TensorFlow
、 Keras
和 Scikit Learn
。
Databricks 云服务：云服务通过在云上提供完全托管的服务来帮助管理基础设施的复杂性。云服务包括微软Azure 集成
和Amazon Web Services（ AWS
）。

Databricks 还提供与第三方机器学习工具的集成，如 H2O
的 Sparkling Water
、 DataRobot
和 XGBoost
。
要了解有关新的分析平台和 AutoML toolkit 的更多信息，请查看以下资源：

超参数调优指南
MLflow 超参数调优最佳实践（幻灯片
、视频
）
MLflow 深度学习超参数优化进阶（幻灯片
、视频
）
Zynga 使用 PySpark 和 Pandas UDFs 实现自动化预测模型

原文链接：

Databricks’ Unified Analytics Platform Supports AutoML Toolkit

About The Author

shine