在时间关系数据上AutoML:一个新的前沿

现实世界中的机器学习系统需要数据科学家和领域专家来建立和维护,而这样的人才却总是供不应求。 自动化机器学习(AutoML)由于在构建和维护机器学习工作流中的关键步骤中所展现出的广泛适用性,使得该领域的研究前景一片光明。它减轻了人类专家的工作负担,使他们能够专注于复杂、非重复和具有创造性的学习问题。

AutoML的最新进展主要包括从时间关系数据库中自动发现有意义的表间关系的复杂功能合成(例如,深度特征综合),使用模型自动调整进行概念漂移(例如,AutoGBT),以及深度学习模型的自动设计(例如,神经结构搜索),如图1所示。 这些研究进展提高了数据科学家的生产力,从而显着提高了AutoML系统的实用性,并使得非机器学习专家也能够处理现实中不同领域的数据科学问题。

图1 AutoML进化史

在时间关系数据库中使用AutoML

在诸如在线广告,推荐系统,自动与客户交流等机器学习应用中,数据集可以跨越多个具有时间戳的相关表来显示事件的时间安排。 而传统方法则需要专家们通过繁琐的试错法手动组合表格来获取有意义的特征。 用于处理时态关系数据的AutoML考虑了相关关键字段的临时连接,并通过自动发现重要的表间关系来自动进行特征合成。

在没有域信息的情况下,实现基于时态关系数据的真实世界的AutoML案例包括自动生成有用的时态信息和跨多个子表格有效合并特征,且不会导致数据泄露。 除了这些困难外,还需要自动选择最佳的学习模型和受资源约束的超参数集,以使解决方案足够通用,并且符合时间和内容预算。

有趣的是,今年的KDD杯开展了以AutoML为主题的挑战赛,邀请了全世界AI / ML领域的研究和从业人员为时态关系数据库开发最新的AutoML。

我们的解决方法

我们的工作流程包括预处理,跨关系表的自动特征合成,模型学习和预测这些步骤。预处理包括对于偏斜校正的特征变换以及平方和三次特征的增强。它还包括分类特征的频率编码,而特征是使用子表中聚合指标的时间联接自动合成的。多数类的实例将进行下列采样以保持1:3的比率。渐进式决策树(GBDT)的Catboost实现可用于学习算法,交叉验证则可用于参数调整来决定最佳树的数量。图2概括地描述了我们的工作流程:

图2 我们的模型管道

时态数据聚合

当时态关系数据跨越多个表格时,找出表间的重要关系然后以最佳方式执行数据聚合将有助于特征提取。为了提取正确的特征表示,可对数字特征使用均值、求和等聚合运算,而对分类特征则采用计数、众数等运算。求频率,聚合指标的计算需要在适当的时间窗口上使用交叉验证完成。

特征处理

连接多个数据库的表会产生高度偏斜的特征。 我们的特征预处理步骤包括偏斜校正以及特征变换和增强。 特征增强包括添加具有周期性的数字特征的平方和三次方变换以及正则或余弦,日期时间特征的变换(例如,月,时和分)来丰富特征空间。还可对分类特征进行频率编码来进一步扩大特征空间。

模型选择

在计算和存储方面,尝试几种线性和非线性模型的成本可能会非常昂贵。由于梯度增强决策树在处理分类特征和可扩展性方面的鲁棒性,我们将模型组合限制在CatBoost的实现上。 同时使用交叉验证对超参数(例如树的数量)进行调整,以避免过度拟合。

我们的解决方案拓展了现有的AutoML研究项目组合,允许使用涉及时态关系数据库学习的用例。可以访问Github存储库来查看我们的解决方案。

AutoML趋势

随着行业越来越关注从AI中快速获取价值并减少机器学习模型从原型到生产部署的周期时间,能够降低AI准入门槛并实现AI工作流程自动化的AutoML已成为重要推动力。AutoML社区越来越关注于支持真实案例的使用,包括从结构化和非结构化数据、时态关系数据库以及受概念漂移影响的数据流中学习。

尽管AutoML最初专注于最佳机器学习管道的自动构建,随着时间的推移,对此类管道自动维护处理它的范围正在扩大,模型自治性进一步增加 。AutoML的进步和强大的计算基础设施的可利用性将推动人机智能的融合,使得人类专家能够更好地将精力集中在学习复杂的,非重复和创造性的问题上,从而获得更优的解决方案。

原文标题:

AutoMLfor Temporal Relational Data: A New Frontier

原文链接:

https://www.kdnuggets.com/2019/10/automl-temporal-relational-data.html