机器学习面临的挑战是工程问题，不是数据科学问题

2012 年 11 月 17 日

本文讲述了从数据科学转向机器学习工程的途径及意义。
本文最初发表在 Towards Data Science 博客上，经原作者 Caleb Kaiser 授权，InfoQ 中文站翻译并分享。

在过去 20 年，机器学习一直围绕着这样一个问题展开： 我们能不能训练一个模型去做一些事情？

当然，有些事情可以是任何任务。比如，预测句子中的下一个单词、识别照片中的面孔、生成某种声音。我们的目标是想看一看，如果我们能够做出准确的预测，那么机器学习是否还有效。
多亏了数据科学家几十年来的研究工作，我们现在才有了如此多的模型，可以用来做很多事：

OpenAI 的 GPT-2（以及现在的 GPT-3），可以生成人们能够阅读的文本，效果还过得去。
像 YOLOv5 这样的对象检测模型（官方版本的争论暂且不提）可以解析每秒 140 帧的视频中的对象。
像 Tacotron 2 这样的文本到语音模型可以生成听起来像人类的语音。

数据科学家和机器学习研究人员所做的工作令人难以置信，因此，第二个问题便自然而然地出现了：

我们可以用这些模型来构建什么？以及我们如何才能做到呢？

这显然不是一个数据科学的问题，而是一个工程问题。为了回答这一问题，一门新学科应运而生： 机器学习工程
。

About The Author

peace