入职半年小结 | 给应届校招算法同学的几点建议

  • 「5.优化模型时,细节和全局要兼顾」。我的经验是,迭代模型的时候,先全流程把控,确保了解清楚你的模型从输入到输出在全链路上都会有哪些潜在风险,会受到哪些可能的影响。比如:从 「原始特征」
    「模型输入特征」
    的特征处理环节;从 「模型输入特征」
    「模型打分输出」
    的环节。每个环节都可以模拟和测试一些CASE。确保你的整个流程是可控,输入输出是符合你的预期的。当然,大部分通用的环节一般都不会出现问题。毕竟有专门的工程团队在维护,我们有的时候更应该关注优化的细节。对于细节型问题,指标提升很大程度不是依赖模型,而是底层的数据和特征。比如挖掘特征的时候,你这个特征挖掘出来必须是准确无误,反映真实数据分布,挖掘出来的特征的覆盖度有没有问题,特征分布如何。就我入职半年的感受而言,越底层的收益越容易拿,比如数据和特征。一定要学会细致的debug方法,特征分析/监控、损失曲线、模型参数分布、算法工程调试等等都算,这一点个人认为是取得收益的关键点。如果能在取得指标提升的基础上,也能有模型结构方面的创新,那固然好,但是实际情况是很难的,模型结构的创新必须是立足于业务目标和真实场景,这一点本人还没有达到这种能力。题外话,个人认为业界最优雅最有代表性的模型结构上的创新就是FM、DIN、以及近期的CAN等工作。