GPU底层优化 | 如何让Transformer在GPU上跑得更快？

2014 年 10 月 19 日

欢迎关注“

计算机视觉研究院

”

图 1：基于 Transformer 架构的 NLP 模型规模

图 2：基于 Transformer 架构的应用

图 3：Transformer 模型的架构

图 4：Beam Search Decoding (Decoder + Beam Search) 流程图

Transformer 家族模型

根据具体模型架构和应用的不同，研究者将 Transformer 家族的模型分为四大类（如图 5）：

图 5：经典的基于 Transformer 结构的 AI 模型

图 6：Transformer 架构中 Self-attention 和 Feedforward 模块的 CUDA kernel 融合和重构，参见[14]

图 7：Transformer FP16 版本的几个关键 CUDA kernel 采用的量化精度

图 8：Transformer CUDA 实现的内存管理

图 9：输入 Padding 移除的方案 – 通过引入 Offset Mask，移除 Padding 的 Sequence 和原始的 Sequence 可以互相转换重建

图 10：通过对 CUDA Kernel 的分类判断是否可以移除 Padding

图 11：Transformer GEMM 配置的优化

总结

参考文献

[1] M. Luong et al, Effective Approaches to Attention-based Neural Machine Translation, arXiv:1508.04025v5 (2015).

[2] A. Vaswani et al. Attention is all you need, Advances in neural information processing systems (2017).

[3] J. Devlin et al. Bert: Pre-training of deep bidirectional transformers for language understanding, arXiv:1810.04805 (2018).

[4] A. Radford et al. Language Models are Unsupervised Multitask Learners, 2019.

[5] https://www.microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-microsoft/

[6] C. Raffe et al. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, arXiv:1910.10683v3 (2019).

[7] T. Brown et al, Language Models are Few-Shot Learners, arXiv: 2005.14165v4 (2020).

[8] N. Carion et al, End-to-End Object Detection with Transformers, arXiv: 2005.12872 (2020).

[9] M. Chen et al, Generative Pretraining from Pixels, ICML (2020).

[10] F. Yang et al, Learning Texture Transformer Network for Image Super-Resolution, CVPR (2020).

[11] D. Zhang et al, Feature Pyramid Transformer, ECCV (2020).

[12] Y. Zhao et al, The SpeechTransformer for Large-scale Mandarin Chinese Speech Recognition. ICASSP 2019.

[13] A. Gulati et al, Conformer: Convolution-augmented Transformer for Speech Recognition, arXiv:2005.08100v1 (2020).

[14] https://github.com/NVIDIA/DeepLearningExamples/tree/master/FasterTransformer

我们开创“ 计算机视觉协会 ”知识星球一年有余，也得到很多同学的认可，我们定时会推送实践型内容与大家分享，在星球里的同学可以随时提问，随时提需求，我们都会及时给予回复及给出对应的答复。

如果想加入我们“ 计算机视觉研究院 ”，请扫二维码加入我们。我们会按照你的需求将你拉入对应的学习群！

计算机视觉研究院 主要涉及 深度学习 领域，主要致力于 人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等 研究方向。 研究院 接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重” 研究 “。之后我们会针对相应领域分享实践过程，让大家真正体会 摆脱理论 的真实场景，培养爱动手编程爱动脑思考的习惯！

计算机视觉研究院

长按扫描二维码关注我们

演道网

GPU底层优化 | 如何让Transformer在GPU上跑得更快？

About The Author

peace

2025年八月
M	T	W	T	F	S	S
« Jan
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Related Posts

About The Author

peace