鼠年春节，用GPT-2写对联和对对联

2009 年 1 月 2 日

鼠年春节临近，发现AINLP公众号对话平台对对联的需求在不断上升，而所用的自动对联功能是去年基于深度学习机器翻译思想（seq2seq）上线的一个自动对对联的对话模块：风云三尺剑，花鸟一床书—对联数据集和自动对联机器人。

这一年来，以BERT为代表的预训练模型不断推陈出新，席卷整个自然语言处理（NLP）领域，这其中NLP的难题之一自然语言处理生成（NLG）也得到了很大的助力，特别是去年上半年 OpenAI 的 GPT-2 的推出，非常惊艳，不过GPT-2的模型主要是基于英文领域的语料训练的，虽然到目前为止已经发布了含有有15亿参数的完整模型，对于英文领域的自动文本生成非常有帮助，但是对于中文领域的NLG来说还是很受限。

回到中文领域，我们之前推荐过AINLP技术交流群杜则尧同学的开源项目： GPT2-Chinese ：《【Github】GPT2-Chinese：中文的GPT2训练代码》，这个项目可以针对中文数据进行GPT-2模型的训练，可以写诗，新闻，小说，或是训练通用语言模型。所以对于自动对联生成来说，我能想到的就是基于GPT2-Chinese和对联数据训练一份对联领域的GPT2模型，用于对联自动生成：写对联和对对联。幸运的是，对联数据已经有了，依然是我们去年使用过 couplet-dataset ，特别感谢提供这份数据的同学，这份对联数据包含70多万条对联，唯一可惜的是没有横批，要是有横批，就可以造更完整的自动写对联和对对联系统了。

特别需要说明的是，这里并不是基于一个大的中文 GPT-2 模型进行特定领域 finetune 的，虽然目前已经有了大型的中文 GPT-2 预训练模型： gpt2-ml ，但是和 GPT2-Chinese 是两个体系，而 GPT2-Chinese 目前还不支持这个大模型的迁移。关于如何使用 GPT2-Chinese 进行对联数据的 GPT2 模型训练，这个项目的代码和文档都写得非常清楚，直接参考即可，如果有问题，可以查看一下issue，我遇到的问题基本上就是通过文档和issue解决的，这里提几个注意的点：

1）训练数据可以按GPT2-Chinese训练数据的格式要求写个脚本进行转换；

2）训练时请将参数 min-length 设置为一个较小的数字，默认为128，由于对联数据长度比较短，按默认的设置训练后只会得到乱码，我直接设置为1;

3）根据自己GPU显存的大小调整 batch_size 和配置参数, 这里 batch_size 默认为8，训练时在1080TI的机器上会出现OOM，将其设置为4就可以完全跑通了，其他参数不用动；

对联 GPT-2 模型训练完成后，可以直接基于 GPT2-Chinese 里面的 generate.py 脚本进行测试，很方便，我基于 generate.py 和 flask-restful 写了一个 server 版本，对接到AINLP公众号后台了，感兴趣的同学可以关注AINLP公众号，直接进行测试：

关键词“写对联”触发，例如输入“写对联鼠年”，对联模型会基于“鼠年”进行自动续写，会给出以“鼠年”开头大概3个对联：