Scrapy爬虫及案例剖析

2012 年 10 月 20 日

由于互联网的极速发展，所有现在的信息处于大量堆积的状态，我们既要向外界获取大量数据，又要在大量数据中过滤无用的数据。针对我们有益的数据需要我们进行指定抓取，从而出现了现在的爬虫技术，通过爬虫技术我们可以快速获取我们需要的数据。但是在这爬虫过程中，信息拥有方会对爬虫进行反爬处理，我们就需要对这些困难进行逐个击破。

刚好前段时间做了爬虫相关的工作，这里就记录下一些相关的心得。

本文案例代码地址 https://github.com/yangtao9502/ytaoCrawl

这里我是使用的 Scrapy 框架进行爬虫，开发环境相关版本号：

本地开发环境建议使用 Anaconda 安装相关环境，否则可能出现各种依赖包的冲突，相信遇到过的都深有体会，在你配置相关环境的时候就失去爬虫的兴趣。本文提取页面数据主要使用 Xpath ，所以在进行文中案例操作前，先了解 Xpath 的基本使用。

创建 Scrapy 项目

scrapy 创建项目很简单，直接一条命令搞定，接下来我们创建 ytaoCrawl 项目：

注意，项目名称必须以字母开头，并且只包含字母、数字和下划线。创建成功后界面显示：

初始化项目的文件有：

其中各个文件的用途：

spider 目录用于存放爬虫文件。
items.py 文件最为对象，将爬虫数据保存在该对象中。
middlewares.py 文件为中间件处理器，比如请求和响应的转换都在里面实现。
pipelines.py 文件为数据管道，用于数据抓取后输送。
settings.py 文件为配置文件，爬虫中的一些配置可在该文件中设置。
scrapy.cfg 文件为爬虫部署的配置文件。

了解几个默认生成的文件后再看下面的 scrapy 结构原理图，相对好理解。

这样我们的一个 scrapy 爬虫项目就此创建完成。

创建 Spider

我们先创建一个 python 文件 ytaoSpider，该类必须继承 scrapy.Spider 类。接下来我们就以爬取北京 58 租房信息为例进行分析。

通过执行命令启动爬虫，指定爬虫名字：

当我们有多个爬虫时，可以通过 scrapy list 获取所有的爬虫名。

开发过程中当然也可以用 mian 函数在编辑器中启动：

这时将在我们启动的目录中下载生成我们爬取的页面。

翻页爬取

上面我们只爬取到了第一页，但是我们实际抓取数据过程中，必定会涉及到分页，所以观察到该网站的分页是将最后一页有展示出来（58最多只展示前七十页的数据），如图。

从下图观察到分页的 html 部分代码。

接下来通过 Xpath 和正则匹配获取最后一页的页码。

通过对租房链接进行分析，可以看出不同页码的链接为 https://bj.58.com/chuzu/pn + num 这里的 num 代表页码，我们进行不同的页码抓取时，只需更换页码即可，parse 函数可更改为：

执行后，打印出的信息如图：

因为爬虫是异步抓取，所以我们的打印出来的并非有序数据。上面所介绍的是通过获取最后一页的页码进行遍历抓取，但是有些网站没有最后一页的页码，这时我们可以通过下一页来判断当前页是否为最后一页，如果不是，就获取下一页所携带的链接进行爬取。

获取数据

这里我们就获取标题，面积，位置，小区，及价格信息，我们需要先在 item 中创建这些字段，闲话少说，上代码。

至此，我们已获取我们想要的数据，通过打印 parse 中的 item 可看到结果。

数据入库

我们已抓取到页面的数据，接下来就是将数据入库，这里我们以 MySQL 存储为例，数据量大的情况，建议使用使用其它存储产品。首先我们先在 settings.py 配置文件中设置 ITEM_PIPELINES 属性，指定 Pipeline 处理类。

在 YtaocrawlPipeline 类中处理数据持久化，这里 MySQL 封装工具类 mysqlUtils 代码可在 github 中查看。通过在 YtaoSpider#parse 中使用 yield 将数据传输到 YtaocrawlPipeline#process_item 中进行处理。

在数据库中，可以看到成功抓取到数据并入库。

反爬机制应对

既然有数据爬虫的需求，那么就一定有反扒措施，就当前爬虫案例进行一下分析。

字体加密

通过上面数据库数据的图，可以看到该数据中存在 乱码 ，通过查看数据乱码规律，可以定位在数字进行了加密。

同时，通过打印数据可以看到 \xa0 字符，这个（代表空白符）在 ASCII 字符 0x20~0x7e 范围，可知是转换为了 ASCII 编码。

因为知道是字体加密，所以在下载的页面查看 font-family 字体时，发现有如下图所示代码：

看到这个 fangchan-secret 字体比较可疑了，它是在js中动态生成的字体，且以 base64 存储，将以下字体进行解码操作。

通过将 fontTools 库的 TTFont 将字体进行解析，得到如下字体映射结果:

刚好十个映射，对应的 0~9 的数量，但是查找相应规律，1~9 后，出现了个 10，那么这里对应的数字到底是一个怎么样的规律呢？还有上面映射对应的 key 不是16进制的 ASCII 码，而是一个纯数字，是不是可能是十进制的码呢？接下来验证我们的设想，将页面上获取的十六进制的码转换成十进制的码，然后去匹配映射中的数据，发现映射的值的非零数字部分刚好比页面上对应的数字字符大 1 ,可知，真正的值需要我们在映射值中减 1。代码整理后

现在，我们将所有爬取的数据进行解密处理，再查看数据：

上图中，进行解密后，完美解决数据乱码！

验证码和封禁IP

验证码一般分为两类，一类是刚开始进入时，必须输入验证码的，一类是频繁请求后，需要验证码验证再继续接下来的请求。对于第一种来说，就必须破解它的验证码才能继续，第二种来说，除了破解验证码，还可以使用代理进行绕过验证。对于封禁IP的反爬，同样可使用代理进行绕过。比如还是使用上面的网址爬虫，当它们识别到我可能是爬虫时，就会使用验证码进行拦截，如下图：

接下来，我们使用随机 User-Agent 和代理IP进行绕行。先设置 settings.USER_AGENT，注意 PC端和移动端不要混合设置的 User-Agent，否则你会爬取数据会异常，因为不同端的页面不同：

在请求中设置随机 User-Agent 中间件

设置动态IP中间件

最后在 settings 配置文件中开启这些中间件。

现在为止，设置随机 User-Agent 和动态IP绕行已完成。

部署

使用 scrapyd 部署爬虫项目，可以对爬虫进行远程管理，如启动，关闭，日志调用等等。部署前，我们得先安装 scrapyd ，使用命令：

安装成功后，可以看到该版本为 1.2.1 。

部署后，我们还需要一个客户端进行访问，这里就需要一个 scrapyd-client 客户端：

修改 scrapy.cfg 文件

启动 scrapyd：

如果是 Windows，要先在 X:\xx\Scripts 下创建 scrapyd-deploy.bat 文件

项目部署到 Scrapyd 服务上：

远程启动 curl http://localhost:6800/schedule.json -d project=ytaoCrawl -d spider=ytaoSpider

执行启动后，可以在 http://localhost:6800/ 中查看爬虫执行状态，以及日志

除了启动可远程调用外，同时 Scrapyd 还提供了较丰富的 API：

服务中爬虫状态查询 curl http://localhost:6800/daemonstatus.json
取消爬虫 curl http://localhost:6800/cancel.json -d project=projectName -d job=jobId
展示项目 curl http://localhost:6800/listprojects.json
删除项目 curl http://localhost:6800/delproject.json -d project=projectName
展示爬虫 curl http://localhost:6800/listspiders.json?project=projectName
获取项目所有版本号 curl http://localhost:6800/listversions.json?project=projectName
删除项目版本号 curl http://localhost:6800/delversion.json -d project=projectName -d version=versionName

更多详情 https://scrapyd.readthedocs.io/en/stable/api.html

总结

本文篇幅有限，剖析过程中不能面面俱到，有些网站的反爬比较棘手的，只要我们一一分析，都能找到破解的办法，还有眼睛看到的数据并不一定是你拿到的数据，比如有些网站的html渲染都是动态的，就需要我们去处理好这些信息。当你走进crawler的世界，你就会发现，其实挺有意思的。最后，希望大家不要面向监狱爬虫，数据千万条，遵纪守法第一条。

关注【ytao】，更多的好文输出

About The Author

bjmayor

程序员，码农，php,python,ios,android,go，产品经理，创业。

M	T	W	T	F	S	S
« Jan
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30