如何利用BeautifulSoup选择器抓取京东网商品信息
2015 年 10 月 27 日
标签下的,那么接下来我们就像剥洋葱一样,一层一层的去获取我们想要的信息。
直接上代码,如下图所示:
通常URL编码的方式是把需要编码的字符转化为%xx的形式,一般来说URL的编码是基于UTF-8的,当然也有的于浏览器平台有关。在Python的urllib库中提供了quote方法,可以实现对URL的字符串进行编码,从而可以进入到对应的网页中去。
之后利用美丽的汤去提取目标信息,如商品的名字、链接、图片和价格,具体的代码如下图所示:
在本例中,有个地方需要注意,部分图片的链接是空值,所以在提取的时候需要考虑到这个问题。其解决方法有两个,其一是如果使用img[‘src’]会有报错产生,因为匹配不到对应值;但是使用get[‘src’]就不会报错,如果没有匹配到,它会自动返回None。此外也可以利用try+except进行异常处理,如果匹配不到就pass,小伙伴们可以自行测试一下,这个代码测速过程在上图中也有提及哈。使用get方法获取信息,是bs4中的一个小技巧,希望小伙伴们都可以学以致用噢~~~
最后得到的效果图如下所示:
新鲜的狗粮出炉咯~~~
小伙伴们,有没有发现利用BeautifulSoup来获取目标信息比正则表达式要简单一些呢?
想学习更多Python网络爬虫与数据挖掘知识,可前往专业网站: http://pdcfighting.com/