如何利用BeautifulSoup选择器抓取京东网商品信息

2015 年 10 月 27 日

标签下的，那么接下来我们就像剥洋葱一样，一层一层的去获取我们想要的信息。

直接上代码，如下图所示：

通常URL编码的方式是把需要编码的字符转化为%xx的形式，一般来说URL的编码是基于UTF-8的，当然也有的于浏览器平台有关。在Python的urllib库中提供了quote方法，可以实现对URL的字符串进行编码，从而可以进入到对应的网页中去。

之后利用美丽的汤去提取目标信息，如商品的名字、链接、图片和价格，具体的代码如下图所示：

在本例中，有个地方需要注意，部分图片的链接是空值，所以在提取的时候需要考虑到这个问题。其解决方法有两个，其一是如果使用img[‘src’]会有报错产生，因为匹配不到对应值；但是使用get[‘src’]就不会报错，如果没有匹配到，它会自动返回None。此外也可以利用try+except进行异常处理，如果匹配不到就pass，小伙伴们可以自行测试一下，这个代码测速过程在上图中也有提及哈。使用get方法获取信息，是bs4中的一个小技巧，希望小伙伴们都可以学以致用噢~~~

最后得到的效果图如下所示：

新鲜的狗粮出炉咯~~~

小伙伴们，有没有发现利用BeautifulSoup来获取目标信息比正则表达式要简单一些呢？

想学习更多Python网络爬虫与数据挖掘知识，可前往专业网站： http://pdcfighting.com/

About The Author

maynard

懒散，不想无聊

M	T	W	T	F	S	S
« Jan
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Related Posts

About The Author

maynard