为什么写这篇短文
1. 最近在做一个 DL×CV 的 proj,需要大量的广东美食图片数据,刚好写一发爬虫。
2. 发现身边很多同学突然看起了 python,而上手 proj 就是写爬虫,然而网上资料纷繁复杂,纠结是用 bs 还是 scrapy。
这里的介绍非常简要,涉及深层姿势的部分请出门右拐官网。
一些背景姿势
在 bs 和 scrapy 之间做选择前,首先当然要了解他们是什么,差别何在。
* Scrapy 是一个非常成熟的工具包,你只要写很少的东西就能达到你要的效果——创建一个 spider 下载网页并提取其中有用的数据。
* BeautifulSoup 则是一个面向网页的工具,它能够解析 DOM 树并提取某些特定的节点(比如
,
等)。
也就是说,只用 bs 是做不了爬虫的,必须要引入 requests 之类的包用来下载网页,