前言
一直以来,爬虫都是许多同学学Python的目的之一,就连我敬爱的领导,也经常不耻下问一些爬虫方面的问题。因此,我们开始实战——以豆瓣Top 250为例,试水一下基础的爬虫。
“玩转豆瓣二百五”系列分为上下两部,所有代码,可以在我的Github里Douban_250找到~
工欲善其事,必先利其器。以下浏览器操作,都基于最新版Chrome~
获取电影列表网页数据
爬虫爬虫,实质还是抓取网络数据= =爬虫不得急,可要一步步来——首先,我们希望获得每一个电影的链接,把它们存起来,留着后续爬取具体内容备用。
打开豆瓣Top 250首页,会看到电影列表的页面,往下翻,会看到总共有10页,每页25个电影。打开第二页,可以看到浏览器的地址变成了https://movie.douban.com/top250?start=25&filter=
,咱们观察一下链接——链接有一部分,start=25
,是不是很突兀?按这样推算,第三页应该是start=50
,第一页就是start=0
嘛= =试了一下,果真是的= =
因此,爬取250个电影链接,不难规划。具体如下: