今日鸡汤
今天我们要爬取糗事百科中的图片, 站
案例分析
我们做爬虫首先需要找规律,在这其中最喜欢的就是分页栏了。有分页栏就代表当你按下一个页码的时候,HTML 页面会发起请求。有请求就肯定有数据,有数据就一定能抓到。
好,接下来回归正题~
我们打开这个 站,快速的将滚动条拖动到最下面,看到了我们最喜欢的分页栏
简简单单同步请求,肯定用了 get 方法,既然为同步请求,我们就需要解析 HTML 页面,获取每个 标签中的 属性。
接下来继续观察浏览器地址栏中的规律,当我们在第一页的时候为
这个地址。
我们切换至第二页为 这个地址。
这其中有些规律。那将最后的数字改为 3 访问到的页面就是第三页。
好啦,html 跳转的规律和 HTML 请求方式,我们都已经知晓。
接下来解析 HTML 页面,在浏览器中右击查看桌面源代码。
然后使用开发者工具中的元素定位,定位一张图片。
这里需要注意,获取的 属性需要添加 前缀。
好啦,分析完毕啦,接下来 Let’s Coding~
开码
- 第一步:导入所需模块
- 第二步:用户输入爬取第几页的内容,或者定义爬取多少图片
- 第三步,设置
- 第四步:发请求
- 第五步:解析返回数据
- 第六步:保存图片
引入 、、
标题中的三个模块分别为:请求模块,正则表达式模块,系统模块
创建文件夹
用户动态指定爬取图片
发请求并解析数据
为获取的图片链接发请求并存储图片
完整代码
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览210545 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!