目录
一、Fiddler介绍
1.Fiddler简介
2.FiddlerPC端配置
3.Fiddler手机端配置
二、今日头条app抓包实战
1.源代码获取
2.json提取
3.信息存储
4.自动化爬虫构建
一、Fiddler介绍
1.Fiddler简介
Fiddler是一个http协议调试代理工具,它能够记录并检查所有你的电脑和互联 之间的http通讯,设置断点,查看所有的“进出”Fiddler的数据(指cookie,html,js,css等文件)。Fiddler 要比其他的 络调试器要更加简单,因为它不仅仅暴露http通讯还提供了一个用户友好的格式。
通俗来讲,Fiddler 的工作原理相当于一个代理,配置好以后,我们从手机 App 发送的请求会由 Fiddler 发送出去,服务器返回的信息也会由 Fiddler 中转一次。所以通过 Fiddler 我们就可以看到 App 发给服务器的请求以及服务器的响应了。
然后在 Connections 标签页下面勾选上 Allow remote computers to connect,允许 Fiddler 接受其他设备的请求。
打开手机无线连接,选择要连接的热点。长按选择修改 络,在代理中填上我们电脑的 IP 地址和 Fiddler 代理的端口。如下图所示:
二、今日头条app抓包实战
1.源代码获取
首先我们在上述配置环境下打开手机今日头条app,并搜索“疫情”:
略微梳理一下就可以得到当前请求的代码:
2.json提取
接下来我们的任务就在于分析响应的json文件,通过req.keys()命令获取键信息,注意查找,发现在key为scripts的value中包含文章的所有信息,而值为Javascript代码字符串,因此通过Beautiful库进行解析:
3.信息存储
在相关文章信息提取完之后即可选择信息存储方式,我们通常采用json、csv、xlsx等格式进行存储:
4.自动化爬虫构建
最后一步,也就是找到翻页规律,完成自动化爬虫构建。我们在搜索出的结果页依次用手向下滑动,发现继续弹出search的url,观察下图:
Python 络爬虫数据采集实战(一):基础知识
Python 络爬虫数据采集实战(二):Requests和Re库
Python 络爬虫数据采集实战(三):豆瓣电影top250爬取
Python 络爬虫数据采集实战(四): 页解析库
Python 络爬虫数据采集实战(五):同花顺动态 页爬取
Python 络爬虫数据采集实战(六):Selenium库爬取京东商品
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫urllib211389 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!