在日常 PC 端的Python爬虫过程工作中,Chrome 浏览器是我们常用的一款工具。
鉴于 Chrome 浏览器的强大,Chrome 上应用商店很多强大的插件可以帮助我们快速高效地进行数据爬虫。
可以将登录后的 Cookies 先保存到本地,借助 cookielib 库,直接爬取登录后的数据。
避免了抓包和模拟登录,帮助我们快速地进行爬虫。
Web Scraper
Xpath Helper 是一种结构化 页元素选择器,支持列表和单节点数据获取,
它可以快速地定位 页元素。
对比 Beautiful Soup,由于 Xpath 页元素查找性能更有优势;Xpath 相比正则表达式编写起来更方便。
编写 Xpath 之后会实时显示匹配的数目和对应的位置,方便我们判断语句是否编写正确。
Toggle JavaScript
User-Agent Switcher for Chrome 插件可以很方便的修改浏览器的 User-Agent。
可以模拟不同的浏览器、客户端,包含 Android、IOS 去模拟请求。
对于一些特殊 站,切换 User-Agent 可以更方便地进行数据爬取。
JSON-handle

JSON-handle 是一款功能强大的 JSON 数据解析 Chrome 插件。
针对数据量大的场景,可以做局部选取分析。
点赞 0
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫urllib211385 人正在系统学习中 相关资源:开源的爬虫软件Heritrix3.1.0_开源爬虫-Java工具类资源-CSDN文库
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!