Python爬虫神器pyppeteer

文章目录

  • 简介
  • 安装
  • 初试
  • 指定浏览器路径
  • 移除Chrome正受到自动测试软件的控制
  • 全屏
  • 页面内容
  • 异步运行
  • 错 OSError: Unable to remove Temporary User Data
  • 错 pyppeteer.errors.TimeoutError: Navigation Timeout Exceeded: 30000 ms exceeded.
  • 封装
  • 反爬虫检测
  • 参考文献

简介

pyppeteer 是非官方 Python 版本的 Puppeteer 库,浏览器自动化库,由日本工程师开发。

Puppeteer 是 Google 基于 Node.js 开发的工具,调用 Chrome 的 API,通过 JavaScript 代码来操纵 Chrome 完成一些操作,用于 络爬虫、Web 程序自动测试等。

pyppeteer 使用了 Python 异步协程库 asyncio,可整合 Scrapy 进行分布式爬虫。

pyppeteer维护得不好;puppet 木偶;puppeteer 操纵木偶的人。

  1. 查看 Chromium 存放路径

解压到: 下

将文件夹 重命名为 即可

全屏

页面内容

异步运行

或 ,建议只用在一次性读取的页面,需要滚动的不建议使用

错 OSError: Unable to remove Temporary User Data

启动浏览器时指定参数 存放缓存,保证硬盘够大且不是系统盘

错 pyppeteer.errors.TimeoutError: Navigation Timeout Exceeded: 30000 ms exceeded.

封装

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年6月26日
下一篇 2020年6月26日

相关推荐