python爬虫——scrapy的使用

  • 安装scrapy
  • scrapy的基础教程
  • scrapy使用代理

安装scrapy

由于小哥的系统是win7,所以以下的演示是基于windows系统。linux系统的话,其实命令都一样的,没啥差,windows与linux都可以用。

安装好后,先看下scrapy是否安装上了,确认下,我的是Scrapy 1.8.0

好了,安装很简单。用scrapy创建个新项目吧。命令行下输入,这里注意,命令会在当前目录下创建ts项目。


创建新项目

我是在桌面下创建的ts目录,创建成功后给的提示截图如下。

  • spiders目录——爬虫代码放这里
  • items.py ——要抓取的字段
  • middleware——中间件
  • pipelines——管道文件
  • settings——设置文件

先不用管这么细,我们先跑起来。

  • name——爬虫的名字,运行爬虫的时候就看这个参数。
  • allowed_domains——抓取的域名限制,这是我们刚才在命令行输入的。PS:抓百度,当然限制在百度内了,别抓到淘宝上去了,先不跨界
  • start_urls——要抓取的url列表,类型list
  • parse函数——抓取后的动作,可以自己定义

代码改造下,按照我们的预期来

还记得刚才的parse函数么,不过命令创建的是啥事都没干。自己定义下,让它做点事,也好知道代码是按照我们的预期去跑的。

在来运行下,还记得刚才的运行命令吗得了。行,我在说一遍,

使用代理

准备工作,找个可靠的代理IP,剩下的跟着我的步骤走。

修改中间件配置

这里就需要用到中间件了,找到文件middleware.py,打开看看文件。

settings.py文件也需要修改,需要修改两处:

1、header参数,记住爬虫要模拟用户的真实请求。找到USER_AGENT参数,改成自己浏览器的ua,不知道怎么找ua的同学可以看我前面的一篇教程(点击跳转)中有提到。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年1月12日
下一篇 2020年1月12日

相关推荐