迅速上手python 络爬虫

前言：

Python：一种解释型编程语言

络爬虫：简单理解为是一种处理数据的框架

一、运行环境

您需要准备一台电脑，以Windows操作系统为例，上面装有如下软件：

1、谷歌chrome浏览器（安装方式省略）

2、python 3（安装软件的过程省略）

3、cmd命令提示符（自带）

二、数据清洗——整理站的数据

1、使用chrome浏览器浏览数据

2、使用开发者工具定位到数据模块（您所需的内容）

3、使用csv文件保存源数据

三、数据爬取——获得站的数据

爬取某租房站的信息，以xxx作为项目名。需要抓取的字段有：标题、地址、价格、出租类型、评分，居住人数。在item.py文件中定义爬虫的字段信息。

关键源码如下：

from scrapy.item import Item,Field

class xxxItem(Item)

title = Field()

address = Field()

price = Field()

lease_type = Field()

suggestion = Field()

bed = Field()

pipeline.py文件用于爬虫数据的处理，打开文件，确认关键信息无误

class xxxPipeline(object):

def process_item(self,item,spider):

return item

需要将pipeline文件修改，以便获取在自己编写的.py文件中事先定义好的字段信息（抓取后的字段信息会自动保存在桌面，运行程序后，打开桌面上名为xxx.txt文件，就可以查看到所有抓取到的字段信息）

settings.py文件用于对爬虫项目进行一些基础设置，如请求头的填写，设置pipeline文件等。关键源码如下：

BOT_NAME = ‘xxx’

SPIDER_MODULES = [‘xxx.spiders’]

NEWSPIDER_MODULE = ‘xxx.spiders’

需要将settings文件修改，添加内容以便爬取指定的信息（下图第6行代码）

最后编写自己的.py文件，命名为myspider。关键源码如下

2、运行程序，查看效果

名为“xxx”的爬虫项目编写好后，可以开始运行Scrapy爬虫程序。

在命令提示符（cmd）输入：scrapy crawl xxx

或者可以在爬虫项目文件夹内，新建一个__main__.py的文件来运行爬虫程序，并且过滤空白信息。关键源码如下

from scrapy import cmdline

cmdline.execute(“scrapy crawl xxx”.split())

四、书籍推荐

《零基础学Python 络爬虫》

读书笔记目录如下图：包含Python知识点、Python项目案例、Python面试题库。

Python源码文件如下图

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树络爬虫urllib211387 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

迅速上手python 络爬虫

前言：

一、运行环境

二、数据清洗——整理 站的数据

三、数据爬取——获得 站的数据

四、书籍推荐

相关推荐

二、数据清洗——整理站的数据

三、数据爬取——获得站的数据