迅速上手python 络爬虫

 

前言:

Python:一种解释型编程语言

络爬虫:简单理解为是一种处理数据的框架

 

一、运行环境

您需要准备一台电脑,以Windows操作系统为例,上面装有如下软件:

1、谷歌chrome浏览器(安装方式省略)

2、python 3(安装软件的过程省略)

3、cmd命令提示符(自带)

 

 

二、数据清洗——整理 站的数据

1、使用chrome浏览器浏览数据

2、使用开发者工具定位到数据模块(您所需的内容)

3、使用csv文件保存源数据

 

三、数据爬取——获得 站的数据

爬取某租房 站的信息,以xxx作为项目名。需要抓取的字段有:标题、地址、价格、出租类型、评分,居住人数。在item.py文件中定义爬虫的字段信息。

关键源码如下:

from scrapy.item import Item,Field

 

class xxxItem(Item)

title = Field()

address = Field()

price = Field()

lease_type = Field()

suggestion = Field()

bed = Field()

 

pipeline.py文件用于爬虫数据的处理,打开文件,确认关键信息无误

class xxxPipeline(object):

def process_item(self,item,spider):

return item

需要将pipeline文件修改,以便获取在自己编写的.py文件中事先定义好的字段信息(抓取后的字段信息会自动保存在桌面,运行程序后,打开桌面上名为xxx.txt文件,就可以查看到所有抓取到的字段信息)

settings.py文件用于对爬虫项目进行一些基础设置,如请求头的填写,设置pipeline文件等。关键源码如下:

BOT_NAME = ‘xxx’

 

SPIDER_MODULES = [‘xxx.spiders’]

NEWSPIDER_MODULE = ‘xxx.spiders’

需要将settings文件修改,添加内容以便爬取指定的信息(下图第6行代码)

 

最后编写自己的.py文件,命名为myspider。关键源码如下

 

2、运行程序,查看效果

名为“xxx”的爬虫项目编写好后,可以开始运行Scrapy爬虫程序。

在命令提示符(cmd)输入:scrapy crawl xxx

或者可以在爬虫项目文件夹内,新建一个__main__.py的文件来运行爬虫程序,并且过滤空白信息。关键源码如下

from scrapy import cmdline

cmdline.execute(“scrapy crawl xxx”.split())

 

四、书籍推荐

《零基础学Python 络爬虫》

读书笔记目录如下图:包含Python知识点、Python项目案例、Python面试题库。

 

Python源码文件如下图

 

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫urllib211387 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2019年4月9日
下一篇 2019年4月9日

相关推荐

","name":"企业软件","url":"/author/jinwe2022"} }