前言:
Python:一种解释型编程语言
络爬虫:简单理解为是一种处理数据的框架
一、运行环境
您需要准备一台电脑,以Windows操作系统为例,上面装有如下软件:
1、谷歌chrome浏览器(安装方式省略)
2、python 3(安装软件的过程省略)
3、cmd命令提示符(自带)
二、数据清洗——整理 站的数据
1、使用chrome浏览器浏览数据
2、使用开发者工具定位到数据模块(您所需的内容)
3、使用csv文件保存源数据
三、数据爬取——获得 站的数据
爬取某租房 站的信息,以xxx作为项目名。需要抓取的字段有:标题、地址、价格、出租类型、评分,居住人数。在item.py文件中定义爬虫的字段信息。
关键源码如下:
from scrapy.item import Item,Field
class xxxItem(Item)
title = Field()
address = Field()
price = Field()
lease_type = Field()
suggestion = Field()
bed = Field()
pipeline.py文件用于爬虫数据的处理,打开文件,确认关键信息无误
class xxxPipeline(object):
def process_item(self,item,spider):
return item
需要将pipeline文件修改,以便获取在自己编写的.py文件中事先定义好的字段信息(抓取后的字段信息会自动保存在桌面,运行程序后,打开桌面上名为xxx.txt文件,就可以查看到所有抓取到的字段信息)
settings.py文件用于对爬虫项目进行一些基础设置,如请求头的填写,设置pipeline文件等。关键源码如下:
BOT_NAME = ‘xxx’
SPIDER_MODULES = [‘xxx.spiders’]
NEWSPIDER_MODULE = ‘xxx.spiders’
需要将settings文件修改,添加内容以便爬取指定的信息(下图第6行代码)
最后编写自己的.py文件,命名为myspider。关键源码如下
2、运行程序,查看效果
名为“xxx”的爬虫项目编写好后,可以开始运行Scrapy爬虫程序。
在命令提示符(cmd)输入:scrapy crawl xxx
或者可以在爬虫项目文件夹内,新建一个__main__.py的文件来运行爬虫程序,并且过滤空白信息。关键源码如下
from scrapy import cmdline
cmdline.execute(“scrapy crawl xxx”.split())
四、书籍推荐
《零基础学Python 络爬虫》
读书笔记目录如下图:包含Python知识点、Python项目案例、Python面试题库。
Python源码文件如下图
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫urllib211387 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!