题和帖子内容。
入门
0.
准备工作
需要准备的东西:
Python
、
scrapy
、一个
IDE
1.
技术部已经研究决定了,你来写爬虫。
随便建一个工作目录,
然后用命令行建立一个工程,
工程名为
miao
,
可以替换为你喜欢的
名字。
scrapy startproject miao
随后你会得到如下的一个由
scrapy
创建的目录结构
在
spiders
文件夹中创建一个
python
文件,比如
miao.py
,来作为爬虫的脚本。
内容如下:
import
scrapyclass
NgaSpider(scrapy.Spider):
name
=
“NgaSpider”
host
=
“http://bbs.ngacn.cc/”
#
start_urls
是
我
们
准
备
爬
的
初
始
页
start_urls
=
[
“http://bbs.ngacn.cc/thread.phpd=406”,
]
#
这个是解析函数,如果不特别指
明的话,
scrapy
抓回来的页面会由这个函数进行解析。
#
对页面的处理和分析工作都
在
此
进
行
,
这
个
示
例
里
我
们
只
是
简
单
地
把
页
面
内
容
打
印
出
来
。
def
parse(self,
response):
print response.body
2.
跑一个试试p>
如果用命令行的话就这样:
cd miao scrapy crawl NgaSpider
你可以看到爬虫君已经把你坛星际区第一页打印出来了,当然由于没有任何处理,
所以混
杂着
html
标签和
js
脚本都一并打印出来了。
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫urllib215272 人正在系统学习中 相关资源:php论坛软件MyBBv1.4.8简体中文版-其它代码类资源-CSDN文库
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!