最近学校刚开始开设爬虫课,我也刚刚如入门,尝试写了一个爬去成都市的一周的天气预 。
目录
一、软件和库的准备:
二、爬虫的编写:
三、全部代码
一、软件和库的准备:
-
python环境安装配置:安装python所需要的环境(此处就不详细的进行说明了,百度查询),最好是使用python3.x版本,虽然现在大部分公司的项目都还是在使用2.x版本,但是3.x才是目前主流的,以后的项目肯定使用3.x居多。
-
需要使用到的库:这里我们要使用的库主要有urllib.request、csv以及BeautifulSoup
- urllib库:这个安装python自带的库,也可以使用第三方更加方便强大的库requests,这个库需要自己去手动安装,在cmd里面使用pip install requests安装就好了
- csv库:属于安装pytohn环境自带的库,不需要再去手动安装
- BeautifulSoup库:这个库需要手动安装,BeautifulSoup是一个 页解析库,它支持很多解析器,不过最主流的有两个。一个是python标准库,一个是lxml HTML 解析器。两者的使用方法相似:
- 使用pip安装 pip install beautifulsoup安装,如果出现这种问题:
SyntaxError: Missing parentheses in call to ‘print’. Did you mean print(int “Unit tests have failed!”)/p>
—————————————-
Command “python setup.py egg_info” failed with error code 1 in C:Users17933AppDataLocalTemppip-install-n7hwndycbeautifulsoup
是因为是python3.6对beautifulsoup4支持不够好
就需要使用pip install –upgrade –force-reinstall beautifulsoup4安装;
如果是使用的Anaconda安装就方便多了,直接在环境里面点击安装就好了
二、爬虫的编写:
- 相关包的导入:
- 模拟浏览器得到数据
- 查找要爬取的部分
我们在页面上找到我们所需要的信息部分 ,我们需要日期、天气以及温度
找到对应的代码部分
全图如下:
之后我们再往下看,我们所需要的信息都存在ul标签中,我们需要查找ul标签
所需要的信息在ul标签里面的li标签内部,而且不止一个,所以我们需要使用find_all()方法
4.对查找到部分进行数据的爬取
我们最后将所有的数据保存在list之中在进行写入文件
日期在li标签的h1标签之中
天气在li标签的第一个p标签之中
温度在第二个p标签之中的span标签之中
5.写入文件:
三、全部代码
四、感受
爬虫大致分为四步:
1.写好模拟浏览器请求头
2.明确你要爬取那些数据
3.将数据爬取下来并保存(这是最难的一步)
4.将数据保存到文件
大家对我的文章如有什么见解,请留言,我们一起进步。
如果此文章对你有所帮助那就是我最大的荣幸,请为我留下一个赞,算是随我莫大的鼓励。
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫urllib208951 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!