一、软件和库的准备：

python环境安装配置：安装python所需要的环境（此处就不详细的进行说明了，百度查询），最好是使用python3.x版本，虽然现在大部分公司的项目都还是在使用2.x版本，但是3.x才是目前主流的，以后的项目肯定使用3.x居多。

需要使用到的库：这里我们要使用的库主要有urllib.request、csv以及BeautifulSoup

urllib库：这个安装python自带的库，也可以使用第三方更加方便强大的库requests，这个库需要自己去手动安装，在cmd里面使用pip install requests安装就好了

csv库：属于安装pytohn环境自带的库，不需要再去手动安装

BeautifulSoup库：这个库需要手动安装，BeautifulSoup是一个页解析库，它支持很多解析器，不过最主流的有两个。一个是python标准库，一个是lxml HTML 解析器。两者的使用方法相似：

使用pip安装 pip install beautifulsoup安装，如果出现这种问题：
SyntaxError: Missing parentheses in call to ‘print’. Did you mean print(int “Unit tests have failed!”)/p>

—————————————-
Command “python setup.py egg_info” failed with error code 1 in C:Users17933AppDataLocalTemppip-install-n7hwndycbeautifulsoup

是因为是python3.6对beautifulsoup4支持不够好

就需要使用pip install –upgrade –force-reinstall beautifulsoup4安装；

如果是使用的Anaconda安装就方便多了，直接在环境里面点击安装就好了

二、爬虫的编写：

相关包的导入：
模拟浏览器得到数据
查找要爬取的部分

我们在页面上找到我们所需要的信息部分，我们需要日期、天气以及温度

找到对应的代码部分

全图如下:

之后我们再往下看，我们所需要的信息都存在ul标签中，我们需要查找ul标签

所需要的信息在ul标签里面的li标签内部，而且不止一个，所以我们需要使用find_all()方法

4.对查找到部分进行数据的爬取

我们最后将所有的数据保存在list之中在进行写入文件

日期在li标签的h1标签之中

天气在li标签的第一个p标签之中

温度在第二个p标签之中的span标签之中

5.写入文件：

三、全部代码

四、感受

爬虫大致分为四步：

1.写好模拟浏览器请求头

2.明确你要爬取那些数据

3.将数据爬取下来并保存(这是最难的一步)

4.将数据保存到文件

大家对我的文章如有什么见解，请留言，我们一起进步。

如果此文章对你有所帮助那就是我最大的荣幸，请为我留下一个赞，算是随我莫大的鼓励。

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树络爬虫urllib208951 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

Python爬虫入门实战——–一周天气预 爬取

一、软件和库的准备：

二、爬虫的编写：

三、全部代码

四、感受

相关推荐

Python爬虫入门实战——–一周天气预爬取