Python爬虫入门实战——–一周天气预 爬取

    最近学校刚开始开设爬虫课,我也刚刚如入门,尝试写了一个爬去成都市的一周的天气预 。

 

 

目录

一、软件和库的准备:

二、爬虫的编写:

三、全部代码


一、软件和库的准备:

  • python环境安装配置:安装python所需要的环境(此处就不详细的进行说明了,百度查询),最好是使用python3.x版本,虽然现在大部分公司的项目都还是在使用2.x版本,但是3.x才是目前主流的,以后的项目肯定使用3.x居多。

  • 需要使用到的库:这里我们要使用的库主要有urllib.request、csv以及BeautifulSoup

  1. urllib库:这个安装python自带的库,也可以使用第三方更加方便强大的库requests,这个库需要自己去手动安装,在cmd里面使用pip install requests安装就好了
  2. csv库:属于安装pytohn环境自带的库,不需要再去手动安装
  3. BeautifulSoup库:这个库需要手动安装,BeautifulSoup是一个 页解析库,它支持很多解析器,不过最主流的有两个。一个是python标准库,一个是lxml HTML 解析器。两者的使用方法相似:

 

 

  1. 使用pip安装 pip install beautifulsoup安装,如果出现这种问题:

     SyntaxError: Missing parentheses in call to ‘print’. Did you mean print(int “Unit tests have failed!”)/p>

        —————————————-
    Command “python setup.py egg_info” failed with error code 1 in C:Users17933AppDataLocalTemppip-install-n7hwndycbeautifulsoup

      是因为是python3.6对beautifulsoup4支持不够好

                   

就需要使用pip install –upgrade –force-reinstall beautifulsoup4安装;

                   

如果是使用的Anaconda安装就方便多了,直接在环境里面点击安装就好了


 

二、爬虫的编写:

  1. 相关包的导入:
  2. 模拟浏览器得到数据

     

  3. 查找要爬取的部分

我们在页面上找到我们所需要的信息部分  ,我们需要日期、天气以及温度

 找到对应的代码部分

全图如下:

之后我们再往下看,我们所需要的信息都存在ul标签中,我们需要查找ul标签

所需要的信息在ul标签里面的li标签内部,而且不止一个,所以我们需要使用find_all()方法

4.对查找到部分进行数据的爬取

我们最后将所有的数据保存在list之中在进行写入文件

日期在li标签的h1标签之中

天气在li标签的第一个p标签之中

温度在第二个p标签之中的span标签之中

5.写入文件:

 


三、全部代码

 

 

四、感受

爬虫大致分为四步:

1.写好模拟浏览器请求头

2.明确你要爬取那些数据

3.将数据爬取下来并保存(这是最难的一步)

4.将数据保存到文件

 

 

大家对我的文章如有什么见解,请留言,我们一起进步。

如果此文章对你有所帮助那就是我最大的荣幸,请为我留下一个赞,算是随我莫大的鼓励。

 

 

 

 

 

 

 

 

 

 

 

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫urllib208951 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2018年10月6日
下一篇 2018年10月6日

相关推荐