Python-爬取HTML 页数据

Python-爬取HTML 页数据

软件环境

  • Mac 10.13.1 (17B1003)
  • Python 2.7.10
  • VSCode 1.18.1

摘要

Beautiful Soup 介绍

Beautiful Soup提供一些简单的、python式的用来处理导航、搜索、修改分析树等功能。

Beautiful Soup 官方中文文档

特点

  • 简单:它是一个工具箱,通过解析文档为用户提供需要抓取的数据
  • Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。

Beautiful Soup 的安装

  • 安装 pip (如果需要):
  • 安装 Beautiful Soup:

示例

确定获取数据范围

本示例是获取项目列表,打开Chrome的调试栏,找到对应的位置,如下图:

  • urlopen(url, data, timeout)
    • url: 请求的 URL
    • data: 访问 URL 时要传送的数据
    • timeout: 超时时间
  • HttpUtils.build_opener(httphandler, httpshandler)
    • 开启日志,将会在调试控制台输出 络请求日志,方便调试
  • 必要的 try-catch,以便可以捕获到 络异常

解析获取的数据

创建BeautifulSoup对象

获取待遍历的对象

遍历子节点,解析并获取所需参数

输出解析结果,如下:

解析结果
TIPS
  • 解析html代码,主要是运用了BeautifulSoup的几大对象,TagNavigableStringBeautifulSoupComment,可以参考Beautiful Soup 官方中文文档

  • https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
  • http://www.jianshu.com/p/972c95610fdc

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览208102 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年1月8日
下一篇 2022年1月8日

相关推荐