欢迎加入python学习交流群 667279387
爬虫学习
爬虫学习(一)—爬取电影天堂下载链接
爬虫学习(二)–爬取360应用市场app信息
代码环境:windows10, python 3.5
主要用的软件包:SQLAlchemy,re
初学爬虫,没有使用scrapy框架,而是自己简单打了一个框架。代码里面也没有考虑记录日志以及错误处理等方面的内容,只是能简单工作。如果需要可以在此源码的基础上面进行修改。源码下载地址在文章末尾。
1、分析 页源码
本次抓取主要抓取了app名字,下载次数,评分,开发公司,最新版本 ,更新时间。
先打开一个具体的软件页面进行查看 页源码
下面是截取含有具体信息的两个 页源码的片段。
本次解析也没有xpath解析,而是直接用正则来匹配。下面是正则匹配时用到的代码。
下面是解析页面的用法
其他字段的解析基本类似。
2、设计数据库字段
这里是利用了SQLAlchemy来实现ORM。
数据库管理的代码,主要实现了数据库的初始化,以及数据的插入和查询。
3、抓取页面
获取到一个页面里出来的所有app的soft_id
获取单个app的详细信息
这里简单粗暴的用了多个循环来获取,实际考虑性能的话,此处应该优化 。后续有时间了再学习研究下怎么优化。
获取到的数据截图如下:
欢迎加入python学习交流群 667279387
文章已被收录至官方知识档案Python入门技能树 络爬虫App的爬取211387 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!