python爬虫实例——爬取智联招聘信息

2017年8月3日上午8:35 • 软件开发

目录

- 页分析
- 实现代码分析
- 结果
- 总结
- github代码地址

页分析

以https://xiaoyuan.zhaopin.com/full/538/0_0_160000_1_0_0_0_1_0 为例。

页的组织结构如下：

那么我们需要爬取的内容包括(以上图为例)：

职位详细介绍的url：xiaoyuan.zhaopin.com/job/CC000920419J9000072500
职位名称：C/C++
公司名称：中国移动通信有限公司-中国移动在线服务有限公司
发布时间：19小时前
职责描述：1、负责图像识别算法开发、优化和硬件驱动开发调试工作；2、根据算法工程师研发结果进行底层算法模型编写、优化和API接口开发工作；3、配合硬件工程师进行硬件接口驱动开发、调试和优化工作；……

实现代码分析

导入库，xlwt是将数据写入excel时需要用到的库

可以根据需要将url换成自己需要的址

正则匹配式不能忽略注意换行符和空格，.*替任意长的字符，如果正则匹配式写错了，程序不会错，但匹配结果会为空。
正则匹配式的书写要以在于用(.*代替要爬取的内容，前后要有标志性的class，这样才能够匹配到正确的内容。

若怀疑正则匹配写错了，可以通过输出items（这是所有爬取的信息）来查错。
新手建议一个个匹配，匹配成功一个，再把正则匹配式拓展，写下一个匹配，这样容易查出匹配式的差错（方便调试）

保存结果，excel名字可以自己改，表头信息是按照爬取信息的顺序排列的

这是主程序

结果

这里写图片描述

这就是运行该程序后保存的excel文件，可见内容都正确的爬取了下来。

总结

github代码地址

完整代码文件和excel文件见：
https://github.com/IrisChu1108/Web-Crawler-for-ZhiLian-Recruit

以上就是全部内容了，有问题欢迎留言指正！大家共同进步～

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树络爬虫urllib208386 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

在摩根士丹利的C++之父｜编程语言系列上篇

上一篇 2017年8月3日

王者回归！ Adobe Creative Cloud 打造云时代的创意体验

下一篇 2017年8月3日