目录
-
- 页分析
- 实现代码分析
- 结果
- 总结
- github代码地址
页分析
以https://xiaoyuan.zhaopin.com/full/538/0_0_160000_1_0_0_0_1_0 为例。
页的组织结构如下:
那么我们需要爬取的内容包括(以上图为例):
- 职位详细介绍的url:xiaoyuan.zhaopin.com/job/CC000920419J9000072500
- 职位名称:C/C++
- 公司名称:中国移动通信有限公司-中国移动在线服务有限公司
- 发布时间:19小时前
- 职责描述:1、负责图像识别算法开发、优化和硬件驱动开发调试工作;2、根据算法工程师研发结果进行底层算法模型编写、优化和API接口开发工作;3、配合硬件工程师进行硬件接口驱动开发、调试和优化工作;……
实现代码分析
- 导入库,xlwt是将数据写入excel时需要用到的库
- 可以根据需要将url换成自己需要的 址
- 正则匹配式不能忽略注意换行符和空格,.*替任意长的字符,如果正则匹配式写错了,程序不会 错,但匹配结果会为空。
- 正则匹配式的书写要以在于用(.*代替要爬取的内容,前后要有标志性的class,这样才能够匹配到正确的内容。
- 若怀疑正则匹配写错了,可以通过输出items(这是所有爬取的信息)来查错。
- 新手建议一个个匹配,匹配成功一个,再把正则匹配式拓展,写下一个匹配,这样容易查出匹配式的差错(方便调试)
- 保存结果,excel名字可以自己改,表头信息是按照爬取信息的顺序排列的
- 这是主程序
结果

这就是运行该程序后保存的excel文件,可见内容都正确的爬取了下来。
总结
github代码地址
完整代码文件和excel文件见:
https://github.com/IrisChu1108/Web-Crawler-for-ZhiLian-Recruit
以上就是全部内容了,有问题欢迎留言指正!大家共同进步~
文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫urllib208386 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!