python爬虫实例之爬取智联招聘数据

实习在公司时领导要求学习python，python的爬虫作为入门来说是十分友好的，话不多说，开始进入正题。

主要是爬去智联的岗位信息进行对比分析出java和python的趋势，爬取字段：工作地点，薪资范围，要求学历，要求工作经验，公司性质。

爬虫是将页上的数据用程序抓取下来，保存在本地的一个过程，即代替人去操作那些重复的，无聊的，没有尽头的数据收集工作。学习爬虫之前最要有一些web方面的基础（没有没关系，上都有资料），要清楚浏览器的请求流程：

浏览器发送请求给服务器，服务器响应请求后返回对应页面的源代码和数据，然后浏览器解析源代码，生成对应的页面。

那在这里就要说一下了，动态页的爬去和静态页不同，动态页中可能用到了什么ajax技术，js什么的，会使页面源代码和服务器解析后生成的代码有差异，所以刚开始最好先爬去静态页面练习（智联招聘是静态的）。

python的模块十分丰富，爬虫模块有urllib,urllib2,requests，其中requests是最受欢迎的模块，它提供了十分简便的请求方法，使我们能快速写出一个爬虫，例：

resp=requests.get(“http://www.baidu.com”)

这样的一行代码即向百度服务器发送了请求，可以通过print resp.content 来查看百度的源代码。

我们现在打开智联招聘，在搜索框输入java，然后点击搜索，可以看到址栏路径的变化：

https://sou.zhaopin.com/jobs/searchresult.ashx=java&sm=0&p=1

然后再搜索python你会发现，址会变成：

https://sou.zhaopin.com/jobs/searchresult.ashx=python&sm=0&p=1

哎呦，有点意思了啊，然后你再点击下一页你会发现，址变成了：

https://sou.zhaopin.com/jobs/searchresult.ashx=python&sm=0&p=2

是不是很有规律，是的，kw=* *就是我们搜索框中输入的内容，p= 后面就是页码，

分析到这里，爬去智联基本就结束了，我们只需要将我们想搜索的关键词给到kw，然后用for循环去循环访问页就可以了，

不过拿到页源代码后需要提取出数据，这个步骤也有很多包可以选择，最基础的re，然后xpath，还有beautiful soup等等，选取一种解析即可，然后取出数据就ok了，给出自己的小白水平的代码：

其实做到这里之后我们爬取到了java和python两种语言的岗位情况，可以针对地域，薪资，学历，工作经验要求等做出统计分析，然后可以用echarts进行可视化，得出分析结果，这里就不给出可视化的过程了。

加油，明天会更好!

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树络爬虫urllib211385 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！