python爬虫实例之爬取智联招聘数据

        实习在公司时领导要求学习python,python的爬虫作为入门来说是十分友好的,话不多说,开始进入正题。

       主要是爬去智联的岗位信息进行对比分析出java和python的趋势,爬取字段:工作地点,薪资范围,要求学历,要求工作经验,公司性质。

        爬虫是将 页上的数据用程序抓取下来,保存在本地的一个过程,即代替人去操作那些重复的,无聊的,没有尽头的数据收集工作。学习爬虫之前最要有一些web方面的基础(没有没关系, 上都有资料),要清楚浏览器的请求流程:

浏览器发送请求给服务器,服务器响应请求后返回对应页面的源代码和数据,然后浏览器解析源代码,生成对应的页面。

那在这里就要说一下 了,动态 页的爬去和静态 页不同,动态 页中可能用到了什么ajax技术,js什么的,会使页面源代码和服务器解析后生成的代码有差异,所以刚开始最好先爬去静态页面练习(智联招聘是静态的)。

         python的模块十分丰富,爬虫模块有urllib,urllib2,requests,其中requests是最受欢迎的模块,它提供了十分简便的请求方法,使我们能快速写出一个爬虫,例:

            resp=requests.get(“http://www.baidu.com”)

这样的一行代码即向百度服务器发送了请求,可以通过print resp.content  来查看百度的源代码。

我们现在打开智联招聘,在搜索框输入java,然后点击搜索,可以看到 址栏路径的变化:

https://sou.zhaopin.com/jobs/searchresult.ashx=java&sm=0&p=1

然后再搜索python你会发现, 址会变成:

https://sou.zhaopin.com/jobs/searchresult.ashx=python&sm=0&p=1

哎呦,有点意思了啊,然后你再点击下一页你会发现, 址变成了:

https://sou.zhaopin.com/jobs/searchresult.ashx=python&sm=0&p=2

是不是很有规律,是的,kw=*   *就是我们搜索框中输入的内容,p=  后面就是页码,

分析到这里,爬去智联基本就结束了,我们只需要将我们想搜索的关键词给到kw,然后用for循环去循环访问 页就可以了,

不过拿到 页源代码后需要提取出数据,这个步骤也有很多包可以选择,最基础的re,然后xpath,还有beautiful soup等等,选取一种解析即可,然后取出数据就ok了,给出自己的小白水平的代码:

其实做到这里之后我们爬取到了java和python两种语言的岗位情况,可以针对地域,薪资,学历,工作经验要求等做出统计分析,然后可以用echarts进行可视化,得出分析结果,这里就不给出可视化的过程了。

加油,明天会更好!

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树 络爬虫urllib211385 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2018年4月1日
下一篇 2018年4月1日

相关推荐