linkedin 页爬虫难点:
- 页进入:登录 页(个人账 登录);API接口进入(需要进行一系列复杂且不懂的申请操作,且每次爬的数据量有限);虚拟 址登入,用requests的Session维持登录状态(目前已不可行,https://www.linkedin.com/uas/login-submit)
- 爬虫难点: 页项目没有明确的#css可以爬,必须找到相应的class,且 页element处于更新中,这次爬了不代表下次能用相同的规则爬。
页进入
用selenium驱动chrome: Rselenium package
我起初首先看的 址,对我有启蒙作用,然而有一些方法已经失效,aja渲染也没必要用,只能帮助进入,无法帮助爬虫,且在python环境下完成
使用R软件的Rselenium包自动驱动;非常详细地告诉你R怎么配置chromedriver,需要用到java执行档
更详细生动的python selenium的操作,selenium和Rselenium其实原理都相同,互通的。
领英 页爬虫
可参考大概思路,python,且方法已经过时,可借鉴:selenium进入 页+获取 页的element+关闭自动测试+python爬虫
我们需要完成的几个任务:
- 输入人名,找到人名的profileurl。
- 进入人名的url,并下载他的简历,save-to-pdf。
- 普通的领英简历,包括top-cv-card,experience, education, license and certificate等系列模块。扒这些板块,并按照条目登记信息。
linkedin爬虫关键点:
xpath+class找元素:
xpath=’//*[contains(@class,“class名字”)]’
F12,左边找到相应的条目,右击检查,对应定位相应的区块。
输入人名,找到人名的profileurl
两种方法:
第一,通过bing.com输入“人名+linkedin.com/in”来搜索。好处在于bing 页响应快,大部分时间我们取第一个搜索结果即可,坏处在于当存在人名同名同姓的多个id,我们还是需要进入多个id的领英搜索页面进行二次筛选。
第二,通过linekedin自身的搜索 页进行人名搜索。好处在于多个id的筛选更加明显,且手动地根据特定的人物信息选择一个,坏处在于领英 页响应很慢,需要你不断刷新。
这里的人名是有特定公司要求,只能通过方法二,进行手工筛选。自动化的部分在于,陆续进入人名搜索 页,不需要手工搜索。
下载他的简历
进入个人 页后,下简历:第一,点击more按钮,第二,点击savetopdf按钮,第三,等待并保证下载完毕。
按照模块获取 页element
接下来,就是根据经历,教育等模块来慢慢登记具体条目信息。这里展示education的,我们通过rvest,stringr包来做文本分析。额,这样写可能挺麻烦的,但是这是按照规定excel的要求做出来自动化的excel.
有一个难点,所有模块的信息不是标准化的,比如,有人只填年,不填月日;有人只填公司,其他信息不填;所以需要你考虑到很多情况,写一个包容性的代码。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!