linkedin 页爬虫难点:

页进入：登录页（个人账登录）；API接口进入（需要进行一系列复杂且不懂的申请操作，且每次爬的数据量有限）；虚拟址登入，用requests的Session维持登录状态（目前已不可行，https://www.linkedin.com/uas/login-submit）
爬虫难点：页项目没有明确的#css可以爬，必须找到相应的class，且页element处于更新中，这次爬了不代表下次能用相同的规则爬。

页进入

用selenium驱动chrome： Rselenium package
我起初首先看的址，对我有启蒙作用，然而有一些方法已经失效，aja渲染也没必要用，只能帮助进入，无法帮助爬虫，且在python环境下完成
使用R软件的Rselenium包自动驱动；非常详细地告诉你R怎么配置chromedriver，需要用到java执行档
更详细生动的python selenium的操作，selenium和Rselenium其实原理都相同，互通的。

领英页爬虫

可参考大概思路，python，且方法已经过时，可借鉴：selenium进入页+获取页的element+关闭自动测试+python爬虫

我们需要完成的几个任务：

输入人名，找到人名的profileurl。
进入人名的url，并下载他的简历，save-to-pdf。
普通的领英简历，包括top-cv-card,experience, education, license and certificate等系列模块。扒这些板块，并按照条目登记信息。

linkedin爬虫关键点：
xpath+class找元素：
xpath=’//*[contains(@class,“class名字”)]’
F12，左边找到相应的条目，右击检查，对应定位相应的区块。

输入人名，找到人名的profileurl

两种方法：
第一，通过bing.com输入“人名+linkedin.com/in”来搜索。好处在于bing 页响应快,大部分时间我们取第一个搜索结果即可，坏处在于当存在人名同名同姓的多个id,我们还是需要进入多个id的领英搜索页面进行二次筛选。
第二，通过linekedin自身的搜索页进行人名搜索。好处在于多个id的筛选更加明显，且手动地根据特定的人物信息选择一个，坏处在于领英页响应很慢，需要你不断刷新。
这里的人名是有特定公司要求，只能通过方法二，进行手工筛选。自动化的部分在于，陆续进入人名搜索页，不需要手工搜索。

下载他的简历

进入个人页后，下简历：第一，点击more按钮，第二，点击savetopdf按钮，第三，等待并保证下载完毕。

按照模块获取页element

接下来，就是根据经历，教育等模块来慢慢登记具体条目信息。这里展示education的，我们通过rvest，stringr包来做文本分析。额，这样写可能挺麻烦的，但是这是按照规定excel的要求做出来自动化的excel.
有一个难点，所有模块的信息不是标准化的，比如，有人只填年，不填月日；有人只填公司，其他信息不填；所以需要你考虑到很多情况，写一个包容性的代码。

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

linkedin 爬虫

linkedin 页爬虫难点:

页进入

领英 页爬虫

输入人名，找到人名的profileurl

下载他的简历

相关推荐

领英页爬虫