前言

夏天已经接近尾声了，虽然各种大白腿会少了很多，但是会冒出很多各种黑色的大长腿哇！尤其是黑色的，黑丝才是永远滴神！今天带你们大饱眼福一波！

一、技术路线

requests：页请求
BeautifulSoup：解析html 页
re：正则表达式，提取html 页信息
os：保存文件

二、获取页信息

获取页信息的固定格式，返回的字符串格式的页内容，其中headers参数可模拟人为的操作，‘欺骗’ 站不被发现

三、页爬取分析

右键单击图片区域，选择审查元素 ,可以查看当前页图片详情链接，我就满心欢喜的复制链接打开保存，看看效果，结果一张图片只有60几kb，这就是缩略图啊，不清晰，果断舍弃。。。

没有办法，只有点击找到详情页链接，再进行单独爬取。

空白右键，查看页面源代码，把刚刚复制的缩略图链接复制查找快速定位，分析所有图片详情页链接存在div标签，并且class=‘list’ 唯一，因此可以使用BeautifulSoup提取此标签。并且发现图片详情页链接在herf=后面（同时我们注意到有部分无效链接也在div标签中，观察它们异同，发现无效链接存在’https’字样，因此可在代码中依据此排出无效链接，对应第4条中的函数代码），只需提取出来再在前面加上页首页链接即可打开，并且右键图片，‘审查元素’，复制链接下载的图片接近1M，表示是高清图片了，到这一步我们只需调用下载保存函数即可保存图片

四、页详情页链接获取

首要目标是将每页的每个图片的详情页链接给爬取下来，为后续的高清图片爬取做准备，这里直接使用定义函数def getUrlList(url)

五、依据图片链接保存图片

通过上面获取了每个图片的详情页链接后，打开，右键图片审查元素，复制链接即可快速定位，然后保存图片

六、main()函数

经过前面的主体框架搭建完毕之后，对整个程序做一个前置化，直接上代码

在这里第1页的链接是
www.netbian.com/meinv/

第2页的链接是
www.netbian.com/meinv/index…

并且后续页面是在第2页的基础上仅改变最后的数字，因此在写代码的时候要注意区分第1页和后续页面的链接，分别做处理；同时在main()函数还增加了自定义爬取页数的功能，详见代码

def main(): n = input(‘请输入要爬取的页数：’) url = ‘http://www.netbian.com/meinv/’ # 资源的首页，可根据自己的需求查看不同分类，自定义改变目录，爬取相应资源 if not os.path.exists(‘./美女’): # 如果不存在，创建文件目录 os.mkdir(‘./美女/’) page = 1 fillPic(url, page) # 爬取第一页，因为第1页和后续页的链接的区别，单独处理第一页的爬取 if int(n) >= 2: #爬取第2页之后的资源 ls = list(range(2, 1 + int(n))) url = ‘http://www.netbian.com/meinv/’ for i in ls: #用遍历的方法对输入的需求爬取的页面做分别爬取处理 page = str(i) url_page = ‘http://www.netbian.com/meinv/’ url_page += ‘index_’ + page + ‘.htm’ #获取第2页后的每页的详情链接 fillPic(url, page) #调用fillPic()函数

七、完整代码

最后再调用main()，输入需要爬取的页数，即可开始爬取，完整代码如下

①兼职交流，行业咨询、大佬在线专业解答
②Python开发环境安装教程
③Python400集自学视频
④软件开发常用词汇
⑤Python学习路线图
⑥3000多本Python电子书

如果你用得到的话可以直接拿走，点击领取。

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树首页概览211729 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

黑丝YYDS，通过五十行代码分分钟下载上万张黑丝小姐姐纯欲高清图！（宅男福利）

前言

一、技术路线

二、获取 页信息

三、 页爬取分析

四、 页详情页链接获取