python 做 站的工具_程序员最爱的 站克隆爬取工具- HTTrack

有一些专门针对 站克隆爬取的软件,如 WebZip、awwwb.com 等等,据说挺好用的。这里我给大家介绍一款程序员最爱的 站克隆爬取工具- HTTrack,而且是开源的。

什么是 HTTrackp>

HTTrack 是一个免费并易于使用的线下浏览器工具,全称是 HTTrack Website Copier for Windows,它能够让你从互联 上下载指定的 站进行线下浏览(离线浏览),也可以用来收集信息(甚至有 站使用隐藏的密码文件),一些仿真度极高的伪 站(为了骗取用户密码),也是使用类似工具做的。浏览线下站点和线上并没有什么不同。

HTTrack 同样可以进行线下线上站点同步,支持断点续传。HTTrack 是一个可全面配置并包括全面的帮助系统的工具。对于传统的像存在 Robots.txt 的 站,如果程序运行的时候不做限制,在默认的环境下程序不会把 站镜像,简单来说 HTTPrack 跟随基本的 JavaScript 或者 APPLet、flash 中的链接,对于复杂的链接(使用函数和表达式创建的链接)或者服务器端的 ImageMap 则不能镜像。一般不用挖的太深就能获取目标信息比如 站的物理地址,电话 码,电子邮箱地址,运营时间,商业关系,员工的姓名,与 会关系,以及公开的一些花絮。做渗透测试时新闻其实也很重要,公司时常会公开一些自己感到骄傲的事情,这些 到中可能会泄露有用的信息,企业兼并服务器运转的情况等等。

用 Httrack 可以将一个 站拷贝下来,以此进行下线的探测发现,以此减少对目标 站的直接交互。Httrack 的使用很简单,只需要根据其向导按步骤进行就好了。

安装

HTTrack 已经被预安装在以下 Linux 系统中:

如没有可以自行参考以下的安装方式进行下载安装。

HTTrack 的安装和使用

HTTrack 支持 Windows、Linux 和 MacOS 等主流的操作系统,且针对 Windows 而言,HTTrack 有可视化界面的支持,效果如下:

把之中的,localhost.com 文件夹就是你爬取下的 站。

那这种,我们只能去cdn上给下载到本地了。

下载后发现是有路径错误,我们打开代码发现全是加密了。

打开 错地方的js代码:

经过一番代码解析,寻找。具体就不提了。

我们把路径改正确。

改正确后,我们发现,缺少一个data.json。文件

答疑,有些小伙伴想,为什么不直接ctrl+s呢要配合httrackp>

我放目录图你就知道了。

httrack的目录:

好啦,今天就到这里。如果喜欢研究爬虫,那就给我点赞,我会出一个python爬虫小课!

感谢关注

上海PHP自学中心-免费编程视频教学|

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览211392 人正在系统学习中 相关资源:开源的爬虫软件Heritrix3.1.0_开源爬虫-Java工具类资源-CSDN文库

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年11月14日
下一篇 2020年11月14日

相关推荐