抱歉,您的浏览器无法访问本站m
本页面需要浏览器支持(启用)JavaScript
了解详情 >

什么是 HTTrack

HTTrack 是一个免费的(GPL,自由软件)和易于使用的离线浏览器工具。它可以爬取整站的网页,用于离线浏览,减少与目标系统交互。它可从 Internet 上下载站点到本地目录,递归地构建所有目录,从服务器获取 HTML、图像和其他文件到本地。HTTrack 安排原始网站的相关链接结构。只需在浏览器中打开 “镜像” 网站的页面,即可从链接到链接浏览网站,就像在线查看网站一样。HTTrack 也可以更新现有的镜像站点,并恢复中断的下载。HTTrack 完全可配置,并具有集成的帮助系统。

HTTrack 的安装和使用

HTTrack 支持 Windows、Linux 和 MacOS 等主流的操作系统,且针对 Windows 而言,HTTrack 有可视化界面的支持,效果如下:

下载地址:#

支持linux macos windows ,根据自己情况下载

点击下载

使用说明

WinHTTrack Website Copier可以抓取整个网站或者某个网页、某个论坛帖子。以抓取论坛某个主题帖子为例:

1、打开WinHTTrack Website Copier,下一步

2、工程名可以以帖子标题命名,最好用英文,分类随意,保存路径自行填写。

3、我们要下载若干个帖子,所以操作选择下载个别文件,web地址可以逐个输入,也可以用list列表,列表以回车键分开,对于有规律的帖子,可以在excel中拖动快速形成。
http://bbs.tianya.cn/post-1.shtml
http://bbs.tianya.cn/post-2.shtml
http://bbs.tianya.cn/post-3.shtml

4、选项,最大深度选择1,最大外部链接深度选择0。这样我们只搜索当前帖子或页面所在的网址内容,不要外链到其他网站,所以选择0.这两个选项很重要。

5、链接我选择了试图捕获所有的URLs,保存所有指向非HTML文件的链接,例如外部的zip文件或图片文件,首先保存HTML文件,取默认也行,没看出多少区别。

6、构造取默认值即可。

7、搜寻页面取默认值。

8、浏览器标致取默认值。

9、确定后直接开始。

10、特别要注意的是,新建一个工程要重新命名,否则会覆盖原来的地址!

评论