1、阅读本文预计需要 6 分钟,并提供了资源下载。
2、本文是「网上冲浪指南」专题i18篇的首次发布。
导读
关于信息收集,可以讲的内容很多。此前奶酪分享过关于链接的《i06-书签管理》,关于图片的《i13-图片下载》,关于视频的《i14-视频下载》。今天我们来讲讲“网页保存”,预计能帮你解决 99% 的网页保存问题。至于效果嘛,当然是“干净又好看啊,兄弟们”。
01
网页保存的历史
事实上,浏览器在很早的时候就有“网页保存”功能。
1、自带保存方法
而且,保存方式还不少,当你按下快捷键 Ctrl S,在弹出的对话框里,会有不同的选择,包括:
?? 网页,全部?? 网页,仅 HTML?? 网页,单个文件?? 网页,纯文本
对于文件管理来说,“网页,单个文件”无疑是更好的选择。
这个文件会以 .mhtml 或 .mht 为后缀名(.mht 是 .mhtml 的缩写)。
而网页上的图片、样式、脚本等内容,则会以 base64 编码的形式保存在这个文件里。
2、更好的保存方法
1999 年,IE 5 是第一个支持将网页保存为 .mhtml 格式的浏览器。
此后,Chrome 及 Chromium 浏览器也都支持将网页保存为 .mhtml 格式,而 Firefox、Safari 浏览器则不支持。
因为 Firefox 主推的是 .maff 格式,而 Safari 则主推 .webarchive 格式。
所以,.mhtml 文件格式算不上是一种通用格式。
就算你只用 Chrome 浏览器,在保存网页时,.mhtml 文件也可能会出现“保存出错”的情况。
因为 .mhtml 文件做为 HTML 4 时代的产物,已经与当前主流的 HTML 5 脱节。
而现行的 HTML 5 版的 .html 文件格式,已经能实现 .mhtml 的全部功能。
所以,使用 .html 格式来保存网页是更好的选择。
02
HTML 格式保存
不过,想要“将网页完整地保存到一个 .html 文件”,目前需要借用拓展来实现。
1、拓展 SingleFile
而目前最好用的拓展,当属 SingleFile。
SingleFile 主打“简单快速”,它可以一键将当前网页离线保存为 .html 格式。
但要注意的是,一些网页会设置“图片延迟加载”。
所以,为了确保正常保存,最好还是“手动滚动网页到底”。
我们借此可以去掉网页里不想要的内容,比如顶部的导航栏、右边的侧边栏、还有烦人的广告。
比如下面的效果:
净化网页内容的另一种方法,是使用“阅读模式”拓展。
但我并不推荐,它是能起到只保留主体内容的效果,但通常也会打乱原有的排版,给阅读增加难度。
3、允许访问文件网址
将网页保存为本地 html 文件后,原来的拓展和脚本功能会失效。
但其实只是默认没开启罢了。
至于 Firefox 的话,Firefox 默认就支持,无需额外操作。
03
2、PDF Mage 方案
但无论如何,通过打印来保存 PDF 的方式,都会强制分页。这导致网页的排版效果会丢失,阅读体验不如原网页,有没有办法将 PDF 输出为 1 个页面呢?PDF Mage,是我目前能找到效果最好的一款拓展。
但拓展 PDF Mage 也并不是完美无缺点。通过 PDF Mage 保存的 PDF 文件,有时也会出现字体变换、颜色变换、细节丢失等情况。不过,就拓展来说,PDF Mage 已经是这方面的“天花板”了。
3、Opera 方案
能真正意义上,能将网页 1:1 另存为 PDF 的。当属 Windows 下的 Opera 浏览器,还有 macOS 下 的 Safari 浏览器。
Opera 浏览器自带就有“另存为 PDF”的功能。效果可以说一模一样,而且保存速度极快,即使网页内容再多,文件再大,也都能正常保存。
如果你的主力浏览器不是 Opera,别担心,我有办法。我在文章《i37-浏览器协作》有讲到“如何一键调用 Opera”,可以在调用打开 Opera 的同时,也打开当前页面。我们可以把 Opera 当作是一个“工具人”来使用。
回复关键字 i37,可查看具体方法,以及获取 Opera 便携版。
04
Markdown 格式保存
如果网页有多个分页时,一般的方法是需要保存为多个文件。
也就是说,Markdown 和 html 可以相互转换。(大部分情况下)
从网页上复制的内容,可以无损地粘贴在 Typora 上,而 Typora 也可以将内容导出为 html 文件。
至于效果嘛,当然是“干净又好看”,就连文章大纲也都能显示。
2、Markdown 离线保存
不过要注意的是,此时的 Markdown 文件并没有离线保存。
Markdown 文档里的图片依旧是链接,我们可以将文档导出的 html 格式,然后利用 SingleFile 来实现离线保存。
至于要保存为 PDF 格式。
拓展 SingleFile 和 Opera 浏览器也都是支持将本地文件导出为 PDF 的。
你可能会说,这也太“麻烦”了吧。
换个角度想,如果这个内容真的有价值,那这个麻烦也是值得的,它可以让我们的“资料库”更精简。
05
印象笔记保存
网页保存还有一种方法,就是通过“印象笔记”来保存。
可以说,印象笔记是以一己之力把“网页剪藏”一词带火,不过不同的是,印象笔记是将网页保存在服务器上。
考虑到容量限制的问题,印象笔记在“电脑端”的作用并不大,它更多的是用在“移动端”。
然后就再也不怕“文件已过期”、“该内容已被发布者删除”、又或者“此内容因违规无法查看”了。
2、保存微博内容
一键保存微博内容的最新方法:
是的,“随时随地保存新鲜事”!
3、保存其他内容
所以保存方法要原生一些,大概思路就是,将当前页面“分享”,然后在“分享列表”里选择“印象笔记”。
哦!对了,印象笔记运营部如果看到了,记得给我打钱哈!
结尾
以上“奶式”网页保存法,已经可以帮你解决 99% 的问题了。
如果你看了我的文章,也开始收藏内容了,那我真是“大功一件”。
而如果你看了我的文章,开始变得“更积极”了,变成了收集癖患者,那我可就“罪过大了”。
知识管理的“黄金分割点”。
必然要是在“做减法”和“做加法”之间取平衡,如果你还处在疯狂的“做加法”阶段。
回复关键字i查看本系列的所有文章,回复关键字i18获取本文提到的所有资源近期文章:
专栏介绍: