使用存档盒制作自己的Internet存档

2021-01-20 03:39:55

互联网调查的最大挑战之一就是一旦找到数据就要保存数据。我们拥有比以往任何时候都更多的信息,但是如果我们不采取措施将其归档,那么很多信息很容易丢失。如果您曾经将重要的资源加为书签,只是稍后再回来查看,然后发现它不再可用,那么您就会知道它会令人沮丧。去年,我在有关OSINT中信息损耗的文章中写了关于此问题的文章,并提供了一些有关如何保存互联网资料以及在删除资料后如何恢复资料的建议。

Internet存档可能是最熟悉的网页保存工具,但并非没有局限性。例如,它无法捕获Facebook页面,即使您指示它开始存档网站,但如果该网站的robots.txt阻止抓取,它也很容易失败。 Javascript和嵌入式视频内容的使用越来越多,这也使得抓取和归档网页更加困难。您在Internet档案库中找到的保留站点通常缺少许多原始内容和功能。

为了解决这个问题,有必要使用几种类型的工具来保留Web内容以供您进行调查,而不仅仅是依靠一种工具。 Hunchly非常适合捕获网页,但是我仍然想用YouTube-dl来补充它来捕获视频内容。最近,我还开始使用“存档盒”来构建要保留的Web内容的脱机存档。它在设计时并未考虑到OSINT的工作原理,但它非常适合保存和归档多种格式的网页,包括基于JavaScript的网站和PDF / PNG屏幕截图。视频和音频内容也可以下载和保存。

存档盒可以构建书签,浏览器历史记录或您提供的自定义URL列表中列出的网站的完整存档。在本文的其余部分,我将向您展示如何设置和安装“存档盒”并开始存档自己的页面。

档案盒是用Python编写的,可在Linux和Mac OS上运行。它利用curl和wget之类的本地Linux / Mac程序捕获大量数据,因此与许多其他Python工具不同,它不会在Windows中运行。如果您想在Windows环境中使用存档盒,则需要按照此处的说明在Docker上安装和运行它。

您可以通过Pypi获得最新版本(0.4.21)的Archive Box,因此我们将在本指南中进行安装。它需要Python 3.7或更高版本才能运行。我将Linux或MacOS用于大多数此类工具,但如果您已安装Python / Pip,则存档盒也将在Windows上运行。

如果版本低于3.7,则需要安装Python的最新版本。

安装Python 3.7(或更高版本)后,您可以使用以下命令直接从PyPi安装存档盒:

如果您不熟悉Python和Pip,请阅读我去年写的这篇文章。如果您使用的是MacOS,则可以在Brew中安装存档盒:

还有一个可用于Archive Box的Docker映像,这意味着您也可以在Windows上运行它,只需要先设置Docker。如今,我更喜欢将Docker映像用于OSINT工具,但这是将来的博客文章。

接下来,您需要创建一个目录,该目录将存储您的档案,并在那里完成“档案盒”的设置:

也可以将递归添加到您的请求中,因此,不仅可以存档指定的页面,而且存档盒还将跟踪页面上的每个链接并进行存档。深度越大,链接越深。可以使用以下选项添加递归:

现在将存档该站点,并跟踪其中的所有链接,深度为1,然后也存档所有这些页面。

要查看存档,请打开浏览器并导航到创建的存档文件夹中的index.html文件。类似于/home/username/myarchive/index.html。存档记录了您创建它的时间,保存的链接以及原始URL。单击“文件”将显示存档盒的功能:

我网站的首页已保存为离线本地存档(包含所有必需的JavaScript,因此外观与实时版本相同),纯HTML / CSS,PDF,PNG屏幕截图,并且请注意,Archive Box甚至还在WayBack Machine上存档了副本。因此,现在我的网站的完整工作存档保存在本地计算机上。与简单的屏幕截图相比,这是保存网页的一种更好的方法,即使原始站点消失了(我希望不是),我仍然可以使用完整的离线副本。

包含一个站点的存档并不是一件很有趣的事情。幸运的是,“存档箱”还使您可以轻松地一次从URL列表或浏览器保存的书签中一次存档多个站点。要归档多个网站,请创建这样的文本文件,每行一个URL。

然后,我们输入以下命令(假设您的URL列表与归档文件位于同一目录中):

几分钟后,所有列出的网站都以与以前相同的格式范围添加到了我的离线存档中:

BBC Football页面的存档显示了以多种格式保存的优势。该网站具有许多自定义视频流,这些视频流实际上无法离线存档,因此本地存档看起来有些奇怪:

尽管如此,事实上还创建了网站的PDF和PNG版本,这意味着我们仍然可以看到网站在归档时的状态。您还会注意到我前面提到的Wayback Machine的局限性。如果网站不希望被Wayback机器抓取,则唯一会保留的错误是301错误。多种格式的存档意味着可以大大减少丢失材料的机会。

存档盒使用YouTube-dl,因此它也可以存档视频内容。假设您想将此OSINTCurious十分钟提示添加到存档中。您可以运行以下命令:

整个10分钟提示现在将保存到您的档案中,包括视频和音频文件。

要访问已存档的视频/音频,请单击右侧的“媒体”链接。您会看到视频,音频和缩略图的内容都已离线保存并保存:

存档盒还允许您创建保存在书签中的网站存档。只需将浏览器中的书签列表导出为HTML文件(请参阅此处有关Chrome的说明以及有关Firefox的说明),然后将其指向“存档盒”即可:

能够捕获和保留Web内容是OSINT研究人员的一项核心技能。有许多技术挑战使这一工作变得困难,但是Archive Box是收集和保存所需信息的一种非常有效的方法。

Archive Box正在积极开发中,并且继续接收新功能和更新,因此本文中的某些内容可能会随着时间而过时。在Twitter上关注@ArchiveBoxApp以获取最新更新。

您好,我想拥有一个专门用于此任务的Pi,我将尝试在其上安装archivebox。你知道22120 https://github.com/c9fe/22120