假设您想要备份Internet Archive

2020-06-16 03:42:48

这是一个庞大的项目，不能掉以轻心。一定要考虑为什么你认为你需要这样做，以及你最终到底希望得到什么。档案馆有数以千计的子集，也许你真的想要一套更小的。这些说明适用于那些较小的设备，您可以更快地掌握它。

嗯，首先，要记住档案馆里50多PB的数据存储中有不同类别的材料。有可以下载的素材，只能查看/流式传输的素材，以及内部使用的素材，如回路机或数据库存储。我们将留出20多PB的材料用于讨论，除了您可以像任何网页那样通过直接下载和镜像来获取网站之外，我们还将把这20多PB的材料放在一边。

这就留下了许多您可以直接访问的集合和项目。它们往往采用https://archive.org/details/identifier的形式，其中标识符是物品标识符，更像是散布在存放物品的几十个架子中的目录。默认情况下，这些设置完全开放供下载，除非将它们设置为各种流/示例设置，此时，出于本教程的目的，根本无法下载-仅供查看。

要查看项目的目录版本，请将详细信息切换到Download，如Archive.org/download/Identifier-这将显示项目的所有文件，包括原始文件、系统文件和派生文件。让我们来谈谈这三个问题吧。

原始文件是由用户或脚本上传到标识符中的文件。它们永远不会被系统修饰或触及。除非出现问题，否则您下载的原始文件与上传的文件完全相同。

然后，归档中的脚本和处理程序会创建派生文件，以使它们更易于交互。例如，PDF文件被派生为epubs、jpeg-sets、OCR&d文本文件等。

系统文件由档案馆的脚本进程创建，以跟踪元数据、有关项目的信息等。它们通常是*.xml文件或缩略图等。

通常，您只希望原始文件以及元数据(来自*.xml文件)具有项目的核心。这将为您节省大量磁盘空间-派生文件始终可以在以后重新创建。

从互联网档案馆下载的最佳方式是使用官方客户端。我在这里写了一篇IA客户端的介绍：

要获取集合的项目，请执行ia搜索Collection：Collection-name--itemlist然后，使用ia Download下载每个单独的项目。您可以使用脚本执行此操作，甚至可以并行执行。还有--retries命令，以防系统加载或出现其他问题。(我建议检查文档并仔细阅读-也许人们可以回复他们所发现的食谱。

就像互联网档案馆的藏品以这种方式讨论时经常出现的情况一样，人们提出了通常的解决方案，我称之为三大解决方案：

我很感谢人们考虑这些解决方案，并将在帖子中回应它们(或发布新的独立信息)。与此同时，我要说的是，档案馆支持并使用了一个名为分布式网络的概念，它既包括讨论和会议，也包括拟议的技术-至少，它很有趣，与人们想到分担负担时所想的大致相同。在此期间，我要说的是，档案馆支持并使用了一个名为分布式网络的概念，该概念既包括讨论和会议，也包括拟议的技术-至少，它很有趣，就像人们想到分担负担时所想的那样。常见问题解答：https://blog.archive.org/2018/07/21/decentralized-web-faq/

https://www.reddit.com/r/DataHoarder/comments/h02jl4/lets_say_you_wanted_to_back_up_the_internet/

tags users