Goodbye Mongodb，Hello PostgreSQL（2015）

2021-03-11 14:33:29

奥林近5年前成立。由Ruby开发仪库制定的单一产品（Olery信誉）成为一组不同的产品和许多不同的应用程序，因为它们通过了许多不同的应用。今天，我们不仅是作为产品的声誉，还具有奥雷弗雷德，酒店评价数据API，小部件，可以嵌入网站和更多产品/服务不久的将来。

当涉及到申请量时，我们也会大大增加。今天我们部署了超过25种不同的应用程序（所有Ruby），其中一些是界面（轨道或SINATRA），但大多数是后台处理应用程序。

虽然我们对到目前为止我们所达到的东西非常自豪地，但是在黑暗中总是潜伏的潜伏：我们的主要数据库。从Olerywe的开始，有一个数据库设置，涉及MySQL的MySQL，用于储存评论和类似数据的重要数据（用户，合同等）和MongoDB（基本上我们可以在数据丢失的情况下轻松检索数据）。虽然这个设置很好，最初我们开始遇到各种各样的问题，因为我们的成长，不包括MongoDB。其中一些问题是由于与数据库的应用程序协议的方式，有些问题是由于数据库本身。

例如，在某个时间点，我们必须从MongoDB中删除大约一百万个文档，然后稍后重新插入它们。这个过程的结果是数据库的近几个小时的近锁定，导致了对抗性能。直到我们执行数据库修复（使用蒙版的ReveionDatabase命令）。由于数据库的大小，此修复本身也占用了完成。

在另一个例子中，我们注意到我们的应用程序的性能劣化，并追溯到追溯到我们的MongoDB集群。然而，在进一步检查我们无法找到问题的实际原因。无论安装METRICSWE，我们使用的工具或命令我们都找不到原因。在我们替换群体的初始返回到正常的群集的初始之前，ITWAS不是。

这些只是两个例子，我们在随着时间的推移时有许多情况。在这里，Thecore问题不仅仅是我们的数据库表演，而且我们还考虑到它，绝对没有迹象表明是什么都是为了解决问题。

另一个我们面临的核心问题是MongoDB（或任何其他概要存储引擎）的基本特征之一：缺乏模式。缺乏芦荟清马可能听起来很有意思，在某些情况下，它肯定会有它的束缚。然而，对于许多方法的使用情况，可以引发隐式模式的问题。这些模式没有由您的StorageEngine定义，而是根据应用程序行为和期望来定义。

例如，您可能有一个页面集合，其中应用程序期望具有类型字符串的标题字段。在这里，架构非常出现，尽管未明确定义。如果数据的结构是随着时间的推移的，则这是有问题的，特别是如果没有将旧数据迁移到新结构（在Smancealess Storage发动机中非常有问题）。 forexample，假设您有以下Ruby代码：

这将适用于具有返回字符串的标题字段的每个文档。这将突破使用不同字段名称（例如post_title）或根本没有标题的字段。要处理此类ACase，您需要调整代码如下：

另一种处理方式是在模型中定义架构。例如，Mongoid是一个受欢迎的MongoDB ODM for Ruby，让您这样做。然而，当使用这样的工具定义模式时，应该想知道为什么不在数据库本身中定义架构。这样做会解决另一个问题：重新使用。如果您只有单个应用程序，那么在代码中定义aschema并不是一个很大的交易。但是，当你有很多缺陷时，这很快就会成为一个大混乱。

概要存储引擎承诺通过删除担心架构来使您的生活更轻松。实际上，这些系统只是使其成为确保数据一致性的所有权。在某些情况下，这可能会锻炼，但我愿意为大多数人打赌，这将只有反馈。

这为我带来了一个好的数据库的要求，更具体地说，奥雷尔有。涉及系统，尤其是数据库，Wevalue以下内容：

一致性很重要，因为它有助于确定对系统的清晰期望。 IFData始终以某种方式存储，然后使用此数据的系统变得很多。如果在数据库级别需要某个字段，则无法检查此类字段的应用程序。一个数据库也应该是ableto保证完成某些操作，即使在高压下也没有比点开数据更令人沮丧，因为它不会在几分钟之后暂停。

可见性适用于两件事：系统本身以及将其纳入它的容易程度。如果一个系统不端行为，它应该易于调试。反过来，IFA用户想要查询数据，这也应该很容易。

正确性意味着系统按预期行为。如果某个字段作为数字值isdefined，则应该不能将文本插入字段中.Mysql臭名昭着的是，因为它允许您完成那个，并且随着结果，您可以最终与虚假数据结束。

可扩展性不仅适用于性能，还适用于财务方面，并且系统可以通过时间处理更改的要求。一个系统的变得非常好，但不是大量金钱的成本，或者根据它来阻碍系统的开发周期。

考虑到上述价值，我们向MongoDB寻找替代品。上面指出的高价值通常是传统RDBMS的核心特征集，并且Sowe将我们的眼睛放在两种候选人身上：MySQL和PostgreSQL。

MySQL是我们已经将其使用它的第一个候选人，因为我们已经为一些严重的数据提供了一些关键数据。然而，MySQL并非没有问题。例如，将一个字段作为int（11），您可以愉快地插入文本数据，MySQLWill尝试转换它。一些例子：

mysql＆gt;创建表格示例（`Number` int（11）不是null）;查询OK，0行影响（0.08秒）MySQL＆GT;插入示例（数字）值（10）;查询OK，1行受影响（0.08秒）mysql＆gt;插入示例（数字）值（＆＃39; Wat＆＃39;）;查询OK，1行受影响，1个警告（0.10秒）mysql＆gt;插入示例（数字）值（＆＃39;这10个废话和＃39;）;查询确定，1行受影响，1个警告（0.14秒）mysql＆gt;插入示例（数字）值（＆＃39; 10 a＆＃39;）;查询确定，1行受影响，1条警告（0.09秒）mysql＆gt;选择*从示例; + -------- + |号码| + -------- + | 10 || 0 || 0 || 10 | + -------- + + 4行集（0.00秒）

值得注意的是，MySQL将在这些情况下发出警告。然而，由于警告只是警告，他们经常（如果不是几乎总是总是）忽略了。

MySQL的另一个问题是任何表修改（例如，添加列）将导致表格锁定以供阅读和写入。这意味着使用这种表的任何操作都必须等到修改后完成。对于具有大量数据的表格，这可能需要数小时才能完成，可能导致应用程序停机时间。这具有索引公司此类Assoudcloud来开发诸如LHM等工具来处理此功能。

考虑到上面，我们开始研究PostgreSQL。 PostgreSQL MySQL没有。例如，您无法插入文本Datainto一个数字字段：

Olery_development =＃创建表示例（number int not null）;创建rabentolery_development =＃插入到示例（数字）值（10）;插入0 1oleRy_development =＃插入到示例（数字）值（＆＃39; wat＆＃39;） ;错误：整数的输入语法无效：＆＃34; wat＆＃34;第1行：插入示例（数字）值（＆＃39; wat＆＃39;）; ^ oleery_development =＃插入到示例（数字）值（＆＃39;这10个废话和＃39;）;错误：整数的输入语法：＆＃34;这10个废话和＃34;第1行：插入进入示例（数量）值（＆＃39;这10个nonsen ... ^ oleery_development =＃插入到示例（数字）值（＆＃39; 10 a＆＃39;）;错误：整数的输入语法无效：＆＃34; 10 A＆＃34;第1行：插入示例（数字）值（＆＃39; 10 a＆＃39;）;

PostgreSQL还具有以各种方式更改表格的功能，无需锁定每次操作。例如，添加一个未使用默认值的列，可以设置为NULL可以快速完成，无锁整个表。

PostgreSQL Suchas还提供各种其他有趣的功能：Trigram基于索引和搜索，全文搜索，支持QueryingJSON，支持查询/存储键值对，PUB /子支持等。

最后，我们决定与PostgreSQL定居，以便在我们关心的各种科目之间提供平衡。将整个平台从MongoDB迁移到巨大不同数据库的过程并不容易。为了缓解切换过程，我们将在大约3个步骤中突破此过程：

更新依赖MongoDB以使用PostgreSQL的所有应用程序，而不是需要重构来支持此操作。

在我们甚至考虑迁移我们所需的所有数据之前，我们需要运行测试最终数据的小子集。如果你知道即使是一小块的数据，那么迁移就没有意义会给你带来很多麻烦。

虽然存在可以处理此操作的现有工具，但我们也必须转换数据（例如，被重命名的字段，类型不同，等等），并如此为此编写自己的工具。这些工具大多是一次性的Rubyscript，每个工具都执行了特定的任务，例如移动过度评论，清理编码，纠正主键序列等。

初始测试阶段没有揭示任何可能阻止分组过程的问题，尽管Oudata的某些部分存在一些问题。例如，某些用户提交的内容并非总是被编码，并且由于不得不进行清除，因此无法导入结果。需要的其他有趣的更改正在从全名（“荷兰语”，“英语”中更改为浏览的语言名称语言代码作为OURNEW情绪分析堆栈使用语言代码而不是全名。

到目前为止，在更新申请时花在更新的应用程序中，特别是那些对MongoDB的聚合框架大量的人。抛出一些具有低测试覆盖率的遗留轨道应用，并且您拥有几周的工作。更新这些应用程序的过程基本上如下：

对于非Rails应用程序，我们在使用续集时解决了续集，而我们追溯到Activerecord用于我们的Rails应用程序（至少现在）。续集是令人醒来的数据库工具包，支持我们可能想要使用的大多数（如果不是全部）PostgreSQL SpecialFeatures。与Activerecord相比，它的查询构建DSL也是我们的推动力，尽管它有时会有点冗长。

例如，假设您想计算有多少用户使用某个LocalAlong，其中每个区域设置的百分比（相对于整个集合）。在PlainsQL中，这样的查询可能如下所示：

＃！sqlselect语言环境，计数（*）为金额，（count（*）/ sum（count（*））over（））* 100.0用localeorder百分比代表的用户组成百分比;

区域设置|金额|百分比-------- + -------- + ----------------------- 2779 | 85.193133047210300429000 nl | 386 | 11.83231146535867566000它| 40 | 1.226241569589209074000 de | 25 | 0.766400980993255671000 ru | 17 | 0.521152667075413857000 | 7 | 0.214592274678111588000 fr | 4 | 0.122624156958920907000 ja | 1 | 0.030656039239730227000 AR-AE | 1 | 0.030656039239730227000 eng | 1 | 0.030656039239730227000 ZH-CN | 1 | 0.030656039239730227000（11行）

续集允许您使用普通Ruby在没有串片段的情况下使用普通Ruby（astiverecord通常需要）编写上述查询：

＃！rubystar = sequel.lit（＆＃39; *＆＃39;）user.select（：locale）.select_append {count（star）.as（：computa）} .select_append {（（star）/ sum （计数（星））。over）* 100.0）.as（：百分比）} .group（：locale）.order（sequel.desc（：百分比））

如果您不喜欢使用sequel.lit（＆＃39; *＆＃39;）您也可以使用以下语法：

＃！rubyuser.select（：locale）.select_append {count（用户。*）。作为（：金额）} .select_append {（count（用户。*）/ sum（count（用户。*）计数（count（用户。）。结束）* 100.0）.as（：百分比）} .group（：locale）.order（sequel.desc（：百分比））

虽然可能有点冗长，但这两个查询都使得重新使用它们更容易，而无需诉诸字符串连接。

在未来，我们也可能将我们的Rails应用程序转移到续集上，但是，如果这是值得的时间和精力，但是如果值得的时间和努力，那么我们的铁路轨道就会如此紧密耦合。

这最终为我们带来了迁移生产数据的过程。 Athereare基本上是两种方式：

关闭整个平台并在所有数据已被迁移后在线备份。

选项1有一个明显的下行：停机。选项2另一方面不会停机，但可能很难处理。例如，在此功能中，您必须考虑在您丢失数据的情况下使用数据时添加的任何数据。

幸运的是，奥林有一个相当独特的设置，因为它对我们的大多数写作操作仅以相当规则的间隔发生。经常（例如用户和合同信息）的数据是一个相当少量的数量，这意味着与我们的审核数据相比迁移的时间越来越少。

迁移用户，合同的关键数据，基本上所有的数据都无法以任何方式丢失。

重新迁移步骤1的数据，确保在与此同时创建的数据不会丢失。

步骤2到迄今为止，大约24小时的时间迈出了最长。另一方面，迁移步骤1和5中提到的数据只花了大约45分钟。

自从我们完成迁移并迄今为止，我们已经完成了几个月前几个月前。到目前为止的影响甚至是积极的，甚至导致了甚至导致了腹部申请的性能急剧增加。例如，我们的酒店评论数据API（正在运行Onsinatra）最终有甚至较低的响应时间，而不是Fhen Fhen Factor：

迁移发生在1月21日，大峰值只是进行硬重启的拍摄性（导致过程中稍微较慢的响应）。在第21次之后，平均响应时间为近一半。

另一种案例，我们看到表现的大幅增加是我们称之为“审查私人”。此应用程序（作为守护程序运行）具有相当简单的素质：保存审核数据（评论，评论，评分等等）。虽然我们最新着原地，但对迁移的迁移时，迈出了一些非常大的变化，结果是结果非常有益：

与审查普遍存在的差异并不像极端，但由于该折叠者只使用数据库检查存在审查（相对速度），这不是很令人惊讶。

最后暂整安排刮擦进程的应用程序（简称“调度程序”）：

由于调度程序仅以某些间隔运行，因此图形是一个小型Bithard来理解，但迁移后的平均处理时间内有明显的下降。

最后，我们到目前为止，我们对结果非常满意，我们肯定不会MongoDB。性能很大，围绕它的植物围绕着比较和查询数据的工具更令人愉快（特别是对于非开发人员）更令人愉快。虽然我们有一个服务（OleryFeedback）仍然使用MongoDB（尽管是一个单独的，而不是一个单独的，而不是一个渺小的聚集），我们打算在将来迁移到PostgreSQL。

http://developer.olery.com/blog/goodbye-mongodb-hello-postgresql/

tags users