Database 使用 git 存储库作为数据库后端

发布于06月12日

我正在做一个处理 struct 化文档数据库的项目.我有一个类别树(大约1,000个类别，每个级别最多50个类别)，每个类别包含数千个(比方说，最多10000个) struct 化文档.每个文档都是一些 struct 化形式的几千字节的数据(我更喜欢YAML，但也可以是JSON或XML).

此系统的用户执行几种类型的操作:

按ID检索这些文档
通过文档中的某些 struct 化属性搜索文档
编辑文档(即添加/删除/重命名/合并)；每个编辑操作都应记录为带有注释的事务
查看特定文档记录的更改历史记录(包括查看更改文档的人、时间和原因，获取早期版本，如果需要，可能会恢复到此版本)

当然，传统的解决方案是使用某种类型的文档数据库(如CouchDB或Mongo)来解决这个问题-然而，这种版本控制(历史)的事情让我产生了一个疯狂的 idea -为什么我不应该使用git存储库作为该应用程序的数据库后端呢？

乍一看，可以这样解决:

类别=目录，文档=文件
getting document by ID => changing directories + reading a file in a working copy
editing documents with edit comments => making commits by various users + storing commit messages
history => normal git log and retrieval of older transactions
search => that's a slightly trickier part, I guess it would require periodic export of a category into relational database with indexing of columns that we'll allow to search by

此解决方案中是否还有其他常见的trap ？有没有人已经try 过实现这样的后端(比如，对于任何流行的框架--RoR、node.js、Django、CakePHP)？此解决方案是否对性能或可靠性有任何可能的影响-即，是否已证明git将比传统数据库解决方案慢得多，或者会存在任何可伸缩性/可靠性缺陷？我假设这样一群相互推送/拉入对方存储库的服务器应该是相当健壮和可靠的.

基本上，告诉我if这个解决方案有效，why这个解决方案有效还是无效？

│ │ Users │ Active users │ DB+edits │ DB only │ ├──────────────┼───────┼──────────────┼──────────┼─────────┤ │ MusicBrainz │ 1.2M │ 1K/week │ 30 GiB │ 20 GiB │ │ en.wikipedia │ 21.5M │ 133K/month │ 3 TiB │ 44 GiB │ │ OSM │ 1.7M │ 21K/month │ 726 GiB │ 480 GiB │

Database 使用 git 存储库作为数据库后端

推荐答案

Database相关问答推荐

如何避免在模式更改时重新同步微服务数据库之间的整个表？

如何在同一个表的派生部分引用主键？

如何在保持相同 Flyway 校验和的同时更正语法？

一个强大的 MySQL 管理工具，具有与 SQL Server Management Studio 类似的功能

数据库设计 - 类别(categories)和子类别(sub-categories)

MySQL解释更新

递归关系的数据库设计

Sql更新查询

如何将正在使用的数据库复制到django中的其他数据库？

当使用多个 WHEN MATCHED 语句时，它们是全部执行，还是只执行一个？

SQLite3 的动态类型

什么是 Scalar标量查询？

将少量信息保存为 android 中的设置

触发器、断言和判断之间有什么区别？

从旧数据 struct 到新数据 struct 的数据迁移

在 MySQL 中 Select 浮点数

将文本列设为唯一键

在连接表中，Rails 缺少组合键的最佳解决方法是什么？

归一化 - 2NF 与 3NF

使用 Sinatra 时与数据库对话的最佳方式是什么？