Database 在 ScyllaDB 中查询 100 亿行(高基数)的效率

发布于05月03日

假设我有一张100台机器上有100亿行的桌子.该表具有以下 struct :

PK1 PK2 PK3 V1 V2

其中PK表示分区键，V表示值.在上面的例子中，分区键由3列组成.

Scylla要求您在WHERE子句中指定分区键的所有列.

如果要在只指定部分列的情况下执行查询，则会收到警告，因为这需要进行完整的表扫描:

SELECT V1 & V2 FROM table WHERE PK1 = X & PK2 = Y

在上面的查询中，我们只指定了3列中的2列.假设查询匹配1 billion out of 10 billion rows——考虑这个查询的成本/性能，什么是一个好的心智模型？

我的假设是成本很高:这相当于对数据集执行1)亿个单独的查询，因为行存储到磁盘的方式在行之间没有逻辑关联，因为每行都有不同的分区键(高基数)2)，以便Scylla确定哪些行与查询匹配，它必须扫描所有1)亿行(即使结果集仅匹配10亿行)

假设一台服务器每秒可以处理10万个事务(在ScyllaDB个人公布的范围内)，并且数据驻留在ScyllaDB台服务器上，处理此查询的(估计)时间可以计算为:10万*ScyllaDB=ScyllaDB0万个查询/秒.ScyllaDB亿除以10米等于ScyllaDB0秒.因此，集群大约需要ScyllaDB0秒来处理查询(消耗所有集群资源).

对吗？或者，在我的心智模型中，Scylla如何处理这样的查询，是否存在任何缺陷？

谢谢

Database 在 ScyllaDB 中查询 100 亿行(高基数)的效率

推荐答案

Database相关问答推荐

数据库设计 - 类别(categories)和子类别(sub-categories)

如何开始使用 SQLCipher for android？

使用 Java 对 mysql 数据库进行简单备份和恢复

如果限制在本地机器上，最好使用 R 和 SQL

当可伸缩性无关紧要时，NoSQL 与 SQL

保存图像：文件还是 blob？

从 XML 读取数据

在 MySQL 中实现一对一关系时确定外键

存储并仍然索引加密客户数据的最佳方式是什么？

从 postgresql 转储文件填充 MySQL 数据库

表模块与域模型

A QuerySet 按聚合字段值

数据库 - 设计 Events事件表

Sqlite 判断表是否为空

cURL 和 PHP 显示1

存储信用卡号 - PCI？

App=EntityFramework 在 Sql 连接字符串中有什么作用？

使用带有联合和 CLOB 字段的 Select 时出现错误 ORA-00932

Oracle order NULL LAST 默认

使用命令行在 Mysql 中导入压缩文件