Database 为多个列 Select 最新的非空值

发布于12月19日

我在try 优化这个查询时遇到了困难，我希望你们中的一些数据库专家可能会有一些见解.以下是设置.

使用TimscaleDB作为我的数据库，我有一个包含传感器数据的wide table，如下所示:

time	sensor_id	wind_speed	wind_direction
'2023-12-18 12:15:00'	'1'	NULL	176
'2023-12-18 12:13:00'	'1'	4	177
'2023-12-18 12:11:00'	'1'	3	NULL
'2023-12-18 12:09:00'	'1'	8	179

我想要编写一个查询，为我提供一组按sensor_id筛选的列的最新非空值.对于上述数据(在sensor_id 1上过滤)，此查询应返回

wind_speed	wind_direction
4	176

话虽如此，我的查询看起来像下面这样(当在10个批次中查询sensor_id个时):

SELECT
    (SELECT wind_speed FROM sensor_data WHERE sensor_id = '1' AND "time" > now()-'7 days'::interval AND wind_speed IS NOT NULL ORDER BY "time" DESC LIMIT 1) as wind_speed,
    (SELECT wind_direction FROM sensor_data WHERE sensor_id = '1' AND "time" > now()-'7 days'::interval AND wind_direction IS NOT NULL ORDER BY "time" DESC LIMIT 1) as wind_direction,

    (SELECT wind_speed FROM sensor_data WHERE sensor_id = '2' AND "time" > now()-'7 days'::interval AND wind_speed IS NOT NULL ORDER BY "time" DESC LIMIT 1) as wind_speed_two,
    (SELECT wind_direction FROM sensor_data WHERE sensor_id = '2' AND "time" > now()-'7 days'::interval AND wind_direction IS NOT NULL ORDER BY "time" DESC LIMIT 1) as wind_direction_two,
    .
    .
    .
    (SELECT wind_speed FROM sensor_data WHERE sensor_id = '10' AND "time" > now()-'7 days'::interval AND wind_speed IS NOT NULL ORDER BY "time" DESC LIMIT 1) as wind_speed_ten,
    (SELECT wind_direction FROM sensor_data WHERE sensor_id = '10' AND "time" > now()-'7 days'::interval AND wind_direction IS NOT NULL ORDER BY "time" DESC LIMIT 1) as wind_direction_ten;

我正在查询的表有1,000个唯一的sensor_id，所有这些都以2 minute为间隔报告数据.第100s of millions of rows章我们在谈

我在(sensor_id, time DESC)上创建了一个索引，以进一步优化查询.有了索引，这个查询分别花费了大约400ms和50ms的规划和执行时间.

如何以不同方式编写查询(或添加索引)以实现最佳规划和执行时间？

Database 为多个列 Select 最新的非空值

推荐答案

解决方案

`first_value()` + `DISTINCT ON`

`count()` window function in subquery + filtered aggregate in main

基于"传感器"表的更简单

Sorted subquery + `first()` aggregate function

Database相关问答推荐

prisma 中的隐式或显式多对多关系

获取总和列的比率

Mongodb聚合$group，限制数组长度

Spring DriverManagerDataSource vs apache BasicDataSource

在 PostgreSQL 的数组列中查找字符串

什么是非规范化 mysql 数据库的好方法？

多列索引的顺序

tzname字段/时区标识符名称的最大长度

微服务：每个实例或每个微服务的数据源？

Django：如何以线程安全的方式执行 get_or_create()？

使用存储过程是一种不好的做法吗？

表别名如何影响性能？

我应该如何使用 MySQL 构建我的设置表？

为 Java servlet 管理数据库连接的最佳方法

Rails 新手，设置 db 然后运行 rake db：create/migrate

如何在每个 SQLite 行中插入唯一 ID？

最佳用户角色权限数据库设计实践？

为 django 模型自动创建数据的工具

单元测试数据库

有任何使用协议缓冲区的经验吗？