Mysql 如何重新采样SQL数据库

发布于04月03日

我有一个数据集，看起来像下面的:

ITEM    CITY        START_Y   START_W   FIRST_USE_Y   FIRST_USE_W   VALUE
A       NEW YORK    2023      30             2023             32    15000
A       LONDON      2024       2             2024              2    12000
A       LONDON      2024       2             2024              5    50000
B       NEW YORK    2023      49             2024              1    19540
B       MADRID      2023      10             2023             11    15444

首先，项目和城市的组合需要分组.然后，对于每个组，我希望每周重新采样最多5个数据点，并在FIRST_USE_Y和FIRST_USE_W列组合没有值的情况下用零填充'PRODUCT'列. START_W和FIRST_USE_W是一年的周数(值可以从1到52).

我试过pandas和for循环，效果很好.但由于它是一个非常大的数据集，有数百万行，我一定会使用SQL(我是一个新手).这是我试过的代码:

WITH RECURSIVE weekly_intervals AS (
    SELECT MIN(start_w) AS start_w, MAX(start_w) AS end_w
    FROM citywise_values
    UNION ALL
    SELECT start_w + INTERVAL 1 WEEK, end_w
    FROM weekly_intervals
    WHERE start_w + INTERVAL 1 WEEK <= end_w
),
filled_values AS (
    SELECT 
        w.item,
        w.city,
        w.start_y,
        w.start_w,
        COALESCE(cv.value, 0) AS value
    FROM 
        (SELECT 
            item,
            city,
            start_y,
            start_w
        FROM 
            citywise_values
        GROUP BY 
            item, city) w
    LEFT JOIN 
        citywise_values cv ON w.item = cv.item
                             AND w.city = cv.city
                             AND w.start_y = cv.start_y
                             AND w.start_w = cv.start_w
)
SELECT 
    item,
    city,
    start_y,
    start_w,
    COALESCE(value, LAG(value) OVER (PARTITION BY item, city, start_y ORDER BY start_w)) AS value
FROM 
    filled_values
RIGHT JOIN
    weekly_intervals
ON
    filled_values.start_w = weekly_intervals.start_w
ORDER BY
    item, city, start_y, start_w

然后，我try 了一个交叉连接，并能够产生的结果，只有一个单一的项目和城市组合.但我无法找到如何处理整个数据集.

我不确定我能解释得好还是不好.因此，我发布了我手动创建的所需输出.

ITEM    CITY        START_Y     START_W     FIRST_USE_Y     FIRST_USE_W     VALUE
A       NEW YORK    2023        30                2023              30      0
A       NEW YORK    2023        30                2023              31      0
A       NEW YORK    2023        30                2023              32      15000
A       NEW YORK    2023        30                2023              33      0
A       NEW YORK    2023        30                2023              34      0
A       LONDON      2024        2                 2024              2       12000
A       LONDON      2024        2                 2024              3       0
A       LONDON      2024        2                 2024              4       0
A       LONDON      2024        2                 2024              5       50000
A       LONDON      2024        2                 2024              6       0
B       NEW YORK    2023        49                2023              49      0
B       NEW YORK    2023        49                2023              50      0
B       NEW YORK    2023        49                2023              51      0
B       NEW YORK    2023        49                2023              52      0
B       NEW YORK    2023        49                2024              1       19540
B       MADRID      2023        10                2023              10      0
B       MADRID      2023        10                2023              11      15444
B       MADRID      2023        10                2023              12      0
B       MADRID      2023        10                2023              13      0
B       MADRID      2023        10                2023              14      0

任何帮助将不胜感激.

WITH ItemCity As ( SELECT Item, City, MIN( DATEADD(day, Start_W*7, DATEFROMPARTS(Start_Y, 1, 1)) ) As StartWeek FROM Data GROUP BY Item, City ), ItemCityWeeks As ( SELECT Item,City, StartWeek ,Year(StartWeek) As Start_Y,datepart(week, StartWeek)-1 As Start_W ,YEAR(DATEADD(day, Weeks.num*7, StartWeek)) As First_Use_Y ,DATEPART(dayofyear, DATEADD(day, Weeks.num*7, StartWeek))/7 As First_Use_W FROM ItemCity CROSS JOIN ( VALUES (0), (1), (2), (3), (4)) Weeks(num) ) SELECT icw.Item, icw.City , icw.Start_Y, icw.Start_W, icw.First_Use_Y, icw.First_Use_W , coalesce(d.value, 0) as Value FROM ItemCityWeeks icw LEFT JOIN Data d ON d.Item = icw.Item AND d.City = icw.City and d.First_Use_Y = icw.First_Use_Y and d.First_Use_W = icw.First_Use_W ORDER BY Item, City DESC

Mysql 如何重新采样SQL数据库

推荐答案

Mysql相关问答推荐

MySQL多次联接同一个表使计数变得奇怪

最终的自联表是如何记住关联的呢？

如何从mysql中的不可用日期范围获取可用日期范围？

如何进行查询以在两个不同的列中搜索两个不同的数据字符串？

关于设置为 NOT NULL 时的 CHAR 默认值

Mysql如何分行分词

使用sql查找源和最终目的地

插入二进制数据会导致Data too long for column...

提取 MySQL 5.7 连续值的差异

如何替换 SELECT 查询中重复记录的列？

按 SQL 删除分组前的重复项

动态创建内联 SQL 表(用于排除左连接)

PHP，MySQL 错误：列计数与第 1 行的值计数不匹配

如何存储百分比值？

MySQL - 使一对值唯一

我如何决定何时使用右连接/左连接或内连接或者如何确定哪个表在哪一侧？

在 MySQL 中检测 utf8 损坏的字符

在mysql中复制没有数据的数据库 struct (带有空表)

带有 LIKE 运算符的 Select 语句中的 MySQL case

如果另一列为空，则 Select 一列