Postgresql Postgres从spark触发postwrite

发布于09月26日

我正在try 在一个表被外部Spark程序覆盖后在Postgres上创建触发器.基本上，Spark覆盖postgres上的一个表，然后触发器使用该表在另一个表上插入记录，并进行一些修改.将在此方案中触发工作.如果是，我应该使用UPDATE还是INSERT触发器？

编辑: Spark和SQL的过程.

来自皮斯帕克的写字表:

df.write.format("jdbc")
        .option("truncate","true")
        .option("driver", "org.postgresql.Driver")
        .option("url", postgres_host)
        .option("user", postgres_user)
        .option("password", postgres_password)
        .option("dbtable", table_name)
        .mode("overwrite")
        .save()

触发器和函数示例:

CREATE
    OR REPLACE FUNCTION test_trigger() 
    RETURNS TRIGGER AS $func$ BEGIN IF NOT EXISTS (
    SELECT
    FROM
        information_schema.tables
    WHERE
        table_schema = 'public'
        AND table_name = 'test_table'
) THEN EXECUTE 'CREATE TABLE IF NOT EXISTS test_table as
            SELECT *,ST_GeomFromText(ST_AsText(col), 4326) as geom 
            FROM  spark_table';
END IF;
RETURN NULL;
END;

$func$ LANGUAGE plpgsql;

CREATE TRIGGER insert_or_update_parcel_1
  AFTER INSERT OR UPDATE
  ON spark_table
  FOR EACH STATEMENT
  EXECUTE PROCEDURE create_table_trigger();

我已经测试过了，触发器可以工作，但它只从覆盖的表中取出一行，而不是所有的行.

CREATE OR REPLACE FUNCTION create_table_trigger() RETURNS TRIGGER AS $$ BEGIN INSERT INTO test_table SELECT *, ST_GeomFromText(ST_AsText(col), 4326) as geom FROM spark_table ON CONFLICT (your_primary_key_here) DO UPDATE SET col = EXCLUDED.col, geom = EXCLUDED.geom; RETURN NULL; END; $$ LANGUAGE plpgsql;

import psycopg2 import concurrent.futures def call_pg_function(): conn = psycopg2.connect(database="your_db", user="your_user", password="your_password", host="your_host", port="your_port") cur = conn.cursor() cur.callproc('your_function_name', [param1, param2]) # Replace with your function and parameters cur.close() conn.close() # Asynchronous call with concurrent.futures.ThreadPoolExecutor() as executor: future = executor.submit(call_pg_function)

from celery import Celery import psycopg2 # Initialize Celery app = Celery('tasks') app.config_from_object('celery_config') @app.task def execute_pg_function(): conn = psycopg2.connect( database="your_db", user="your_user", password="your_password", host="your_host", port="your_port" ) cur = conn.cursor() cur.callproc('your_function_name', [param1, param2]) # Replace with your function and parameters conn.commit() cur.close() conn.close()

Postgresql Postgres从spark触发postwrite

推荐答案

Postgresql相关问答推荐

转换失败：(—122.763091，49.04676)转换为地理(位置)""

在输入稍有错误的PostgreSQL表中进行快速字符串搜索

横向联接返回的行数太多

Postgres 13.8 -如何在对数据执行窗口操作时返回所有行

PostgreSQL：函数结果表内冲突(...)上的"；中的字段名称

为什么Postgres在打印时能完全缩短时间跨度？

将数组的所有元素循环到jsonb中并修改值

如何判断上次在 TimescaleDB 上运行连续聚合作业(job)的时间

在 postgresql 数据库 timestampz 中保留用户偏移量

如何让 Flask SQLAlchemy 重用数据库连接？

如何检索 PostgreSQL 数据库的 comments ？

判断值是否存在于列中

plpgsql：使用 2 个 OUT 参数调用函数

postgresql 分组和内部连接

使用 pg-promise 插入多条记录

使用 PostGIS 查找给定点的 n 个最近邻？

PostgreSQL 条件 where 子句

如何在 psql 中设置默认显示模式

PostgreSQL regexp_replace() 只保留一个空格

在 pg_restore 期间排除表