我正在使用http请求使用Elasticearch,我想看看是否有一种方法可以在将文档发送到客户端之前对文档进行分组.

作为背景,Elasticseach每天大约有3000万个文档,而且同一文档会连续被垃圾邮件发送数百次.我想要一种方法将这数百条消息分组到一个唯一的日志(log)中,这样我就不必在http请求中发送数百个相同的文档.

此外,如果您能在ElasticSearch方面标记垃圾邮件,另一件事将会有所帮助.如果文档立即出现数百次,有没有办法在ElasticSearch中将值设置为垃圾邮件,或者在客户端设置该值.

我目前正在通过聚合研究唯一文档,这可能是一个开始,但我也可能有一个问题,即它只返回唯一文档的计数.

推荐答案

如果您正在处理重复的文档,解决此问题的一个方法可能是创建一个Ingest Pipeline.

您可以创建一个管道来生成文档的hash,并将_id设置为该散列的值.由于Elasticearch ID必须是唯一的,所有重复的文档都将被摄取管道拒绝.

看看ElasticSearch Fingerprint Processor,可以找到更多指导.

Python相关问答推荐

Google Drive API获取文件计量数据

Python中的负前瞻性regex遇到麻烦

如何在Deliveryter笔记本中从同步上下文正确地安排和等待Delivercio代码中的结果?

使用numpy提取数据块

'discord.ext. commanders.cog没有属性监听器'

如何在类和classy-fastapi -fastapi- followup中使用FastAPI创建路由

在Python中管理打开对话框

在Wayland上使用setCellWidget时,try 编辑QTable Widget中的单元格时,PyQt 6崩溃

Python中绕y轴曲线的旋转

python中字符串的条件替换

如何在turtle中不使用write()来绘制填充字母(例如OEG)

名为__main__. py的Python模块在导入时不运行'

python panda ExcelWriter切换动态公式到数组公式

Python Pandas—时间序列—时间戳缺失时间精确在00:00

如何在Gekko中使用分层条件约束

如何在Python中使用Iscolc迭代器实现观察者模式?

操作布尔值的Series时出现索引问题

将字节序列解码为Unicode字符串

为什么我的scipy.optimize.minimize(method=";newton-cg";)函数停留在局部最大值上?

如何在PYTHON中向单元测试S Side_Effect发送额外参数?