加载笔记内容...
加载笔记内容...
Field collapsing是Elasticsearch实现去重功能的核心机制,其本质是通过折叠相同字段值的文档来返回唯一结果。与SQL的DISTINCT不同,Elasticsearch的去重实现具有以下特性:
字段类型限制:被折叠字段必须是keyword类型或满足以下条件:
date
或 date_nanos
ip
类型fielddata
的text字段(不推荐)底层实现原理:
关键限制:
search.allow_partial_search_results: false
)1GET /logs/_search
2{
3 "query": {
4 "range": {
5 "@timestamp": {
6 "gte": "now-1d/d"
7 }
8 }
9 },
10 "collapse": {
11 "field": "container_name.keyword",
12 "inner_hits": {
13 "name": "latest",
14 "size": 1,
15 "sort": [{"@timestamp": "desc"}]
16 }
17 },
18 "sort": [{"@timestamp": "desc"}]
19}
优势:性能最优,支持实时数据 局限:无法获取精确基数(仅分片级别去重)
1GET /logs/_search
2{
3 "size": 0,
4 "aggs": {
5 "unique_containers": {
6 "terms": {
7 "field": "container_name.keyword",
8 "size": 1000
9 }
10 }
11 }
12}
适用场景:获取去重后的基数统计 风险提示:基数较大时存在精度问题(precision_threshold配置)
1GET /logs/_search
2{
3 "size": 0,
4 "aggs": {
5 "unique_combos": {
6 "composite": {
7 "sources": [
8 { "container": { "terms": {"field": "container_name.keyword"} } }
9 ]
10 }
11 }
12 }
13}
优势:支持分页获取所有唯一值
最佳实践:配合after_key
实现游标式分页
eager_global_ordinals
1PUT /logs/_mapping
2{
3 "properties": {
4 "container_name": {
5 "type": "keyword",
6 "eager_global_ordinals": true
7 }
8 }
9}
index sorting
预处理1PUT /logs
2{
3 "settings": {
4 "index": {
5 "sort.field": ["@timestamp", "container_name"],
6 "sort.order": ["desc", "desc"]
7 }
8 }
9}
方案类型 | 响应时间 | 内存消耗 | 准确性 | 适用场景 |
---|---|---|---|---|
Field Collapse | 10-50ms | 低 | 分片级 | 实时查询 |
Terms Agg | 100-500ms | 中 | 近似值 | 基数统计 |
Composite Agg | 200-800ms | 高 | 精确值 | 全量导出 |
Scroll+Scan | 秒级 | 低 | 精确值 | 离线处理 |
1{
2 "collapse": {
3 "field": "virtual_field",
4 "inner_hits": {
5 "name": "latest",
6 "size": 1
7 }
8 },
9 "runtime_mappings": {
10 "virtual_field": {
11 "type": "keyword",
12 "script": "emit(doc['field1'].value + '|' + doc['field2'].value)"
13 }
14 }
15}
采用Search After方案:
1# Python示例
2last_sort = None
3while True:
4 query = {
5 "collapse": {"field": "container.keyword"},
6 "size": 100,
7 "sort": [{"@timestamp": "desc"}]
8 }
9 if last_sort:
10 query["search_after"] = last_sort
11 result = es.search(query)
12 # 处理结果...
13 last_sort = result['hits']['hits'][-1]['sort']
Hybrid Search趋势:
Time Series优化:
_tsid
字段实现多维时间序列压缩争议领域:
推荐使用Profile API分析查询性能:
1GET /logs/_search
2{
3 "profile": true,
4 "collapse": {
5 "field": "container.keyword"
6 }
7}
重点关注:
collapse
阶段的collapsed_shards
数量inner_hits
子查询的耗时占比典型性能问题处理流程:
index.sort
预排序Elasticsearch的去重实现需要根据具体场景选择合适方案:实时查询优先考虑Field Collapsing,基数统计推荐Terms Aggregation,全量导出应采用Composite Aggregation。随着8.x版本对向量搜索和时间序列的持续优化,未来去重技术将更加智能化,但核心仍在于对数据特性和业务需求的精准把握。