聚合函数

聚合函数对一组值执行计算并返回单个值。聚合函数只能用在以下表达式中：

select 语句的 select 列表（子查询或外部查询）。
HAVING 子句。

AVG

avg(col)

返回组中的平均值。空值不参与计算。

COUNT

count(*)
count(col)

返回组中的项目数。空值不参与计算。

MAX

max(col)

返回组中的最大值。空值不参与计算。

MIN

min(col)

返回组中的最小值。空值不参与计算。

SUM

sum(col)

返回组中所有值的总和。空值不参与计算。

COLLECT

collect(*)
collect(col)

返回组中指定的列或整个消息（参数为*时）的值组成的数组。

示例

获取当前窗口所有消息的列 a 的值组成的数组。假设列 a 的类型为 int, 则结果为: [{"r1":[32, 45]}] sql SELECT collect(a) as r1 FROM test GROUP BY TumblingWindow(ss, 10)
获取当前窗口所有消息的列 a 的值组成的数组。结果为: [{"r1":{"a":32, "b":"hello"}, {"a":45, "b":"world"}}]
```
SELECT collect(*) as r1 FROM test GROUP BY TumblingWindow(ss, 10)
```

获取当前窗口第二个消息的列 a 的值。结果为: [{"r1":32}]

SELECT collect(*)[1]->a as r1 FROM test GROUP BY TumblingWindow(ss, 10)

DEDUPLICATE

deduplicate(col, false)

返回当前组去重的结果，通常用在窗口中。其中，第一个参数指定用于去重的列；第二个参数指定是否返回全部结果。若为 false ，则仅返回最近的未重复的项；若最近的项有重复，则返回空数组；此时可以设置 sink 参数 omitIfEmpty，使得 sink 接到空结果后不触发。

示例

获取当前窗口中，列 a 值不重复的所有消息组成的数组。结果为: [{"r1":{"a":32, "b":"hello"}, {"a":45, "b":"world"}}] sql SELECT deduplicate(a, true) as r1 FROM test GROUP BY TumblingWindow(ss, 10)
获取列 a 值在过去一小时中不重复的值。每收到一条新消息，都会检测列 a 是否重复，若不重复则输出：[{"r1":32}] 或者 [{"r1":45}]。若检测到重复值，则输出 [{}] 。此时，可以设置 omitIfEmpty 的 sink 参数使得检测到重复值时不触发规则。 sql SELECT deduplicate(a, false)->a as r1 FROM demo GROUP BY SlidingWindow(hh, 1)

STDDEV

stddev(col)

返回组中所有值的标准差。空值不参与计算。

STDDEVS

stddevs(col)

返回组中所有值的样本标准差。空值不参与计算。

VAR

var(col)

返回组中所有值的方差。空值不参与计算。

VARS

vars(col)

返回组中所有值的样本方差。空值不参与计算。

PERCENTILE

percentile(col, 0.5)

返回组中所有值的指定百分位数。空值不参与计算。其中，第一个参数指定用于计算百分位数的列；第二个参数指定百分位数的值，取值范围为 0.0 ~ 1.0 。

PERCENTILE_DISC

percentile_disc(col, 0.5)

aggregate_functions.md 3.3 KB 永久連結 文件歷史 原始文件