功能列表¶
本页列出了可观测性 Insight 的功能特性,欢迎使用。
类别 | 子类 | 描述 | 社区版 | 标准版 |
---|---|---|---|---|
仪表盘 | 平台组件监控 | 通过原生 Grafana 提供开源精选仪表盘,提供内置仪表盘支持对 etcd、APIServer 等组件进行监控 | ✓ | ✓ |
集群资源监控 | 对集群、节点、命名空间等多维度提供监控。Grafana 使用的数据源支持查看多集群的数据。 | ✓ | ✓ | |
提供监控平台核心组件的仪表盘,实时检测组件运行状态 | ✓ | ✓ | ||
基础设施 | 多集群监控 | 提供多集群业务集中可观测 管理员统一管理多集群告警,且满足集群、租户管理员数据隔离 支持持久化集群的指标、日志数据。 | ✓ | ✓ |
集群监控 | 提供对单个集群的监控概览,可查看该集群的运行状态、了解集群的资源使用情况,以及当前集群正在发生的告警 | ✓ | ✓ | |
节点监控 | 支持查看节点运行状态等,并了解该节点的 CPU、内存、网络等资源变化情况 | ✓ | ✓ | |
命名空间监控 | 支持查看命名空间中运行的资源数量统计,以及命名空间中容器组使用的 CPU、内存量的总和。 | ✓ | ✓ | |
容器监控 | 支持对无状态负载、守护进程、容器组等资源进行监控,可以监控该工作负载的运行状态,可查看正在告警的数量以及 CPU、内存等资源消耗的变化趋势图 | ✓ | ✓ | |
事件 | 支持查看集群中产生的 Kubernetes 事件记录集合,并支持按照事件类型、对象、原因等进行查询。 | ✓ | ✓ | |
拨测 | 基于黑盒监控定期通过 HTTP、TCP 等方式对目标进行连通性测试,快速发现正在发生的故障。 | ✓ | ✓ | |
指标 | 普通查询 | 普通查询预订了基础指标,选择集群、类型、节点、指标名称等查询条件后可查询资源的变化趋势 | ✓ | ✓ |
高级查询 | 支持通过原生 PromQL 语句,查询指标图表及数据详情 | ✓ | ✓ | |
日志 | 普通查询 | 可查询 Node、Pod、Depoyment、Statefulset 等日志,可查询单条日志的上下文内容 支持按照关键字进行搜索 默认按照时间排序,通过直方图可查询日志数量的变化趋势 | ✓ | ✓ |
高级查询 | 支持原生 lucene 语法,快速查询目标日志 | ✓ | ✓ | |
日志上下文 | 点击单行日志右侧的图标可查看该行日志的上下文信息。 | ✓ | ✓ | |
日志下载 | 支持下载一段时间内的日志 支持导出单条日志上下文的内容 支持自定义日志下载的字段 | ✓ | ✓ | |
链路追踪 | 服务拓扑 | 管理员可查看接入观测平台和链路采集的服务间的调用关系、健康状态,快速的故障定位 可查看服务间请求的流量方向和关键指标 可快速查看单个服务的实时吞吐量、请求数、请求延时和错误率 | ✓ | |
服务 | 可查看当前接入链路数据的服务列表,以及服务最近 15 分钟的吞吐率、错误率、请求延时 点击服务可查看所选服务最近 15 分钟的流量趋势以及该服务操作的聚合指标 | ✓ | ||
调用链 | 默认查询所选服务最近 15 分钟中的所有请求以及请求状态、延时、Span 数等 点击列表后侧的图标,可查询该链路的相关容器日志和链路日志。 | ✓ | ||
告警中心 | 活动告警 | 提供直方图查看告警时间的变化趋势 支持查看所有正在告警的规则及详情 | ✓ | ✓ |
历史告警 | 可查询自动恢复或手动被解决后的所有告警 | ✓ | ✓ | |
告警规则 | 内置 100+ 告警规则,对集群组件、容器资源等提供预定义的告警规则 管理员可创建全局告警规则,对已安装 insight-agent 的集群进行统一告警 支持通过预定义指标创建告警规则 支持通过编写 PromQL 语句创建告警规则 支持自定义阈值、持续时间及通知方式 可自定义告警的级别,支持紧急、警告、提示三个等级 | ✓ | ✓ | |
日志/事件告警 | 针对日志关键字、事件状态频次设置告警规则 | ✓ | | ||
通知配置 | 在通知配置页面,可以配置通过邮件组、企业微信、钉钉、Webhook 等方式向用户发送消息 支持同时通知到多个告警对象 | ✓ | ✓ | |
消息模板 | 消息模板功能支持自定义消息模板的内容,并可邮件、企业微信、钉钉、Webhook 、短信的形式通知指定的对象 | ✓ | ✓ | |
告警静默 | 通过配置静默规则,可以在指定时间段内不再接收告警通知。 | ✓ | ✓ | |
告警抑制 | 通过配置抑制规则,可以抑制或阻止与某些特定告警相关的其他告警通知。 | ✓ | ✓ | |
告警模板 | 支持告警模板,平台管理员创建告警模板及规则;业务侧可以直接使用告警模板创建告警策略。 | ✓ | ✓ | |
日志采集和查询 | 统一日志采集 | 统一采集节点、容器、容器内、k8s 事件的日志数据 采集全局管理平台的审计操作,默认不开启采集 k8s 审计日志 | ✓ | ✓ |
日志持久化存储 | 日志可标注输出到 Elasticsearch 等中间件进行持久化 | ✓ | ✓ | |
指标采集 | 指标数据采集 | 支持通过使用 ServiceMonitor 自行定义 Pod 发现的 Namespace 范围以及通过 matchLabel 来选择监听的 Service | ✓ | ✓ |
系统配置 | 系统配置 | 系统配置展示指标、日志、链路默认的保存时长以及默认的 Apdex 阈值 支持自定义修改指标、日志、链路数据的存储时间 | ✓ | ✓ |
系统组件 | 提供对可观测组件的统一监控,实时检测系统组件的健康状态 | ✓ | ✓ |