从TB级数据到洞察力：现实世界AI可观测性架构-阿里西西

假设您正在维护和开发一个每分钟处理数百万笔交易的电商平台，该系统会生成海量遥测数据，包括跨多个微服务的指标、日志和追踪数据。当关键事故发生时，值班工程师需要从数据海洋中筛选出相关信号和洞见，这无异于大海捞针。

这使得可观测性成为挫败感的来源而非洞察工具。为缓解这一痛点，我开始探索利用模型上下文协议(MCP)为日志和分布式追踪添加上下文并推导结论的解决方案。本文将概述我构建AI驱动的可观测性平台的经验，解析系统架构并分享实践心得。

为何可观测性充满挑战？

在现代软件系统中，可观测性不是奢侈品，而是基本需求。测量和理解系统行为的能力是可靠性、性能和用户信任的基石。正如谚语所说："无法度量就无法改进"。

然而在当今云原生、微服务架构中实现可观测性比以往更加困难。单个用户请求可能穿越数十个微服务，每个服务都会产生日志、指标和追踪数据，最终形成庞大的遥测数据：

挑战不仅来自数据量，更源于数据碎片化。根据New Relic 2023年可观测性预测报告，50%的企业存在遥测数据孤岛问题，仅33%能实现指标、日志和追踪的统一视图。

日志讲述故事A，指标呈现故事B，追踪又展示故事C。缺乏连贯的上下文线索，工程师被迫进行手动关联，依赖直觉、部落知识和繁琐的排查工作。

面对这种复杂性，我开始思考：AI如何帮助我们突破碎片化数据，提供全面有效的洞见？能否通过MCP等结构化协议，让遥测数据对人类和机器都更具意义和可访问性？这个项目正是基于这个核心问题展开。

理解MCP：数据管道视角

Anthropic将MCP定义为开放标准，允许开发者在数据源和AI工具间建立安全的双向连接。这种结构化数据管道包括：

这有望将平台可观测性从被动解决问题转向主动获取洞见。

系统架构与数据流

在深入实现细节前，让我们梳理系统架构。

第一层通过嵌入标准化元数据开发上下文遥测数据，包括分布式追踪、日志和指标。第二层将增强数据输入MCP服务器进行索引、结构化，并通过API提供上下文增强数据的客户端访问。最后，AI驱动的分析引擎利用结构化增强的遥测数据进行异常检测、关联和根因分析，以排查应用问题。

这种分层设计确保AI和工程团队能从遥测数据中获得上下文驱动的可执行洞察。

实现深度解析：三层系统

让我们探索基于MCP的可观测性平台的具体实现，聚焦各步骤的数据流和转换。

第一层：上下文增强数据生成

首先需确保遥测数据包含足够的分析上下文。核心洞见是：数据关联应在生成时而非分析时完成。

def process_checkout(user_id, cart_items, payment_method):
"""模拟带有上下文增强遥测的结账流程"""

# 生成关联ID
order_id = f"order-{uuid.uuid4().hex[:8]}"
request_id = f"req-{uuid.uuid4().hex[:8]}"

# 初始化将应用的上下文字典
context = {
"user_id": user_id,
"order_id": order_id,
"request_id": request_id,
"cart_item_count": len(cart_items),
"payment_method": payment_method,
"service_name": "checkout",
"service_version": "v1.0.0"
}

# 使用相同上下文启动OTel追踪
with tracer.start_as_current_span(
"process_checkout",
attributes={k: str(v) for k, v in context.items()}
) as checkout_span:

# 使用相同上下文记录日志
logger.info(f"启动结账流程", extra={"context": json.dumps(context)})

# 上下文传播
with tracer.start_as_current_span("process_payment"):
# 支付处理逻辑...
logger.info("支付已处理", extra={"context":

json.dumps(context)})

代码1. 日志和追踪的上下文增强

这种方法确保每个遥测信号(日志、指标、追踪)都包含相同的核心上下文数据，从源头解决关联问题。

第二层：通过MCP服务器的数据访问

接着构建了将原始遥测转换为可查询API的MCP服务器，核心数据操作包括：

@app.post("/mcp/logs", response_model=List[Log])
def query_logs(query: LogQuery):
"""使用特定过滤器查询日志"""
results = LOG_DB.copy()

# 应用上下文过滤器
if query.request_id:
results = [log for log in results if log["context"].get("request_id") == query.request_id]

if query.user_id:
results = [log for log in results if log["context"].get("user_id") == query.user_id]

# 应用时间过滤器
if query.time_range:
start_time = datetime.fromisoformat(query.time_range["start"])
end_time = datetime.fromisoformat(query.time_range["end"])
results = [log for log in results
if start_time <= datetime.fromisoformat(log["timestamp"]) <= end_time]

# 按时间戳排序
results = sorted(results, key=lambda x: x["timestamp"], reverse=True)

return results[:query.limit] if query.limit else results

代码2. 使用MCP服务器的数据转换

该层将遥测数据从非结构化数据湖转换为AI系统可高效导航的结构化、查询优化的接口。

第三层：AI驱动的分析引擎

最后一层是通过MCP接口消费数据的AI组件，执行：

def analyze_incident(self, request_id=None, user_id=None, timeframe_minutes=30):
"""分析遥测数据以确定根因和建议"""

# 定义分析时间窗口
end_time = datetime.now()
start_time = end_time - timedelta(minutes=timeframe_minutes)
time_range = {"start": start_time.isoformat(), "end": end_time.isoformat()}

# 基于上下文获取相关遥测
logs = self.fetch_logs(request_id=request_id, user_id=user_id, time_range=time_range)

# 提取日志中提到的服务以进行针对性指标分析
services = set(log.get("service", "unknown") for log in logs)

# 获取这些服务的指标
metrics_by_service = {}
for service in services:
for metric_name in ["latency", "error_rate", "throughput"]:
metric_data = self.fetch_metrics(service, metric_name, time_range)

# 计算统计属性
values = [point["value"] for point in metric_data["data_points"]]
metrics_by_service[f"{service}.{metric_name}"] = {
"mean": statistics.mean(values) if values else 0,
"median":

本站部分内容转载自互联网，如果有网站内容侵犯了您的权益，可直接联系我们删除，感谢支持！

上一篇：人工智能承诺的机会掩盖了受控替代的现实下一篇：Anthropic收入依赖两大客户，AI价格战威胁利润率