当前的计算机视觉系统擅长于识别物理空间与流程中的事件,却难以诠释场景细节及其意义,也无法推理后续可能发生的情况。

由视觉语言模型 (VLM) 驱动的代理式 AI,能够解决这一问题。它让团队能够快速、便捷地获取关键的洞见与分析,并将文本描述与时空信息、以及系统每日产生的海量视觉数据无缝衔接。

以下三种方法可助力企业使用代理式 AI 激活传统计算机视觉系统:

  • 运用密集标注技术,生成可搜索的视觉内容
  • 利用详细上下文增强系统警报
  • 借助 AI 推理,总结复杂场景中的信息并解答疑问

利用密集标注,实现视觉内容可搜索

传统的卷积神经网络 (CNN) 驱动的视频搜索工具受限于有限的训练数据、上下文及语义理解的不足,这导致信息提炼工作必须依赖人工,且既繁琐又耗时。CNN 通常被调优以执行如识别异常之类的视觉任务,但缺乏将其所见转换为文本的多模态能力。

企业可以将 VLM 直接嵌入其现有应用程序中,为图像和视频生成详尽的标注。这些标注能在不受限于文件名或基础标签的情况下,将非结构化内容转化为丰富的、可搜索的元数据,从而实现灵活度远胜以往的视觉搜索。

以自动化车辆检测系统 Uveye 为例,作为全球规模最大的车辆及零部件数据集之一,它每月处理超过 7 亿张高分辨率图像。通过应用 VLM,Uveye 将这些视觉数据转化为结构化的报告,且能够以高准确性与可靠性,检测出细微的缺陷、改装或异物,以供搜索与分析。

由 VLM 驱动的视觉理解提供了至关重要的上下文,保障了从合规、安全到质控各环节洞察的透明与一致。Uveye 能检测出 96% 的缺陷,比人工检测高出 24%,这使早期干预成为可能,从而减少停机时间并控制维护成本。

Relo Metrics 是一家由 AI 驱动的体育营销评估服务商,致力于帮助品牌量化媒体投资价值并优化支出。通过将 VLM 与计算机视觉相结合,Relo Metrics 不仅仅可以做到基础的 Logo 检测,现能够精准捕捉如在比赛“绝杀球”时刻展示的场边广告牌等场景,并将其转化为实时的商业价值。

这种基于环境的洞察能力,通过突显 Logo 在关键高曝光时刻的出现时间和方式,帮助营销人员更清晰地了解投资回报率,并找到优化策略的途径。例如,Stanley Black & Decker 及其旗下的 Dewalt,此前仅依赖赛季末的报告来评估赞助资产的表现,这限制了决策的及时性。现在通过利用 Relo Metrics 获取实时洞察,Stanley Black & Decker 及时调整了广告牌位置,从而挽回了价值 130 万美元的潜在赞助媒体损失。

利用 VLM 推理能力增强计算机视觉系统警报

基于 CNN 的计算机视觉系统通常只生成类似“是或否”、“真或假”的二元的检测警报。缺乏 VLM 的推理能力,往往会导致误报或细节遗漏,从而在安全保障方面引发代价高昂的错误,并造成商业情报的缺失。VLM 无需完全取代现有的 CNN 视觉系统,而是可以作为一个智能附加组件,轻松地对现有系统进行增强。通过在 CNN 系统之上叠加 VLM 层,系统不仅能标记检测警报,还能结合场景语境对事件发生的地点、方式及原因进行复核。

在智慧城市交通管理领域,Linker Vision 利用 VLM 验证关键的城市警报,包括:交通事故、洪涝灾害或暴风雨引发的树木及电线杆倒塌。这种方式不仅降低了误报率,还为每起事件补充了关键的背景信息,从而显著提升了市政部门的实时响应效率。

Linker Vision 的代理式 AI 架构能自动分析超过 50,000 路多样化的智慧城市摄像头视频流,以实现跨部门的协同整治。当事件发生时,该系统可协调如交通管制、公共事业及急救响应等多团队展开联合行动。凭借同时查询所有摄像头流的能力,系统能迅速将观察到的现象转化为深刻洞察,给出下一步最佳行动的具体建议。

基于代理式 AI 的复杂场景自动解析

代理式 AI 系统能够处理视频流、音频、文本、视频及传感器数据等多种模态的信息,并能对复杂查询进行推理与回答,从而实现对复杂场景的自动化分析。该功能的实现,需结合 VLM、推理模型、大语言模型 (LLM)、检索增强生成 (RAG)、计算机视觉和语音转录等多种技术。

将 VLM 直接集成到现有计算机视觉工作流中,虽能验证关键时刻的短视频片段,但其能力受限于单模型一次可处理的视觉 token 数量,故而无法理解更长时间周期与外部知识构成的上下文,最终只能提供表面层次的答案。

相比之下,基于代理式 AI 构建的完整架构,则能对冗长、多路的视频档案进行可扩展且精确的处理,实现超越表面理解的更深层、准确和可靠的洞察。此外,该系统还适用于根本原因分析,或处理冗长巡检视频以生成带时间戳洞察的报告。

Levatas 利用移动机器人与自主系统,为关键基础设施开发视觉巡检解决方案,致力于提升电力变电站、燃料站、铁路调车场与物流中心等关键基础设施资产的安全性、可靠性与性能。基于 VLM,Levatas 构建了视频分析 AI 智能体,可自动审查巡检影像并起草详细报告,从而极大地优化了这一传统上依赖人工的耗时流程。Levatas 通过将其 AI 与 Skydio X10 设备集成,为 American Electric Power (AEP) 简化电力基础设施巡检。该方案使 AEP 能够自主巡检电线杆、精准识别热缺陷并检测设备损坏。一旦发现问题,系统会立即向 AEP 团队发送警报,确保快速响应与问题解决,从而保障可靠、清洁且经济高效的能源供应。

Eklipse 是一款利用 VLM 驱动代理的 AI 游戏高光工具,它能通过为直播流添加字幕和索引元数据,实现快速查询、总结并生成精美高光片段,整个过程仅需数分钟,效率高达传统方案的 10 倍,彻底革新了内容消费体验。

基于 NVIDIA 技术构建视频智能体

开发人员可运用 NVCLIP、NVIDIA Cosmos Reason 与 Nemotron Nano V2 等多模态 VLM,构建富含元数据的索引,以此实现高级搜索与推理功能。

开发人员若要将 VLM 集成到计算机视觉应用中,可使用 NVIDIA 用于视频搜索及总结的 Blueprint (VSS) 中的 event reviewer 功能。VSS Blueprint 是 NVIDIA Metropolis 平台的一部分。

为实现智能运营、更丰富的视频分析及实时流程合规性,并能随需求扩展,VSS Blueprint 提供了定制化方案:它支持开发人员构建直接访问 VLM 的 AI 智能体,或将 VLM 与 LLM、RAG 和计算机视觉模型结合使用,以应对更复杂的视频查询与总结任务。

了解更多关于 NVIDIA 赋能的视频分析 AI 智能体

本站提供的所有下载资源均来自互联网,仅提供学习交流使用,版权归原作者所有。如需商业使用,请联系原作者获得授权。 如您发现有涉嫌侵权的内容,请联系我们 邮箱:[email protected]