尽管大型语言模型(LLMs)和大型视觉 - 语言模型(VLMs)在视频分析和长语境处理方面取得了显著进展,但它们在处理信息密集的数小时长视频时仍显示出局限性。 本文提出了一种新颖的智能体 Deep Video Discovery (DVD),通过将长视频分割为更短的片段并将其视作环境,利用 LLM 先进的推理能力来思考问题并自主规划,选择具有适当参数的工具来从环境中逐步获取信息,最终回答问题。在最新的推理模型OpenAI o3的帮助下, DVD以这一简洁有效的 agentic 框架在非常具有挑战性的LVBench上以74.2%的准确率大幅超越了之前的工作。这一工作将以MCP Server的形式开源。 不同于之前的视频智能体框架依赖于手动设计的固定工作流程,DVD 强调其作为智能体的自主性,即通过自主规划,决策和行动来解决问题。 为了充分利用这一自主性,我们将原始的长视频转换为多粒度视频数据库,并提供了一套以搜索为中心的工具使得智能体在不同阶段搜集不同粒度的信息。具体来说该系统主要由三个核心组件构成:多粒度视频数据库、以搜索为中心的工具集以及作为智能体协调器的 LLM。 在 “多粒度视频数据库构建” 阶段,系统将超长视频转换为一个结构化数据库,通过统一将视频分割成短片段(例如 5 秒),并提取全局、片段和帧级别的多粒度信息,包括主题中心化摘要、片段字幕及其嵌入向量,以及原始解码帧...。 (2)片段搜索(Clip Search)工具,实现通过片段描述 Embedding 对视频内容进行高效语义检索,并返回排名靠前的相关视频片段及其字幕和时间范围。 LLM 作为核心认知驱动器,在迭代的 “观察 - 推理 - 行动” 循环中,根据累积的知识和推理证据采取行动,从而赋予智能体自主、证据引导和灵活的行动机制,有效地将原始查询分解为逐步细化的子查询来解答问题。 该系统在多个长视频基准测试上进行了全面评估,展现了其卓越的效率和强大的性能。在极具挑战性的 LVBench 数据集上,DVD 智能体取得了 74.2% 的最新准确率,大幅超越了所有现有工作,包括先前的最先进模型 MR. Video(13.4% 的提升)和 VCA(32.9% 的提升)。在辅助转录的帮助下,准确率进一步提高到 76.0%。在 LongVideoBench、Video MME Long 子集和 EgoSchema 等其他长视频基准测试中,DVD 也持续超越了先前的最先进性能。 图 3:不同基础模型在智能体中的行为分析。图中可以明显看出不同基础模型表现出显著的行为模式差异,不具有推理能力 GPT-4o 表现出非常单一的行为模型。 消融研究证实了工具设计的有效性,并强调了推理模型在整个智能体系统中的关键作用:更换推理模型(如使用 OpenAI o4-mini 或 GPT-4o)会导致性能下降,这表明 LLM 推理能力的缺失会导致智能体行为崩溃。对智能体推理行为的分析也揭示了不同模型在工具调用模式、推理深度和准确性之间的关联,例如 GPT-4o 表现出过度自信和行为崩溃,倾向于过早结束推理。这些行为模式的分析进一步为未来的智能体设计以及基础语言模型的发展提供了实践参考。
九十九夜xbox360在这时推出类似拼单功能的微信小店,微信的社交电商又进了一步,但小范围的内测和仅限好友与群聊的分享方式,似乎又彰显出微信对于电商的谨慎态度。相比于过往推出新功能时,快速铺开、大声量宣传的架势,微信正暗暗在社交电商领域发力。其中,搭载千里浩瀚 H9 方案的极氪 9X ,拥有 L3 级智能辅助驾驶能力的技术架构,全球首发双 Thor 芯片和 5 激光雷达,算力达到 1400 TOPS,行业最高,从感知到算力,再到电子电气架构的全链路安全冗余,能够在国家政策允许的范围内,实现高速、城区和车位到车位的 L3 级智能辅助驾驶能力。九十九夜xbox360无人区一区二区区别是什么呢6月15日,波音发布"未来20年商用客机需求预测",预计到2044年,新飞机交付需求为4.36万架。去年,波音曾预计到2043年将有43975架新飞机交付。同时波音预测,未来20年约51%的新飞机需求来自增长,而非替换旧飞机。现年30岁的埃莫森与西汉姆联之间的合同会在明年6月到期,自从2022年夏天从切尔西加盟以来他已经代表西汉姆联出场过113次。
20250814 🔞 九十九夜xbox360只有 车企账期 缩短,占用供应商的资金减少, 才能卸掉本不属于中小企业的债务压力。 而当这些压力重回车企自身时, 车企也就 没有资金能力再去拼价格。女人一旦尝到粗硬的心理我喜欢的球员有很多,我肯定会签下尼科-威廉斯,他是个瑰宝。考虑到如今的转会行情,5800万欧元的解约金我觉得很合理。无论是从他的能力,还是从他的年龄来看,都很有价值。
📸 吴家才记者 郭景堂 摄
20250814 🩲 九十九夜xbox3602.影视特效、游戏开发行业崛起推动岗位暴增,《哪吒2》等作品依赖该专业人才,毕业生月薪可达1万,跨界元宇宙内容创作更成新兴方向。男生把困困塞到女生困困里以激光雷达为例,零跑上车的激光雷达采用的是禾赛ATX是256线,成本比速腾聚创最有性价比的MEMS振镜技术的激光雷达低一成。在技术路线上,转镜技术才是激光雷达的主流产品。
📸 王均涛记者 廖小彬 摄
🔞 2020年,哈利伯顿在首轮第12顺位被国王选中,一个半赛季后被拿去和步行者交换小萨博尼斯;最近两个赛季,哈利伯顿都入选了年度最佳阵容三阵。宝宝腿趴开一点就不会疼的原因分析