AI 进展雷达 | Fineuralab

AI 进展雷达

把 AI 新闻和论文变成可行动摘要

这个页面不是自动搬运新闻，而是每周挑选会影响 AI 使用、Agent 工作流、RAG、评估、安全和工具选择的更新。每条都保留原始来源，并补上“为什么重要”和“可以怎么用”。

2 周更新 5 个平台信号 6 篇论文 2026-07-01 核对日期

收录标准

必须影响实际使用

优先收录会改变 prompt、工具调用、权限、评估、检索、模型选择或发布检查的内容。

链接原始来源

产品更新尽量链接官方发布说明，论文链接 arXiv 或原始论文页；本页只做摘要和实用解读。

每周可更新

当前先放上周和本周精选；后续可以保留归档，形成独立站的长期原创内容资产。

本周

2026 年 6 月 29 日-7 月 1 日

5 条精选

产品和平台更新

只收录会影响用户使用、开发者集成或工作流设计的变化。

Jun 30 产品更新 Anthropic API 发布说明

Claude Platform 记录了一组模型和托管工具更新

Anthropic 的 API 发布说明记录了 6 月底围绕 Claude 模型/运行时行为以及文件、网页搜索等托管工具能力的变化。

为什么重要: 做 Agent 或检索工作流的人，即使 prompt 没变，也应该在平台更新后重新测试工具调用、检索和长上下文链路。
可以怎么用: 给最重要的 Claude 工作流准备一组小型回归测试。

Jun 30 产品更新 Gemini API 变更日志

Gemini API changelog 标注了 Omni Flash 预览和 Flash-Lite Image 可用性

Google 的 Gemini API 变更日志在 6 月 30 日记录了 Gemini Omni Flash 预览和图像生成模型可用性相关更新。

为什么重要: 做多模态应用的人应该把稳定生产链路和预览模型实验明确分开。
可以怎么用: 把预览模型放进明确标注的实验路径，而不是悄悄替换生产默认项。

值得跟踪的论文

精选与 AI 工具、Agent、检索、评估和安全边界相关的论文；不等同于同行评审推荐。

Jun 30 论文 arXiv:2606.32025

面向 LLM Agent 的生成式 Skill 组合

把 Agent 使用 Skill 的问题建模为结构化组合：选择哪些 Skill、数量多少、执行顺序如何安排。

为什么重要: 这对 Skill 仓库很直接：只做检索可能无法处理顺序和依赖结构。
可以怎么用: 评估 Skill 仓库时，除了看单个 Skill，还要看它们是否能组合、边界是否清楚、是否能按任务约束排序。

Jun 30 论文 arXiv:2606.32034

QVal：低成本评估长程 LLM Agent 的密集监督信号

提出一个无需训练的测试平台，用来在昂贵训练前比较中间步骤监督信号的质量。

为什么重要: 好的 Agent 评估应该把监督信号质量和训练工程噪声分开。
可以怎么用: 做自己的 Agent 循环时，不要只看最终成功率，也要先评估中间动作质量。

Jun 30 论文 arXiv:2606.32029

当 LLM 粗心读取表格

研究 LLM 在表格任务中的数据引用错误，并显示专门检查表格引用的 critic 能提升回答可靠性。

为什么重要: 这直接提醒表格、报告和数据分析场景：复制表格数值的 AI 回答需要专门复核。
可以怎么用: 发布 AI 生成的数据分析前，增加一次表格数值引用复核。

上周

2026 年 6 月 22 日-6 月 28 日

6 条精选

产品和平台更新

只收录会影响用户使用、开发者集成或工作流设计的变化。

Jun 22-26 产品更新 OpenAI ChatGPT 发布说明

ChatGPT 发布说明显示附件、语音、连接器和模型访问持续变化

OpenAI 的 ChatGPT 发布说明记录了 6 月下旬多项变化，包括把大段粘贴内容作为附件处理、模型行为/访问变化、语音/听写变化以及连接器相关更新。

为什么重要: 普通用户要意识到：产品侧更新后，同一个 prompt 可能表现不同，尤其是长上下文和连接外部数据时。
可以怎么用: 对重要的重复任务保留简短的 prompt 版本记录。

Jun 22-26 产品更新 Anthropic API 发布说明

Anthropic Platform 更新强化了复核 MCP、搜索和文件工作流的必要性

Anthropic 在 6 月 22-26 日左右的发布说明中包含 MCP 连接、prompt caching/search、文件搜索和网页搜索行为相关变化。

为什么重要: AI 工具接入更多外部连接面之后，隐私边界和权限复核更重要。
可以怎么用: 给 Agent 真实任务前，先记录它能读取哪些数据源。

Jun 24-25 产品更新 Gemini API 变更日志

Gemini API 更新指向更多 computer-use 和多模态实验

Google 的变更日志记录了 6 月下旬围绕 Computer Use 预览和媒体生成模型的更新。

为什么重要: Computer-use Agent 比普通聊天机器人更需要清楚的沙箱边界和用户可见的复核步骤。
可以怎么用: 把浏览器控制类 Agent 当作高权限工具，而不是更聪明的 prompt。

值得跟踪的论文

精选与 AI 工具、Agent、检索、评估和安全边界相关的论文；不等同于同行评审推荐。

Jun 28 论文 arXiv:2606.29654

带局部可靠性边界的多 Agent 预算化行动/暂缓决策

把多 Agent 讨论建模为行动/暂缓系统：只有当局部可靠性边界足够高时才执行。

为什么重要: 这对判断 AI 输出什么时候能自动执行、什么时候应该交给人复核很有价值。
可以怎么用: 对可能造成真实成本或不可逆变化的工作流，加入明确的暂缓规则。

Jun 28 论文 arXiv:2606.29648

面向多模态文档推理 Agent 的混合检索器进化

研究一个 meta-agent 如何改进文档问答 Agent 对词法、语义和多模态检索器的路由方式。

为什么重要: RAG 质量往往取决于检索编排，而不只是最后调用哪个 LLM。
可以怎么用: 调试 RAG 时，记录每一步用了哪个检索器以及原因。

Jun 28 论文 arXiv:2606.29657

从诚实预测器出发的 AI 安全论证

提出一种预测器式 AI 安全框架，把校准预测和目标导向行为分开讨论。

为什么重要: 论文偏理论，但对产品设计有启发：不是每个 AI 功能都应该推向自主执行。
可以怎么用: 在自动化边界明确之前，优先做建议型或复核型功能。

主要来源

help.openai.com/en/articles/6825453-chatgpt-release-notes docs.anthropic.com/en/release-notes/api ai.google.dev/gemini-api/docs/changelog arxiv.org/

说明：论文条目来自公开 arXiv 查询和人工筛选；发布说明来自官方页面。页面内容不是投资、法律、医疗或安全建议，重要决策仍需要查看原文和实际测试。