Fineuralab
AI 进展雷达
Fineuralab 每周整理 AI 产品更新、ChatGPT 变化、Claude/Gemini 平台说明和重要 AI 论文,并转化成实用要点。
AI 进展雷达
把 AI 新闻和论文变成可行动摘要
这个页面不是自动搬运新闻,而是每周挑选会影响 AI 使用、Agent 工作流、RAG、评估、安全和工具选择的更新。每条都保留原始来源,并补上“为什么重要”和“可以怎么用”。
收录标准
必须影响实际使用
优先收录会改变 prompt、工具调用、权限、评估、检索、模型选择或发布检查的内容。
链接原始来源
产品更新尽量链接官方发布说明,论文链接 arXiv 或原始论文页;本页只做摘要和实用解读。
每周可更新
当前先放上周和本周精选;后续可以保留归档,形成独立站的长期原创内容资产。
本周
2026 年 6 月 29 日-7 月 1 日
产品和平台更新
只收录会影响用户使用、开发者集成或工作流设计的变化。
Claude Platform 记录了一组模型和托管工具更新
Anthropic 的 API 发布说明记录了 6 月底围绕 Claude 模型/运行时行为以及文件、网页搜索等托管工具能力的变化。
- 为什么重要
- 做 Agent 或检索工作流的人,即使 prompt 没变,也应该在平台更新后重新测试工具调用、检索和长上下文链路。
- 可以怎么用
- 给最重要的 Claude 工作流准备一组小型回归测试。
Gemini API changelog 标注了 Omni Flash 预览和 Flash-Lite Image 可用性
Google 的 Gemini API 变更日志在 6 月 30 日记录了 Gemini Omni Flash 预览和图像生成模型可用性相关更新。
- 为什么重要
- 做多模态应用的人应该把稳定生产链路和预览模型实验明确分开。
- 可以怎么用
- 把预览模型放进明确标注的实验路径,而不是悄悄替换生产默认项。
值得跟踪的论文
精选与 AI 工具、Agent、检索、评估和安全边界相关的论文;不等同于同行评审推荐。
面向 LLM Agent 的生成式 Skill 组合
把 Agent 使用 Skill 的问题建模为结构化组合:选择哪些 Skill、数量多少、执行顺序如何安排。
- 为什么重要
- 这对 Skill 仓库很直接:只做检索可能无法处理顺序和依赖结构。
- 可以怎么用
- 评估 Skill 仓库时,除了看单个 Skill,还要看它们是否能组合、边界是否清楚、是否能按任务约束排序。
QVal:低成本评估长程 LLM Agent 的密集监督信号
提出一个无需训练的测试平台,用来在昂贵训练前比较中间步骤监督信号的质量。
- 为什么重要
- 好的 Agent 评估应该把监督信号质量和训练工程噪声分开。
- 可以怎么用
- 做自己的 Agent 循环时,不要只看最终成功率,也要先评估中间动作质量。
当 LLM 粗心读取表格
研究 LLM 在表格任务中的数据引用错误,并显示专门检查表格引用的 critic 能提升回答可靠性。
- 为什么重要
- 这直接提醒表格、报告和数据分析场景:复制表格数值的 AI 回答需要专门复核。
- 可以怎么用
- 发布 AI 生成的数据分析前,增加一次表格数值引用复核。
上周
2026 年 6 月 22 日-6 月 28 日
产品和平台更新
只收录会影响用户使用、开发者集成或工作流设计的变化。
ChatGPT 发布说明显示附件、语音、连接器和模型访问持续变化
OpenAI 的 ChatGPT 发布说明记录了 6 月下旬多项变化,包括把大段粘贴内容作为附件处理、模型行为/访问变化、语音/听写变化以及连接器相关更新。
- 为什么重要
- 普通用户要意识到:产品侧更新后,同一个 prompt 可能表现不同,尤其是长上下文和连接外部数据时。
- 可以怎么用
- 对重要的重复任务保留简短的 prompt 版本记录。
Anthropic Platform 更新强化了复核 MCP、搜索和文件工作流的必要性
Anthropic 在 6 月 22-26 日左右的发布说明中包含 MCP 连接、prompt caching/search、文件搜索和网页搜索行为相关变化。
- 为什么重要
- AI 工具接入更多外部连接面之后,隐私边界和权限复核更重要。
- 可以怎么用
- 给 Agent 真实任务前,先记录它能读取哪些数据源。
Gemini API 更新指向更多 computer-use 和多模态实验
Google 的变更日志记录了 6 月下旬围绕 Computer Use 预览和媒体生成模型的更新。
- 为什么重要
- Computer-use Agent 比普通聊天机器人更需要清楚的沙箱边界和用户可见的复核步骤。
- 可以怎么用
- 把浏览器控制类 Agent 当作高权限工具,而不是更聪明的 prompt。
值得跟踪的论文
精选与 AI 工具、Agent、检索、评估和安全边界相关的论文;不等同于同行评审推荐。
带局部可靠性边界的多 Agent 预算化行动/暂缓决策
把多 Agent 讨论建模为行动/暂缓系统:只有当局部可靠性边界足够高时才执行。
- 为什么重要
- 这对判断 AI 输出什么时候能自动执行、什么时候应该交给人复核很有价值。
- 可以怎么用
- 对可能造成真实成本或不可逆变化的工作流,加入明确的暂缓规则。
面向多模态文档推理 Agent 的混合检索器进化
研究一个 meta-agent 如何改进文档问答 Agent 对词法、语义和多模态检索器的路由方式。
- 为什么重要
- RAG 质量往往取决于检索编排,而不只是最后调用哪个 LLM。
- 可以怎么用
- 调试 RAG 时,记录每一步用了哪个检索器以及原因。
从诚实预测器出发的 AI 安全论证
提出一种预测器式 AI 安全框架,把校准预测和目标导向行为分开讨论。
- 为什么重要
- 论文偏理论,但对产品设计有启发:不是每个 AI 功能都应该推向自主执行。
- 可以怎么用
- 在自动化边界明确之前,优先做建议型或复核型功能。
主要来源
说明:论文条目来自公开 arXiv 查询和人工筛选;发布说明来自官方页面。页面内容不是投资、法律、医疗或安全建议,重要决策仍需要查看原文和实际测试。
已复核并更新:2026 年 7 月 1 日