认知进化系统

7待读信号7 条可见 radar

0稍后处理本地 Web 状态

0待推进请求只写 Web action queue

8Hermes inboxGP006 / GP007 / GP008 / GP005 / GP007

Reading Queue

阅读队列

点击卡片展开详情，再次点击收起。

01Google 发布 Gemini 3.5，标题级定位从“智能”转向“frontier intelligence with action”继续观察 + 更新 GP006 材料；不要立即追模型发布热度，而是追踪它对 tool use、browser/computer use、长任务评测、成本和企业控制面的具体边界。高优先G001G002GP006C003展开

为什么你需要知道

模型厂商正在把竞争叙事从 chat/reasoning 推向“可执行复杂 agentic workflow”，这会直接改变 business-os / harness 的底层能力假设和用户预期。

验证了什么

验证 G001/G002/C003/GP006 —— Agent 产品的主战场继续向“行动 + 工作流 + 可验证执行”迁移。

修正/推翻了什么

不能再把“模型能力不足”当成长期产品边界；更关键的差异会变成执行环境、工具权限、评测、审计和业务闭环。

我需要做什么

继续观察 + 更新 GP006 材料；不要立即追模型发布热度，而是追踪它对 tool use、browser/computer use、长任务评测、成本和企业控制面的具体边界。

02Automation Anywhere 把 agent 从“孤立工具”包装为 Agentic Process Automation，并把 eval/governance 放进全生命周期推进到 GP007 reviewing：把它拆成对标清单（流程发现、上下文图谱、运行前/运行中 eval、模拟测试、治理日志），用于校准订单-发票-收款异常处理 slice。高优先G001G004GP007GP006展开

为什么你需要知道

这是 GP007 的强外部样本：企业市场不会只买“一个聪明 agent”，而会买可被 IT/业务共同治理的流程运行时。

验证了什么

验证 G001/G004/GP006/GP007 —— Business Harness Runtime 的方向比“经营参谋 dashboard”更接近真实企业采购语言：流程、系统、人、治理、测试。

修正/推翻了什么

如果 business-os 仍停在“AI 经营大脑”叙事，会弱于“可部署、可测试、可治理的流程 pack/runtime”。

我需要做什么

推进到 GP007 reviewing：把它拆成对标清单（流程发现、上下文图谱、运行前/运行中 eval、模拟测试、治理日志），用于校准订单-发票-收款异常处理 slice。

03Forge：小模型 agentic workflow 的可靠性层比“换更大模型”更像工程杠杆进入 inbox/GP006 作为工程样本；优先读 README 的三种接入方式（WorkflowRunner / Guardrails middleware / OpenAI-compatible proxy），提炼到自家...高优先GP006C003展开

为什么你需要知道

它把 GP006 的抽象问题落到具体工程原语：结构化工具调用失败如何 rescue、必须步骤如何 enforce、上下文如何按预算压缩、本地模型如何共享 GPU slot。

验证了什么

验证 C003/GP006 —— Harness 的生产价值不只是 orchestration，而是把不可靠 LLM 包在 guardrails、context budget、eval suite、proxy/middleware 里。

修正/推翻了什么

不要把 eval-driven harness 误解为“写几个 LLM-as-Judge prompt”；还要包含 runtime guardrails 与失败恢复机制。

我需要做什么

进入 inbox/GP006 作为工程样本；优先读 README 的三种接入方式（WorkflowRunner / Guardrails middleware / OpenAI-compatible proxy），提炼到自家 Harness 五元组。

04AI 数据中心债务开始进入华尔街信用风险清单：算力不是免费增长曲线，而是融资结构风险触发投资分析/董事会框架更新：在 GP008 材料里增加“AI infra 债务与抵押品风险”检查项；不要基于二手标题交易。中优先G002GP008展开

为什么你需要知道

G002/GP008 的董事会判断不能只看 ARR、模型榜单和客户 logo；AI 基础设施公司的护城河正在与债务期限、抵押品质量、GPU 折旧、客户集中度绑定。

验证了什么

验证 GP008 —— AI 公司护城河审计框架必须把 capex、融资结构、资产折旧和需求可持续性放进同一张表。

修正/推翻了什么

推翻“AI infra = 只要需求强就安全”的线性叙事；在上行周期里债务融资会放大增长，也会放大下行风险。

我需要做什么

触发投资分析/董事会框架更新：在 GP008 材料里增加“AI infra 债务与抵押品风险”检查项；不要基于二手标题交易。

05Wharton/INSEAD：AI 决策信号分 attention signal 与 action signal，准确建议也可能有成本用于 GP007 产品形态草稿：把订单-发票-收款异常处理 slice 设计成三级：发现异常（attention）→ 给证据/选项（decision support）→ 经授权执行（action）。中优先G001G005GP007C002展开

为什么你需要知道

这直接关联 SMB AI 产品设计：老板/运营人员未必总需要“AI 告诉我怎么做”，很多时候更需要“把关键异常推到我眼前，并保留判断权”。

验证了什么

验证 G001/G005/C002/GP007 —— 企业 AI wedge 可能应先从“attention + evidence + recommended next step”开始，而不是默认全自动 action。

修正/推翻了什么

修正“agent 越自动越好”的倾向；在高风险经营决策里，attention signal 可能比 action signal 更容易建立信任与 adoption。

我需要做什么

用于 GP007 产品形态草稿：把订单-发票-收款异常处理 slice 设计成三级：发现异常（attention）→ 给证据/选项（decision support）→ 经授权执行（action）。

06Cameron Wolfe《Agent Evaluation: A Detailed Guide》Cameron Wolfe《Agent Evaluation: A Detailed Guide》 | source: https://cameronrwolfe.substack.com/p/agent-evals - 发...参考展开

原文摘要

Cameron Wolfe《Agent Evaluation: A Detailed Guide》 | source: https://cameronrwolfe.substack.com/p/agent-evals - 发现方式：HN 过去 24 小时 resurfaced；原文发布时间为 2026-05-18，严格来说超过本次 24h 主窗口。

我需要做什么

暂无明确动作，建议只作为参考阅读。

07健康域今日降级健康域今日降级 | source: PubMed E-utilities 查询（2026-05-19~20） - 查询 diabetes/CGM/hypertension/cardiovascular outcomes 未发...参考展开

原文摘要

健康域今日降级 | source: PubMed E-utilities 查询（2026-05-19~20） - 查询 diabetes/CGM/hypertension/cardiovascular outcomes 未发现直接高信号新研究；Google News 的“young-onset T2D early combination therapy”只到二手文章标题，未纳入。 - 判断：健康不强行填充。若后续要补家庭健康管理，优先走 PubMed/指南/学会声明，而不是健康媒体标题。