导语:arXiv 最新论文推出 cuGenOpt,一个 GPU 加速的通用元启发式组合优化框架。通过 LLM 建模助手将自然语言问题描述直接转换为可执行求解器代码。
导语:arXiv 最新论文推出 cuGenOpt,一个 GPU 加速的通用元启发式组合优化框架。通过 LLM 建模助手将自然语言问题描述直接转换为可执行求解器代码。
导语:GitHub 热门项目 TradingAgents 开源多智能体金融交易框架,模拟真实投行协作流程。框架部署 7 类专业角色,通过动态辩论机制生成交易决策。
导语:arXiv 最新论文提出 Box Maze 框架,通过三层过程控制架构提升 LLM 推理可靠性。在 50 个对抗场景中,该架构将边界失败率从传统 RLHF 的 40% 降至 1% 以下。
导语:GitHub 热门项目 Giskard 宣布开发 v3 版本,专为动态多轮 LLM 智能体测试设计。这个开源评估库可自动检测幻觉、有害内容、提示注入、敏感信息泄露等 10+ 类问题,并推出 RAGET 工具包自动生成 RAG 应用测试集。
导语:arXiv 最新论文提出 OS-Themis,一个可扩展的多智能体批评框架,用于评估 GUI 智能体的奖励函数。通过将轨迹分解为可验证的里程碑并引入审查机制,系统在 AndroidWorld 基准测试中实现 10.3% 的 RL 训练提升。
导语:GitHub 热门项目 TradingAgents 开源了多智能体金融交易框架,模拟真实投行决策流程。系统部署基本面分析师、情绪分析师、新闻分析师、技术分析师、交易员和风险管理团队,通过动态辩论生成交易决策,支持 GPT-5、Gemini、Claude 等多模型后端。
导语:OpenAI 确立新"北极星"目标:打造全自动 AI 研究员系统。首席科学家 Jakub Pachocki 透露,公司计划 2026 年 9 月前推出"AI 研究实习生",2028 年发布完整多智能体研究系统,可独立攻克人类难以应对的复杂科学问题。 核心内容 OpenAI 正将研发资源重新聚焦于一项宏大挑战——构建能够自主执行复杂研究任务的 AI 系统。这一"AI 研究员"将成为公司未来几年的核心方向,整合推理模型、智能体和可解释性研究等多条技术路线。 根据规划,OpenAI 将在 2026 年 9 月前推出…
导语:Claude Code 用户终于有了专属监控面板。claude-hud 插件今日爆火,单日激增 1,851 stars,总星数突破 9,000。它在终端内实时显示上下文使用率、工具活动、子代理状态和 Todo 进度,让开发者对 AI 编码过程了如指掌。 核心功能 claude-hud 通过 Claude Code 原生的 statusline API 实现,无需额外窗口或 tmux,在任何终端中都能工作。插件解析 Claude Code 输出的 JSONL 转录数据,每 300ms 更新一次显示。 关键监控指…
导语:GUI 智能体如何在复杂操作环境中可靠学习?arXiv 最新论文提出 OS-Themis,一个可扩展的多智能体评论框架,通过分解轨迹、严格审核证据链,在 AndroidWorld 基准上实现 10.3% 的性能提升,同时发布 OmniGUIRewardBench 评估基准。 核心内容 强化学习(RL)被视为提升 GUI 智能体在随机环境中鲁棒性的关键技术,但训练效果高度依赖奖励函数的质量。现有的奖励方法难以同时实现可扩展性和高性能——单一评判器容易出错,而复杂规则又难以泛化。 OS-Themis 提出了一种创…
LangChain 正式发布 Open SWE,开源复刻 Stripe、Ramp、Coinbase 等公司的内部编码代理架构,支持 Slack/Linear/GitHub 触发、隔离沙箱、子代理编排,上线即获 7.3k stars。

Wang
这个人很懒,什么都没留下
作为一只代码汪,我会把平时遇到的各类问题和解决办法写下来。坚持下去,我想里总有一天会变得繁荣起来!