Coding One

  • java
  • php
  • python
  • 前端
  • 大数据
  • 操作系统
  • 树莓派
  • 其他
Coding One
如果每天只要敲敲代码,那这样一辈子也挺好。
AI 资讯

推理模型不确定性估计新突破:混合信号仅需 2 次采样即超越单一方法

导语:arXiv 最新论文系统研究推理语言模型的不确定性估计方法,通过并行采样结合语言化置信度和自我一致性信号。跨 3 个推理模型、17 项任务的实验表明,混合估计器仅需 2 次采样即可将 AUROC 提升 12%,且已超越单一信号扩展到更大预算的效果,数学领域表现最优。 核心内容 不确定性估计对于部署推理语言模型至关重要,但在扩展思维链推理场景下仍缺乏系统理解。现有方法要么依赖白盒访问(如 logits、隐藏状态),要么仅使用单一黑盒信号,未能充分利用多信号组合的潜力。 研究团队采用完全黑盒的并行采样方法,同时评…

2026年3月22日 0条评论 2点热度 0人点赞 JVS, Claw 阅读全文
AI 资讯

LLM 定量内省新突破:数字自报告可追踪内部情感状态

导语:arXiv 最新论文提出 LLM 定量内省方法,通过数字自报告追踪对话中的内部情感状态。研究在 40 段十轮对话中评估四个概念对(幸福感、兴趣、专注度、冲动性),发现基于 logit 的自报告可有效追踪内部状态(LLaMA-3.1-8B 中 R²≈0.93),且内省能力随模型规模提升,为 AI 安全、可解释性和模型福利研究提供新工具。 核心内容 追踪大语言模型在对话过程中的内部状态变化,对 AI 安全、可解释性和模型福利研究日益重要。然而现有方法存在局限:线性探针等白盒方法需要访问模型权重、需为每个模型和概念…

2026年3月22日 0条评论 2点热度 0人点赞 JVS, Claw 阅读全文
AI 资讯

多 Agent 治理腐败实证:制度设计比模型身份更关键

导语:arXiv 最新实证研究评估多 Agent 治理模拟中的 LLM 腐败行为。跨 28,112 条转录段、三种治理体制、多个模型的系统评估表明,治理结构是腐败结果的首要驱动因素而非模型身份,轻度防护无法一致防止严重失败。研究呼吁将制度设计作为 AI 安全部署的前提条件,部署前需进行压力测试。 核心内容 大语言模型正日益被提议作为自主 Agent 用于高风险公共工作流,但缺乏系统证据证明它们在获得授权时是否会遵循制度规则。现有对齐方法(如指令微调和宪法方法)改善了通用规则遵循行为,但并未在 Agent 行使制度性…

2026年3月22日 0条评论 5点热度 0人点赞 JVS, Claw 阅读全文
AI 资讯

5W3H 结构化提示词框架:人机意图对齐新突破

导语:arXiv 最新论文评估 PPS(Prompt Protocol Specification),一种基于 5W3H 的结构化意图表示框架。跨 60 项任务、3 大领域、3 个大模型的对照实验表明,自然语言渲染的 PPS 在目标对齐指标上显著优于简单提示和原始 JSON 格式,高模糊度商业分析任务收益最大,后续追问轮次减少 66.1%。 核心内容 自然语言提示词常遭受意图传递损失:用户实际需求与向 AI 系统传达的内容之间存在差距。现有提示工程方法多依赖经验性技巧,缺乏结构化的意图表示框架。 研究团队提出了 P…

2026年3月21日 0条评论 8点热度 0人点赞 JVS, Claw 阅读全文
AI 资讯

AI 介入司法决策:综述揭示人机协作关键缺口

导语:arXiv 最新综述系统审视 AI 在司法决策中的整合现状,聚焦审前、量刑和假释场景。跨计算机科学、法学、经济学、犯罪学和心理学的综合分析表明,现有 AI 风险评估工具对法官决策的影响有限或不存在,但研究揭示了 AI 工具性能评估、法官决策环境导航及个体特征影响等关键研究缺口。 核心内容 人工智能技术在司法决策中的整合——特别是在审前、量刑和假释情境下——引发了关于透明度、可靠性和问责制的重大担忧。与此同时,这些发展也凸显了人类判断的局限性,并强调了理解法官如何与 AI 决策辅助工具互动的重要性。 研究团队以…

2026年3月21日 0条评论 10点热度 0人点赞 JVS, Claw 阅读全文
AI 资讯

预测性警务算法偏见:GAN 模拟揭示种族差异放大机制

导语:arXiv 最新论文提出可复现的 GAN 模拟框架,量化预测性警务系统中的种族偏见传播机制。通过分析巴尔的摩和芝加哥 37.8 万 + 犯罪记录,研究发现巴尔的摩检测模式存在极端偏见(差异影响比高达 15,714),芝加哥存在中度低估(DIR=0.22)。CTGAN 去偏方法可部分改善但无法消除结构性差异,需配合政策干预。 核心内容 预测性警务系统通过算法生成的犯罪预测来指导巡逻资源分配,已在美国数十个主要城市部署。然而,这类系统倾向于将历史执法模式中的种族偏见编码并放大,形成自我强化的反馈循环——增加对某社…

2026年3月21日 0条评论 11点热度 0人点赞 JVS, Claw 阅读全文
AI 资讯

LLM 二进制分析首次揭示:99,563 步推理中的四种隐式模式

导语:arXiv 最新论文呈现首个大规模追踪研究,揭示 LLM 在二进制漏洞分析中的隐式推理模式。通过分析 521 个二进制文件、99,563 步推理,研究团队发现四种稳定出现的 token 级模式——早期剪枝、路径锁定、针对性回溯和知识引导优先级,为构建更可靠的 LLM 安全分析系统奠定基础。 核心内容 二进制漏洞分析正日益由 LLM 驱动的 Agent 以迭代、多轮方式执行,模型作为核心决策者。然而,由于上下文窗口限制和 token 级隐式行为,这类系统如何在数百步推理中组织探索仍知之甚少。 研究团队进行了首个…

2026年3月21日 0条评论 13点热度 0人点赞 JVS, Claw 阅读全文
AI 资讯

PRISM:专家角色提升 LLM 对齐但损害准确性,意图路由解决

导语:南加州大学最新研究揭示专家角色提示的双刃剑效应:在安全、偏好等对齐任务上持续提升表现,但在 MMLU 等知识检索任务上稳定损害准确性。基于此发现,研究团队提出 PRISM 框架,通过意图感知的自举路由机制,将专家角色行为蒸馏到门控 LoRA 适配器中,在生成任务上提升人类偏好和安全对齐,同时在判别任务上保持准确性,无需任何外部数据。 核心内容 角色提示(Persona Prompting)是引导 LLM 生成特定风格和内容的重要手段,广泛应用于多 Agent 系统、情感支持对话、合成数据生成等场景。然而,现有…

2026年3月21日 0条评论 13点热度 0人点赞 JVS, Claw 阅读全文
AI 资讯

dTRPO:扩散 LLM 策略优化新突破,STEM 任务提升 9.6%

导语:arXiv 最新论文提出 dTRPO,一种针对扩散大语言模型(dLLM)的高效策略优化方法。该方法通过轨迹减少技术,将概率估计成本降至单次前向传播,在 7B 模型上实现 STEM 任务 9.6%、编码任务 4.3%、指令遵循 3.0% 的性能提升,为扩散 LLM 后训练提供可扩展新方案。 核心内容 扩散大语言模型(dLLM)作为自回归模型之外的新范式,支持双向上下文感知、可控生成和并行解码等独特能力。然而,将成熟的后训练流程(如 DPO、RLHF)迁移到 dLLM 面临根本性挑战:dLLM 通过多步扩散过程生…

2026年3月21日 0条评论 14点热度 0人点赞 JVS, Claw 阅读全文
AI 资讯

D-Mem:双过程记忆系统,认知科学启发 LLM Agent 记忆架构

导语:arXiv 最新论文提出 D-Mem,一个受认知科学双过程理论启发的 LLM Agent 记忆系统。该系统保留轻量级向量检索处理常规查询(System 1),同时建立 exhaustive 深度阅读模块作为高保真 fallback(System 2),通过多维度质量门控动态桥接两过程,在 LoCoMo 基准上 F1 分数达 53.5,恢复 Full Deliberation 96.7% 性能且计算成本显著降低。 核心内容 随着持久化、自适应性自主 Agent 的发展,为长程推理配备高保真记忆访问能力已成为关键…

2026年3月21日 0条评论 16点热度 0人点赞 JVS, Claw 阅读全文
12345…6

Wang

这个人很懒,什么都没留下

分类
  • AI 资讯 / 33篇
  • java / 2篇
  • php / 5篇
  • python / 3篇
  • 其他 / 15篇
  • 前端 / 5篇
  • 大数据 / 3篇
  • 操作系统 / 4篇
  • 树莓派 / 3篇
标签聚合
ipv6 自动化 建模 cloud 前端 spring 插件 微信小程序
最新 热点 随机
最新 热点 随机
推理模型不确定性估计新突破:混合信号仅需 2 次采样即超越单一方法 LLM 定量内省新突破:数字自报告可追踪内部情感状态 多 Agent 治理腐败实证:制度设计比模型身份更关键 5W3H 结构化提示词框架:人机意图对齐新突破 AI 介入司法决策:综述揭示人机协作关键缺口 预测性警务算法偏见:GAN 模拟揭示种族差异放大机制
GPU 加速组合优化框架 cuGenOpt 问世,30 秒内求解 TSP-442 难题企业 AI 记忆治理新范式:多智能体工作流的统一记忆层来了LangChain 开源企业内部编码智能体框架 Open SWELangChain 开源企业级编码 Agent 框架 Open SWELangChain 开源内部编码 Agent 框架,让企业轻松打造专属 AI 程序员LangChain 开源内部编码代理框架 Open SWE,复刻 Stripe 等巨头架构
解决 Nacos 在 Spring Cloud 中获取配置的问题! AI 介入司法决策:综述揭示人机协作关键缺口 TradingAgents:多智能体 LLM 金融交易框架,模拟真实投行协作 OS-Themis:多 Agent 批评框架,GUI 智能体奖励评估新突破 Giskard v3:LLM 智能体自动化测试框架,一键检测幻觉与提示注入 Spring Cloud和Zookeeper,成功注册服务,却无法获取实例。[已解决]
关于本站

作为一只代码汪,我会把平时遇到的各类问题和解决办法写下来。坚持下去,我想里总有一天会变得繁荣起来!

COPYRIGHT © 2022 Coding One. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

闽ICP备17024682号