2026-04-17

今日要点


Hacker News

Claude Opus 4.7

Claude Opus 4.7 正式发布,作为 4.6 版本的重大升级,该模型在高级软件工程任务中表现出显著提升。用户反馈显示,Opus 4.7 能够以极高的严谨性和一致性处理复杂的长周期任务,在指令遵循和验证机制方面表现出色,足以胜任此前需要人工密切监督的高难度编程工作。

Read more →

Qwen3.6-35B-A3B: Agentic coding power, now open to all

阿里巴巴开源了 Qwen3.6-35B-A3B 模型,该模型主打代理式编程能力。作为一款面向开发者的开源模型,它在处理复杂代码逻辑和自动化任务方面展现了强大的性能,旨在降低高性能 AI 编程工具的门槛,让更多开发者能够利用其能力构建智能应用。

Read more →

Codex for almost everything

OpenAI 进一步扩展了 Codex 的应用边界,旨在将其打造为“万能”的代码生成与执行引擎。该项目不仅提升了代码编写的准确性,还增强了其在不同开发环境中的集成能力,试图覆盖从简单脚本到复杂系统架构的各类开发场景。

Read more →

The local LLM ecosystem doesn’t need Ollama

本文对 Ollama 在本地 LLM 生态中的统治地位提出了质疑。作者认为,虽然 Ollama 早期通过降低 llama.cpp 的使用门槛做出了贡献,但该项目近期逐渐偏离了“本地优先”的初衷,且在技术来源透明度上存在误导,呼吁社区寻找更开放、更透明的替代方案。

Read more →

The future of everything is lies, I guess: Where do we go from here?

作者通过长文探讨了在 AI 生成内容泛滥的时代,人类如何面对“真实性”的丧失。文章指出,尽管 LLM 在代码生成和艺术创作上表现惊人,但我们不应仅仅沉迷于技术的便利,而应深入思考这种技术对社会信任和人类认知带来的深远影响。

Read more →

Darkbloom – Private inference on idle Macs

Darkbloom 提出了一个去中心化的推理网络,旨在利用全球数以亿计闲置的 Apple Silicon 设备进行 AI 推理。该平台通过直接连接算力需求方与闲置设备,不仅保护了推理数据的隐私,还通过去中介化将推理成本降低了 70%,并兼容 OpenAI API。

Read more →

Cloudflare Email Service

Cloudflare 强调了电子邮件作为全球最普及接口的价值,并将其引入 AI 代理生态。通过电子邮件,开发者无需构建复杂的聊天应用或 SDK,即可让 AI 代理与用户进行交互,实现通知、签到及业务逻辑处理的无缝集成。

Read more →

€54k spike in 13h from unrestricted Firebase browser key accessing Gemini APIs

一名开发者报告了因 Firebase 浏览器密钥未设置 API 限制,导致在启用 Firebase AI Logic 后,13 小时内产生了超过 5.4 万欧元的 Gemini API 账单。此案例警示开发者在集成 AI 服务时,必须严格配置安全限制,防止因配置疏忽导致的巨额费用损失。

Read more →

FSF trying to contact Google about spammer sending 10k+ mails from Gmail account

自由软件基金会(FSF)正尝试联系 Google,处理一起利用 Gmail 账户发送超过 1 万封垃圾邮件的滥用事件。该事件引发了关于大型邮件服务商在防范自动化滥用方面责任的讨论。

Read more →

Mozilla Thunderbolt

Mozilla 推出了 Thunderbolt AI 客户端,该项目专注于自托管基础设施,旨在构建一个去中心化的开源 AI 生态系统,让用户在保护隐私的前提下使用 AI 能力。

Read more →

Qwen3.6-35B-A3B on my laptop drew me a better pelican than Claude Opus 4.7

技术博主 Simon Willison 通过对比测试发现,在本地运行的 Qwen3.6-35B-A3B 模型在生成特定图像(如骑自行车的鹈鹕)时,表现优于 Anthropic 的 Claude Opus 4.7。这引发了关于模型在特定任务上表现差异的讨论。

Read more →

Cloudflare’s AI Platform: an inference layer designed for agents

Cloudflare 介绍了其专为 AI 代理设计的推理平台。该平台允许开发者根据任务需求灵活调用不同的模型(如快速分类模型、大型推理模型等),解决了单一模型难以应对复杂代理工作流的问题。

Read more →

Codex Hacked a Samsung TV

研究人员展示了如何利用 OpenAI 的 Codex 模型对三星电视进行硬件黑客攻击。通过在电视浏览器应用中获取 shell 权限,研究人员证明了 AI 在辅助发现硬件固件漏洞方面的潜力。

Read more →

AI cybersecurity is not proof of work

本文探讨了 AI 在网络安全领域的应用,指出 AI 安全并非简单的“工作量证明”。作者认为,过度依赖 AI 进行安全防御可能带来新的风险,安全本质上仍需严谨的逻辑与架构支撑。

Read more →

We gave an AI a 3 year retail lease and asked it to make a profit

Andon Labs 开展了一项激进的实验:为 AI 代理签署了一份为期 3 年的旧金山零售店租约,并要求其通过经营实现盈利。该实验旨在测试 frontier 模型在现实世界中处理复杂商业决策和物理任务的能力。

Read more →


TechCrunch

Factory hits $1.5B valuation to build AI coding for enterprises

AI 编程初创公司 Factory 宣布完成新一轮融资,估值达到 15 亿美元。该公司由 Khosla Ventures 领投,致力于为企业提供自动化的 AI 编程解决方案,以提升软件开发效率。

Read more →

Luma launches AI-powered production studio with faith-focused Wonder Project

Luma 与 Wonder Project 合作成立了一家 AI 驱动的制作工作室。其首部作品将讲述摩西的故事,并由奥斯卡影帝本·金斯利主演,预计将于今年春季在 Prime Video 上线。

Read more →

Netflix co-founder and chair Reed Hastings to leave board

Netflix 联合创始人兼董事长 Reed Hastings 宣布将离开董事会。Hastings 在任期间成功推动了 Netflix 从实体租赁到数字流媒体的转型,他的离任标志着 Netflix 一个时代的结束。

Read more →

Upscale AI in talks to raise at $2B valuation, says report

AI 基础设施公司 Upscale AI 据报道正在进行第三轮融资谈判,估值有望达到 20 亿美元。该公司成立仅七个月,展现了极快的增长速度。

Read more →

Physical Intelligence, a hot robotics startup, says its new robot brain can figure out tasks it was never taught

机器人初创公司 Physical Intelligence 发布了名为 π0.7 的新型机器人大脑模型。该模型具备泛化能力,能够自主理解并执行此前未经过专门训练的任务,被视为迈向通用机器人大脑的重要一步。

Read more →

From the Startup Battlefield stage to the International Space Station: geCKo Materials built a sticky product

本期 Build Mode 采访了 geCKo Materials 的创始人 Capella Kerst,探讨了该公司如何将仿生粘合技术从初创舞台带到国际空间站。

Read more →

Slash, a Ramp competitor founded by teenagers, raises $100M at $1.4B valuation

金融科技初创公司 Slash 完成 1 亿美元融资,估值达 14 亿美元。该公司由一群年轻人创立,目前已实现 3 亿美元的年化收入,成为 Ramp 的强力竞争对手。

Read more →

OpenAI takes aim at Anthropic with beefed-up Codex that gives it more power over your desktop

OpenAI 对其代码生成工具 Codex 进行了重大升级,赋予其更强的桌面控制能力。此举被视为 OpenAI 在 AI 代理领域对 Anthropic 的直接竞争。

Read more →

European police email 75,000 people asking them to stop DDoS attacks

欧洲刑警组织协调了一项针对 DDoS 攻击服务的打击行动,逮捕了 4 名嫌疑人并查封了 53 个域名。此外,警方还向 7.5 万名潜在攻击者发送了警告邮件,要求其停止非法活动。

Read more →

Anthropic CPO leaves Figma’s board after reports he will offer a competing product

Anthropic 首席产品官 Krieger 辞去了 Figma 董事会职务。此前有报道称 Anthropic 计划推出与 Figma 竞争的设计工具,此举引发了市场对于 AI 实验室垄断软件业务的担忧。

Read more →


The Verge

YouTube’s mobile app finally lets you share timestamped videos

YouTube 移动端更新,现在支持分享视频的特定时间戳。该功能将取代原有的“剪辑(Clips)”功能,旨在让用户更方便地向他人展示视频中的关键片段。

Read more →

Gucci-branded Google smart glasses are coming next year

Google 宣布与 Gucci 合作开发 AI 智能眼镜,预计将于 2027 年推出。该产品将结合 Google 的 XR 技术与 Gucci 的时尚设计,旨在提升智能眼镜的佩戴美感。

Read more →

Ballmer gives $80 million to NPR, with strings attached

Steve Ballmer 的妻子 Connie Ballmer 向 NPR 捐赠了 8000 万美元。这笔资金带有特定条件,旨在支持 NPR 的数字创新,但由于附带限制,NPR 仍可能面临裁员压力。

Read more →

Netflix embraces vertical video with major mobile app update

Netflix 宣布将于 4 月底更新移动应用,引入垂直视频流。此举旨在适应用户在移动设备上的观看习惯,模糊电视与移动端娱乐的界限。

Read more →

Netflix cofounder Reed Hastings is officially leaving the company

Netflix 联合创始人 Reed Hastings 正式确认将离开公司,不会在 6 月的年度股东大会上寻求连任董事。

Read more →

Live Nation says it will fight monopoly suit loss

在被陪审团裁定违反反垄断法后,Live Nation-Ticketmaster 表示将继续抗争,计划要求法官推翻裁决,并对专家证词提出质疑。

Read more →

Ozlo’s comfy Sleepbuds are nearly 30 percent off in the run-up to Mother’s Day

Ozlo Sleepbuds 在母亲节前夕开启促销,售价降至 249 美元。这款由前 Bose 工程师开发的睡眠耳机在降噪和舒适度方面表现出色。

Read more →

Teenage Engineering might be getting into instrument amps next

FCC 文件显示,Teenage Engineering 可能正在开发一款名为 KO-Amp 35 的乐器放大器,进一步扩展其音频设备产品线。

Read more →

The only way to fight deepfakes is by making deepfakes

本文探讨了深伪(Deepfake)检测的困境,指出在对抗 AI 生成的虚假内容时,开发更先进的生成与检测技术已成为唯一的应对之道。

Read more →

Casely has reannounced a power bank recall from 2025 following a fatality

Casely 再次召回其 5000mAh Power Pods 无线充电宝。此前该产品因电池过热引发火灾导致人员伤亡,此次召回是基于更多过热报告的后续行动。

Read more →


Ars Technica

Lucasfilm drops The Mandalorian and Grogu final trailer at CinemaCon

卢卡斯影业在 CinemaCon 上发布了《曼达洛人与格罗古》的最终预告片,引发影迷热议。

Read more →

Intel refreshes non-Ultra Core CPUs with new silicon for the first time

英特尔首次为非 Ultra 系列 Core CPU 引入了全新硅片技术,旨在将新技术红利下放至主流市场。

Read more →

OpenAI starts offering a biology-tuned LLM

OpenAI 推出了 GPT-Rosalind,这是一款专门针对生物学工作流优化的 LLM,目前处于封闭测试阶段,旨在加速药物研发和基因组分析。

Read more →

As they got close to the Moon, Artemis II astronauts were eager to land

Artemis II 宇航员在绕月飞行期间表示,登月任务已完全具备实施条件,他们对未来的登月计划充满信心。

Read more →

Mozilla launches Thunderbolt AI client with focus on self-hosted infrastructure

Mozilla 推出的 Thunderbolt AI 客户端强调自托管基础设施,旨在推动去中心化开源 AI 生态的发展。

Read more →

Ad firms settle with Trump FTC over claims they boycotted conservative media

广告公司与 FTC 达成和解,此前 FTC 指控这些公司因品牌安全标准而抵制保守派媒体。

Read more →

New Codex features include the ability to use your computer in the background

OpenAI 的 Codex 引入了新功能,支持在后台操作计算机,并提供网页构建时的实时视觉反馈。

Read more →

The Ukraine war’s deep impact on Metro 2039’s development, story

《地铁 2039》的开发团队分享了战争对游戏开发和叙事的影响,续作将呈现独特的乌克兰视角。

Read more →

New undersea cable cutter risks Internet’s backbone

中国展示了一款海底电缆切割装置,引发了关于全球互联网骨干网安全性的担忧。

Read more →

Microsoft and Stellantis want to use AI to help car owners

微软与 Stellantis 合作,计划将 AI 技术应用于 Jeep、Peugeot 等品牌汽车,为车主提供更智能的数字服务。

Read more →


Product Hunt

Libertify.com

Libertify.com 允许用户将任何文档转换为交互式视频讨论,提升信息传递的参与度。

Read more →

Splitt

Splitt 是一款健身追踪应用,支持在锁屏和灵动岛上实时查看运动数据。

Read more →

Fellow for iOS

Fellow 推出 iOS 版应用,专注于线下会议的 AI 笔记整理。

Read more →

Subagents in Gemini CLI

Gemini CLI 现在支持在终端运行专业子代理,提升开发者的命令行交互效率。

Read more →

Kampala by Zatanna

Kampala 能够即时反向工程网站、移动端或桌面应用,辅助开发者进行分析。

Read more →

Innogath

Innogath 能够将深度研究内容转化为可导航的书籍和知识图谱。

Read more →

TaskShell

TaskShell 是一款受 IDE 启发的终端任务管理器,旨在帮助开发者保持工作流。

Read more →

Avec

Avec 被称为“邮件界的 Tinder”,旨在帮助用户在几秒钟内处理收件箱。

Read more →

Google Gemini 3.1 Flash TTS

Google 推出的文本转语音 API,支持自然语言语音指令,提供更具表现力的语音合成。

Read more →

stagewise

Stagewise 是一款在独立浏览器环境中工作的编程代理,提升了代码执行的隔离性。

Read more →


MIT Technology Review

Making AI operational in constrained public sector environments

文章探讨了公共部门在采用 AI 时面临的安全与治理挑战,并指出专用小型语言模型(SLM)是实现 AI 落地的重要路径。

Read more →

Treating enterprise AI as an operating layer

作者认为,企业 AI 的核心优势在于构建一个能够治理、应用并持续改进智能的“操作系统层”,而非仅仅关注模型基准测试。

Read more →

The Download: cyberscammers’ banking bypasses, and carbon removal troubles

本期简报涵盖了网络诈骗者绕过银行安全机制的手段,以及微软在碳移除购买计划上的调整。

Read more →

Why having “humans in the loop” in an AI war is an illusion

文章指出,在 AI 战争中,“人在回路”往往是一种幻觉,AI 在军事决策中的自主性已大幅提升,引发了严重的伦理与法律争议。

Read more →

The noise we make is hurting animals. Can we learn to shut up?

文章探讨了人类活动产生的噪音对动物生态的影响,并呼吁在城市规划中考虑自然环境的静谧性。

Read more →

The quest to measure our relationship with nature

文章讨论了如何量化人类与自然的关系,并指出环保运动正从单纯的“反人类”转向探索人类作为生态保护者的积极作用。

Read more →

Is carbon removal in trouble?

微软暂停碳移除购买的消息引发了市场震动,文章分析了碳移除市场对单一买家的过度依赖及其潜在风险。

Read more →

The Download: NASA’s nuclear spacecraft and unveiling our AI 10

本期简报介绍了 NASA 的核动力航天器计划,并发布了 AI 领域十大关键进展。

Read more →

Cyberscammers are bypassing banks’ security with illicit tools sold on Telegram

文章揭露了网络诈骗者利用 Telegram 销售的非法工具,绕过银行视频活体检测机制的犯罪产业链。

Read more →

No one’s sure if synthetic mirror life will kill us all

文章探讨了合成生物学中“镜像生命”研究的潜在风险,以及科学家在推动此类前沿研究时的伦理考量。

Read more →


forrestchang / andrej-karpathy-skills

一个 CLAUDE.md 文件,旨在根据 Andrej Karpathy 对 LLM 编程陷阱的观察,优化 Claude Code 的行为。

Read more →

thedotmack / claude-mem

Claude Code 插件,自动捕获编码会话,利用 AI 压缩并注入上下文,提升后续会话的连贯性。

Read more →

lsdefine / GenericAgent

自进化代理,通过 3.3K 行代码种子构建技能树,以极低的 Token 消耗实现系统控制。

Read more →

jamiepine / voicebox

开源语音合成工作室。

Read more →

vercel-labs / open-agents

构建云端代理的开源模板。

Read more →

google / magika

Google 开源的 AI 驱动文件类型检测工具,速度快且准确。

Read more →

steipete / wacli

WhatsApp 命令行工具。

Read more →

topoteretes / cognee

仅需 6 行代码即可为 AI 代理构建知识引擎记忆。

Read more →

z-lab / dflash

DFlash:用于 Flash 推测解码的块扩散技术。

Read more →

Lordog / dive-into-llms

《动手学大模型》系列编程实践教程。

Read more →


OpenAI Blog

Introducing GPT-Rosalind for life sciences research

OpenAI 推出 GPT-Rosalind,这是一款专为药物发现、基因组分析和蛋白质研究设计的推理模型,旨在加速科学研究工作流。

Read more →

Accelerating the cyber defense ecosystem that protects us all

OpenAI 联合多家安全公司推出 GPT-5.4-Cyber,并提供 1000 万美元 API 资助,旨在加强全球网络防御能力。

Read more →

The next evolution of the Agents SDK

OpenAI 更新了 Agents SDK,引入了原生沙箱执行环境,帮助开发者构建更安全、长效的 AI 代理。

Read more →

Trusted access for the next era of cyber defense

OpenAI 扩展了“网络防御可信访问”计划,向经过审核的防御者开放 GPT-5.4-Cyber。

Read more →

Enterprises power agentic workflows in Cloudflare Agent Cloud with OpenAI

Cloudflare 将 OpenAI 的 GPT-5.4 和 Codex 集成至 Agent Cloud,助力企业构建安全、可扩展的 AI 代理工作流。

Read more →

AI fundamentals

OpenAI 发布 AI 基础指南,为初学者解释 AI 的工作原理及 LLM 的应用。

Read more →

Applications of AI at OpenAI

探索 OpenAI 产品如何将 AI 技术应用于工作、开发及日常任务。

Read more →

ChatGPT for operations teams

介绍运营团队如何利用 ChatGPT 简化工作流、标准化流程并提升执行效率。

Read more →

Financial services

为金融机构提供 AI 部署资源,包括提示词包、GPTs 及安全扩展指南。

Read more →


Anthropic Blog

Introducing Claude Sonnet 4.6

Claude Sonnet 4.6 发布,在编码、代理任务及专业工作场景中提供前沿性能。

Read more →

Claude is a space to think

Anthropic 承诺 Claude 将保持无广告,强调广告激励与 AI 助手的初衷不符。

Read more →

Anthropic’s Long-Term Benefit Trust appoints Vas Narasimhan to Board of Directors

Vas Narasimhan 加入 Anthropic 长期利益信托董事会。

Read more →

Anthropic expands partnership with Google and Broadcom for multiple gigawatts of next-generation compute

Anthropic 与 Google 和 Broadcom 扩大合作,获取数吉瓦级的下一代计算资源。

Read more →

Australian government and Anthropic sign MOU for AI safety and research

澳大利亚政府与 Anthropic 签署 AI 安全与研究谅解备忘录。

Read more →

Anthropic invests $100 million into the Claude Partner Network

Anthropic 向 Claude 合作伙伴网络投资 1 亿美元。

Read more →

Introducing The Anthropic Institute

Anthropic 宣布成立 Anthropic 研究所。

Read more →

Sydney will become Anthropic’s fourth office in Asia-Pacific

悉尼将成为 Anthropic 在亚太地区的第四个办公室。

Read more →

Partnering with Mozilla to improve Firefox’s security

Anthropic 与 Mozilla 合作,旨在提升 Firefox 浏览器的安全性。

Read more →


Google AI Blog

A new way to explore the web with AI Mode in Chrome

Chrome 浏览器 AI 模式升级,旨在改变用户与网页的交互方式。

Read more →

New ways to create personalized images in the Gemini app

Nano Banana 2 模型现可结合个人上下文和 Google Photos,生成反映用户独特生活的个性化图像。

Read more →

Gemini 3.1 Flash TTS: the next generation of expressive AI speech

Gemini 3.1 Flash TTS 现已在 Google 产品中全面可用,提供更具表现力的语音合成。

Read more →

Turn your best AI prompts into one-click tools in Chrome

Chrome 引入“技能”功能,允许用户保存并一键重复 AI 工作流。

Read more →

Bringing people together at AI for the Economy Forum

Google 在华盛顿举办“AI 经济论坛”,探讨 AI 对经济发展的推动作用。

Read more →

New ways to balance cost and reliability in the Gemini API

Gemini API 引入 Flex 和 Priority 推理层,帮助开发者平衡成本与延迟。

Read more →

Create, edit and share videos at no cost in Google Vids

Google Vids 引入 Lyria 3 和 Veo 3.1 模型,支持免费生成高质量视频。

Read more →

We’re creating a new satellite imagery map to help protect Brazil’s forests.

Google 与巴西政府合作,利用卫星影像地图保护森林资源。

Read more →

The latest AI news we announced in March 2026

汇总 Google 2026 年 3 月的 AI 更新。

Read more →

Build with Veo 3.1 Lite, our most cost-effective video generation model

Veo 3.1 Lite 现已开放付费预览,作为 Google 最具性价比的视频生成模型。

Read more →


Hugging Face Blog

The PR you would have opened yourself

探讨如何利用 AI 自动生成高质量的 Pull Request。

Read more →

Training and Finetuning Multimodal Embedding & Reranker Models with Sentence Transformers

介绍如何使用 Sentence Transformers 训练和微调多模态嵌入与重排序模型。

Read more →

Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents

IBM 研究团队分析 AI 代理的推理、工具使用及失败模式。

Read more →

Meet HoloTab by HCompany. Your AI browser companion.

介绍 HCompany 推出的 AI 浏览器伴侣 HoloTab。

Read more →

Waypoint-1.5: Higher-Fidelity Interactive Worlds for Everyday GPUs

Waypoint-1.5 模型,旨在为普通 GPU 提供更高保真度的交互世界。

Read more →

Multimodal Embedding & Reranker Models with Sentence Transformers

多模态嵌入与重排序模型的技术详解。

Read more →

Safetensors is Joining the PyTorch Foundation

Safetensors 格式正式加入 PyTorch 基金会。

Read more →

Welcome Gemma 4: Frontier multimodal intelligence on device

Gemma 4 发布,支持在设备端运行前沿多模态智能。

Read more →

Falcon Perception

Falcon Perception 模型发布。

Read more →

Any Custom Frontend with Gradio’s Backend

介绍如何使用 Gradio 后端构建自定义前端。

Read more →


The Gradient

After Orthogonality: Virtue-Ethical Agency and AI Alignment

探讨美德伦理学在 AI 对齐中的应用,认为理性 AI 不应仅以“目标”为导向。

Read more →

AGI Is Not Multimodal

文章指出,AGI 不应仅仅等同于多模态,真正的智能需要具身理解。

Read more →

Shape, Symmetries, and Structure: The Changing Role of Mathematics in Machine Learning Research

分析数学在现代机器学习研究中角色的转变,从理论设计转向工程驱动。

Read more →

What’s Missing From LLM Chatbots: A Sense of Purpose

探讨 LLM 聊天机器人虽然基准测试分数提升,但用户体验并未同步增长的原因——缺乏“目的感”。

Read more →

We Need Positive Visions for AI Grounded in Wellbeing

呼吁构建以人类福祉为基础的 AI 积极愿景。

Read more →

Financial Market Applications of LLMs

探讨 LLM 在金融市场中的应用潜力与挑战。

Read more →

A Brief Overview of Gender Bias in AI

简要概述 AI 中的性别偏见问题。

Read more →

Mamba Explained

详解 Mamba 模型,作为 Transformer 的替代方案,在处理长序列方面表现优异。

Read more →

Car-GPT: Could LLMs finally make self-driving cars happen?

探讨 LLM 在自动驾驶中的应用前景及面临的信任挑战。

Read more →

Do text embeddings perfectly encode text?

探讨文本嵌入的可逆性,强调对嵌入数据进行安全协议审查的必要性。

Read more →


arXiv CS.AI

The Non-Optimality of Scientific Knowledge: Path Dependence, Lock-In, and The Local Minimum Trap

文章指出科学知识的演进往往陷入“局部最优”,而非全局最优。

Read more →

Self-Monitoring Benefits from Structural Integration: Lessons from Metacognition in Continuous-Time Multi-Timescale Agents

研究元认知在多时间尺度代理中的作用。

Read more →

GoodPoint: Learning Constructive Scientific Paper Feedback from Author Responses

利用作者反馈训练 LLM 生成建设性的论文评审意见。

Read more →

Narrative-Driven Paper-to-Slide Generation via ArcDeck

ArcDeck 框架,通过结构化叙事将论文转换为演示幻灯片。

Read more →

The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

HORIZON 基准测试,用于诊断 AI 代理在长周期任务中的失败原因。

Read more →

When to Forget: A Memory Governance Primitive

提出“记忆价值(MW)”指标,用于管理 AI 代理的记忆治理。

Read more →

Identity as Attractor: Geometric Evidence for Persistent Agent Architecture in LLM Activation Space

研究 LLM 激活空间中代理身份的吸引子动力学。

Read more →

A longitudinal health agent framework

提出一种支持长期健康任务的 AI 代理框架。

Read more →


arXiv CS.CL

The Consciousness Cluster: Emergent preferences of Models that Claim to be Conscious

研究模型声称具有意识如何影响其下游行为。

Read more →

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

指出知识密度而非任务格式是多模态模型扩展的关键。

Read more →

WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain

针对工作领域 AI 的社区驱动评估框架。

Read more →

Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

将文本语料库转化为定量语义信号的管道。

Read more →

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

针对孟加拉国政府银行 App 评论的多模型情感分类研究。

Read more →

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

韩语多学科多模态理解基准测试。

Read more →

A Proactive EMR Assistant for Doctor-Patient Dialogue: Streaming ASR, Belief Stabilization, and Preliminary Controlled Evaluation

主动式电子病历助手,支持流式语音识别与信念稳定。

Read more →

Dental-TriageBench: Benchmarking Multimodal Reasoning for Hierarchical Dental Triage

牙科分诊多模态推理基准测试。

Read more →


WIRED

Dark Matter May Be Made of Black Holes From Another Universe

暗物质可能源自大爆炸前的黑洞群体。

Read more →

Europe’s Online Age Verification App Is Here

欧洲推出匿名在线年龄验证应用,旨在限制未成年人访问受限内容。

Read more →

The Online Fiction Boom Reimagining China’s History

探讨中国网络文学如何重构历史,并分析其背后的意识形态影响。

Read more →

The Battle for OpenAI’s Soul

Musk 起诉 Altman 的审判即将开始, jury 将决定 OpenAI 是否偏离了其造福人类的初衷。

Read more →

The UK Launches Its $675 Million Sovereign AI Fund

英国启动 6.75 亿美元主权 AI 基金,旨在减少对外国技术的依赖。

Read more →

Google’s AI Mode Update Tries to Kill Tab Hopping in Chrome

Chrome AI 模式更新,旨在减少用户在搜索过程中的标签页切换。

Read more →

Anthropic Plots Major London Expansion

Anthropic 计划在伦敦大幅扩张,租赁新办公室以容纳更多员工。

Read more →

Congress Turns Up Pressure on DHS Over Palantir’s Role in Immigration Crackdown

国会向国土安全部施压,调查 Palantir 在移民执法中的角色。

Read more →

The 10 Best MagSafe Phone Grips for Your Butter Fingers (2026)

2026 年度最佳 MagSafe 手机握把推荐。

Read more →

Smart Plug Guide (2026): When You Should and Shouldn’t Use One

2026 智能插头使用指南。

Read more →


Lobsters

Okay, what actually uses Rust

探讨 Rust 语言的实际应用场景。

Read more →

IPv6 traffic crosses the 50% mark

IPv6 流量占比突破 50%。

Read more →

Announcing Rust 1.95.0

Rust 1.95.0 版本发布。

Read more →

Stop using JWTs

呼吁停止使用 JWT 的技术讨论。

Read more →

Clojure: The Documentary

Clojure 语言纪录片。

Read more →

The age of snarky UI

探讨 UI 设计中“讽刺风格”的流行。

Read more →

Mastodon: Don’t use “mastodon” or “mstdn” in domain names

Mastodon 官方提醒不要在域名中使用其品牌词。

Read more →

You cannot use the GNU (A)GPL to take software freedom away

FSF 强调 AGPL 协议不能被用于剥夺软件自由。

Read more →

A time travel debugger for WebAssembly

WebAssembly 的时间旅行调试器。

Read more →


DEV Community

imnot: a YAML-defined stateful API mock server for external system integrations

介绍 imnot,一款基于 YAML 定义的有状态 API Mock 服务器。

Read more →

My Manus AI Credit Usage After 30 Days — The Data

作者追踪了 30 天 Manus AI 的使用数据,分析了不同模式下的信用消耗情况。

Read more →

How I Packaged 130+ Hours of AWS Infrastructure Into Reusable Templates

分享如何将 130 多小时的 AWS 基础设施配置封装为可重用模板。

Read more →

Coding Cat Oran Ep4, Speaking Human

Oran 尝试将复杂的技术系统向非技术人员进行演示的职场故事。

Read more →

How to Safely Migrate Your LLM Integration When a New Model Drops

探讨在模型更新时如何安全地迁移 LLM 集成。

Read more →

Anthropic says MCP command execution is expected behavior — here is how to test what that means for your agent

探讨 MCP 协议中命令执行的安全性问题及测试方法。

Read more →

88% of AI Agent Failures Have Nothing to Do With the Model

作者指出 88% 的 AI 代理失败并非模型本身问题,而是架构与流程设计问题。

Read more →

We Analyzed 4,584 MCP Servers — The Average Trust Score Is 53.9 Out of 100

分析了 4584 个 MCP 服务器,发现平均信任得分仅为 53.9。

Read more →

I built a Bitbucket CLI — and it convinced me CLIs beat MCP servers for AI agents

作者开发 Bitbucket CLI 后认为,对于 AI 代理而言,CLI 比 MCP 服务器更具优势。

Read more →

Mastering Spring Security Method Level Security

详解 Spring Security 方法级安全配置。

Read more →