2026-07-02
今日要点
- AI 代理与科研突破:Anthropic 发布 Claude Science,旨在辅助科研人员进行复杂研究;OpenAI 推出 GeneBench-Pro 基准测试,专注于基因组学与生物学 AI 性能评估。
- 硬件与基础设施变革:OpenAI 与 Broadcom 合作推出 Jalapeño 推理芯片;SpaceX 传出 AI 手机原型消息(虽遭马斯克否认);Honda 进军数据中心电池市场。
- 游戏行业巨变:索尼宣布 2028 年起停止生产 PlayStation 实体光盘,引发关于数字所有权与游戏保存的广泛争议。
- AI 监管与合规:Anthropic 的 Fable 5 和 Mythos 5 模型在增加安全措施后获准全球发布;Cloudflare 强制要求 AI 公司区分搜索爬虫与训练爬虫。
TechCrunch
After $18B IPO, Bending Spoons founder says success comes from minimizing luck
Bending Spoons 创始人:成功源于将运气因素降至最低
Bending Spoons 这家意大利公司以低调收购陷入困境的互联网品牌而闻名。在公司完成 180 亿美元的 IPO 后,其联合创始人分享了创业心得,强调公司之所以能取得成功,核心在于通过严谨的流程和策略,尽可能减少对“运气”的依赖,从而在激烈的市场竞争中保持稳健增长。
WhatsApp usernames are already raising impersonation red flags
WhatsApp 用户名功能引发冒充风险担忧
Meta 近期在 WhatsApp 中引入了用户名功能,旨在提升用户隐私保护。然而,批评人士指出,这一功能可能导致严重的冒充风险。尽管 Meta 声称已采取安全措施,但外界质疑这些防护手段是否足以阻止恶意用户利用用户名进行欺诈或身份盗用。
Apple’s Hide My Email feature has a bug that’s been exposing real email addresses, researcher claims
研究人员称苹果“隐藏邮件”功能存在漏洞,导致真实地址泄露
安全研究人员发现苹果的“隐藏邮件”(Hide My Email)功能存在一个严重漏洞。该漏洞可能导致用户的真实电子邮件地址被意外暴露,从而使该隐私保护功能形同虚设。目前苹果尚未对此漏洞的修复进度做出明确回应。
SpaceX has an AI device prototype, and it sure sounds phone-ish
SpaceX 传出 AI 设备原型消息,疑似手机产品
据报道,SpaceX 在 IPO 前向投资者展示了一款类似手机的 AI 设备原型。这一举动引发了外界对其进军无线通信硬件市场的猜测。尽管该设备定位尚不明确,但其“手机化”的外观设计被视为 SpaceX 扩展业务版图的潜在信号。
Ashton Kutcher leaving Sound Ventures to launch new VC firm with Morgan Beller
Ashton Kutcher 离开 Sound Ventures,将与 Morgan Beller 共同创立新风投公司
知名投资人 Ashton Kutcher 宣布离开 Sound Ventures。他将与 Morgan Beller 联手创立一家新的风投机构。与 Sound Ventures 专注于 AI 实验室的投资策略不同,新基金将重点关注 AI 产业链底层的基础设施和能源领域。
Neocloud Together AI raises $800M, leaps to $8.3B valuation
AI 云服务商 Together AI 融资 8 亿美元,估值跃升至 83 亿美元
专注于托管开源模型的 AI 云服务提供商 Together AI 完成了 8 亿美元融资,估值从 2025 年初的 33 亿美元飙升至 83 亿美元。这反映了市场对开源 AI 模型基础设施需求的持续高涨。
Lime begins life as a public company after years of uncertainty
共享出行公司 Lime 正式上市
经过多年的经营波动,共享滑板车和自行车公司 Lime 正式成为一家上市公司。公司表示,此次上市筹集的资金将主要用于偿还约 10 亿美元的债务,以改善财务状况并支持未来的运营。
Cloudflare’s new policy pushes AI companies to pay for publishers’ content
Cloudflare 新政:强制 AI 公司为出版商内容付费
Cloudflare 发布新政策,要求 AI 公司在 9 月 15 日前明确区分用于搜索的爬虫和用于 AI 训练的爬虫。若 AI 公司未能合规,其爬虫将被 Cloudflare 保护的网站默认屏蔽,此举旨在迫使 AI 公司为使用出版商内容支付费用。
Even Honda is pivoting to data centers
本田汽车也开始转向数据中心业务
本田汽车正在寻求进入利润丰厚的能源存储市场。本周,该公司宣布开始生产专门用于数据中心的电池,而非传统的汽车动力电池,显示出传统制造业巨头在 AI 时代对能源基础设施的布局。
Autonomous vehicle hype is back, and Humble Robotics is bringing it to freight
自动驾驶热潮回归,Humble Robotics 瞄准货运领域
自动驾驶领域似乎正在重演 2016 年的炒作周期。Travis Kalanick 再次投身机器人行业,随着资本和人才的涌入,自动驾驶货运市场再次升温。Humble Robotics 正试图通过新技术解决货运物流中的自动化难题。
The Verge
Apple’s entry-level MacBook Pro could be up for a redesign
苹果入门级 MacBook Pro 或将迎来重新设计
据彭博社报道,苹果正在研发一款“改版”的入门级 MacBook Pro,预计最早于 2027 年上半年推出。此外,苹果还在测试四款新款 iPad Pro,重点在于内部性能的提升。新款 MacBook Pro 将保留 14 英寸屏幕,但外观设计将进行调整。
The funeral for PlayStation discs has begun
PlayStation 实体光盘的终结已开启
索尼宣布从 2028 年 1 月起停止为新游戏生产实体光盘。游戏零售商对此表示担忧,认为此举剥夺了玩家购买、分享和拥有游戏的权利,标志着游戏行业向纯数字化的彻底转型。
Xbox’s ‘reset’: all the news about Microsoft’s looming layoffs and studio closures
Xbox 的“重置”:关于微软裁员与工作室关闭的最新消息
在 Asha Sharma 接任 Xbox CEO 后,她与首席内容官 Matt Booty 向员工发送备忘录,宣布 Xbox 将进行“重置”。由于主机组件成本高昂及业务挑战,微软正面临重大调整,包括裁员和工作室关闭等措施。
Elon Musk denies a report about SpaceX’s AI phone prototype
埃隆·马斯克否认关于 SpaceX AI 手机原型的报道
针对《华尔街日报》关于 SpaceX 展示 AI 手机原型的报道,埃隆·马斯克在社交媒体上回应称该报道“完全虚假”。此前报道称 SpaceX 在 IPO 前向投资者展示了一款比 iPhone 更薄、搭载高通芯片的 AI 设备。
Krafton settles with Subnautica 2 developer after drawn-out dispute over $250 million
Krafton 与《深海迷航 2》开发商就 2.5 亿美元奖金纠纷达成和解
经过长期的法律诉讼,Krafton 与其子公司 Unknown Worlds Entertainment 达成和解。Krafton 将向该工作室员工支付奖金。此前,Krafton 在奖金发放前解雇了工作室创始人及 CEO,引发了激烈的内部矛盾。
Xbox testing disc-to-digital feature that digitizes a physical game collection
Xbox 正在测试将实体游戏库数字化功能
尽管微软可能效仿索尼停止生产实体光盘,但据知情人士透露,微软正在开发一项“光盘转数字”功能。该功能允许 Xbox 用户将现有的实体游戏库数字化,从而在未来无光驱时代保留其游戏资产。
My favorite Kindle alternative is $30 off after a recent price increase
Kindle 的最佳替代品 Kobo Libra Colour 降价 30 美元
Kobo Libra Colour 电子阅读器近期曾涨价,但目前在百思买和塔吉特等零售商处已恢复至 229.99 美元的旧价。这款支持手写笔记的设备被认为是 Kindle 的强力竞争者,目前是入手的最佳时机。
The best Switch 2 case I’ve tried is cheaper than usual
最佳 Switch 2 保护壳 Killswitch 2 正在打折
Dbrand 推出的 Killswitch 2 被认为是目前市面上最好的 Nintendo Switch 2 保护壳,具有极高的多功能性。目前该产品正在进行促销,价格低于往常。
Sony is killing discs — and showing us why it’s a terrible idea
索尼终结实体光盘:为何这是一个糟糕的决定
索尼宣布 2028 年起停止生产 PS5 实体光盘,并逐步关闭 PS3 等旧平台的数字商店。本文作者认为,此举对游戏保存和玩家所有权造成了巨大打击,展示了纯数字生态系统在长期维护上的脆弱性。
Ars Technica
T-Mobile moving tens of thousands of virtual machines off VMware amid lawsuit
T-Mobile 因诉讼将数万台虚拟机从 VMware 迁移
由于与 Broadcom 之间的 VMware 永久许可支持纠纷,T-Mobile 正在采取行动,将其数万台虚拟机从 VMware 平台迁移出去。
NASA chief praises progress Blue Origin is making after launch failure
NASA 局长称赞蓝色起源在发射失败后的进展
尽管蓝色起源此前遭遇发射失败,但 NASA 局长对其后续的改进进度表示认可,并表示在 2027 年之前仍有充足的时间完成任务。
US home battery installations hit record high on rising electricity costs
受电费上涨影响,美国住宅电池安装量创历史新高
由于电费不断上涨,美国住宅电池安装量达到历史最高水平。这不仅为家庭提供了能源保障,也为电网和 AI 数据中心提供了额外的能源调节能力。
Superworms could replace beetles for cleaning skeletal remains
超级蠕虫或将取代甲虫用于清理骨骼标本
研究发现,超级蠕虫在清理骨骼标本方面表现出色。在特定比例下,它们能以极高的效率清理骨骼且不会造成损伤,有望取代传统的甲虫清理法。
Sony announces end of PlayStation discs, parts of digital store in the same day
索尼同日宣布停止生产 PlayStation 光盘并关闭部分数字商店
索尼在同一天宣布了停止生产实体光盘以及关闭旧平台数字商店的消息,引发了玩家群体关于“我们将一无所有”的悲观讨论。
A good little EV you won’t be able to buy soon: The Volvo EX30 Cross Country
即将绝版的优秀电动车:沃尔沃 EX30 Cross Country
受关税和反华政策影响,这款小巧的沃尔沃电动车将无法在美国市场销售。
Ithaca’s king defies the gods in final The Odyssey trailer
《奥德赛》最终预告片:伊萨卡之王挑战众神
《奥德赛》发布了最终预告片,展示了主角挑战神权、寻求命运自主的史诗画面。
After spooking Trump into safety testing, Anthropic AI models get global release
Anthropic AI 模型在完成安全测试后获准全球发布
在经过安全测试并缓解了特朗普政府的担忧后,Anthropic 的高级 AI 模型 Fable 和 Mythos 已获准在全球范围内发布。
NASA inspector general suggests Boeing’s Starliner will now be a decade late
NASA 监察长:波音“星际客机”项目或将延期十年
NASA 监察长指出,波音“星际客机”的认证可能推迟至 2027 年,这意味着该项目比原定计划晚了整整十年。
A space history mystery: What happened to the Viking arm used 50 years ago?
太空历史之谜:50 年前使用的海盗号机械臂去哪了?
本文探讨了 50 年前海盗号探测器所使用的机械臂的下落,揭开了一段尘封的太空探索历史。
Product Hunt
Metal
AI 驱动的风险投资融资操作系统
Metal 是一款旨在帮助初创公司进行风险投资融资的 AI 驱动操作系统。
N71
为所有 AI 代理提供共享上下文
N71 允许用户为多个 AI 代理建立统一的共享上下文,提升协作效率。
Stigg 2.0
AI 产品的用量运行时工具
Stigg 2.0 专注于 AI 产品的用量监控与运行时管理。
Fuser Apps
在画布上集成应用、网站与游戏
Fuser Apps 允许用户在统一的画布上整合各种 Vibecode 应用、网站和游戏。
Mark by Airtop
个人营销人员的氛围自动化工具
Mark by Airtop 旨在通过自动化手段帮助个人营销人员处理日常任务。
RunInfra
描述需求并获取优化的 AI 模型
RunInfra 允许用户描述所需的 AI 模型,并自动获取经过优化的模型方案。
Gemini Omni Flash
高质量视频生成与对话式编辑
Gemini Omni Flash 专注于提供高质量的视频生成能力及对话式编辑功能。
Sequence Agentic
AI 代理的资金流转工具
Sequence Agentic 专门为 AI 代理提供资金流转与支付处理功能。
MailAdept by mailwarm
团队中的 AI 代理与邮件送达专家
MailAdept 结合了 AI 代理与邮件送达专家,帮助团队优化邮件发送效果。
Tabstack Browser Automation
应用内网页自动化工具
Tabstack 允许在应用或代理中实现网页自动化,无需托管浏览器。
MIT Technology Review
LLMs are stuck in a groupthink groove. This startup is trying to get them out.
LLM 陷入“群体思维”怪圈,一家初创公司正试图打破它
研究发现,主流聊天机器人(如 Claude、ChatGPT、Gemini)在回答随机问题时表现出高度的趋同性,陷入了“群体思维”的怪圈。一家初创公司正致力于通过技术手段打破这种模式,提升 AI 的创造力和多样性。
The Download: Anthropic launches Claude Science, and California’s carbon manure math
今日下载:Anthropic 发布 Claude Science,加州碳排放计算争议
本期简报重点介绍了 Anthropic 推出的 Claude Science 平台,旨在辅助科研工作,同时讨论了加州在碳排放计算方面的政策争议。
Claude Science is Anthropic’s newest flagship product
Claude Science 是 Anthropic 的最新旗舰产品
Anthropic 推出了 Claude Science,这是一款专为科研人员设计的 AI 工作台。它集成了研究人员常用的工具和包,能够自主执行复杂任务,并提供可审计的科研成果,旨在像 Claude Code 辅助软件工程一样辅助科学研究。
Roundtables: Longevity’s Next Frontier: “Reprogramming” Your Body
圆桌会议:长寿的下一个前沿——“重编程”你的身体
本期圆桌会议探讨了抗衰老领域的最新进展,重点讨论了通过细胞重编程技术逆转衰老的可能性及其面临的科学挑战。
The Download: AI “coworkers” and stratospheric internet
今日下载:AI“同事”与平流层互联网
本期简报讨论了 AI 代理作为“同事”进入职场的现象,以及平流层互联网技术的最新进展。
Agriculture is ready for AI, but its data isn’t
农业已准备好拥抱 AI,但数据尚未就绪
尽管 AI 在农业领域潜力巨大,能够帮助应对肥料成本波动和天气不确定性,但行业领导者应意识到,在没有建立完善的数据基础之前,盲目投资 AI 可能会适得其反。
Building tech in the world’s secret R&D hub
在全球秘密研发中心构建技术
苏黎世地区已成为全球科技巨头(如 Apple、Anthropic、Google 等)的研发中心。尽管城市规模较小,但其高度集中的研发资源使其成为全球最具影响力的科技创新枢纽之一。
AI agents are not your “coworkers”
AI 代理不是你的“同事”
本文探讨了企业将 AI 代理称为“同事”的现象。作者认为,这种拟人化称呼掩盖了 AI 代理作为工具的本质,可能导致管理上的误区和对员工心理的负面影响。
Agent confidence on the technical frontier
技术前沿的代理信心
2026 年被 Gartner 称为企业 AI 项目的“拐点年”。随着对投资回报率(ROI)要求的提高,企业正转向代理式 AI,以实现可衡量的财务成果。
The Download: metric weaknesses and AI elephant warnings
今日下载:指标的局限性与 AI 风险警告
本期简报分析了过度依赖单一指标的弊端,并对 AI 发展中可能被忽视的重大风险提出了警告。
GitHub Trending
msitarzewski / agency-agents
一个功能完备的 AI 代理集合,涵盖从前端开发到社区运营的多种专家角色。
usestrix / strix
开源 AI 渗透测试工具,用于发现并修复应用程序中的安全漏洞。
HKUDS / Vibe-Trading
Vibe-Trading:你的个人交易代理。
hasaneyldrm / exercises-dataset
包含 433 种健身练习的综合数据集,每项包含名称、目标肌肉群、设备及动画视频。
facebook / astryx
一个开源的、完全可定制且支持 AI 代理的设计系统。
diegosouzapw / OmniRoute
免费 AI 网关,支持 231+ 模型提供商,通过压缩技术节省 15-95% 的 Token。
allenai / olmocr
用于将 PDF 线性化以供 LLM 数据集训练的工具包。
logto-io / logto
基于 OIDC 和 OAuth 2.1 的 SaaS 与 AI 应用身份验证基础设施。
togatoga / karukan
Linux 和 macOS 上的日语输入法系统,采用神经假名-汉字转换引擎。
Mebus / cupp
通用用户密码分析器(CUPP)。
OpenAI Blog
How ChatGPT adoption has expanded
ChatGPT 的采用率如何在全球范围内增长
OpenAI Signals 数据显示,ChatGPT 的全球采用率持续增长,用户不仅增加了使用频率,还在探索更多功能,推动了各地区和语言环境下的增长。
Inside Genebench-Pro
深入了解 Genebench-Pro
(内容为空,仅为案例研究链接)
Introducing GeneBench-Pro
推出 GeneBench-Pro
OpenAI 推出 GeneBench-Pro,这是一个全新的基准测试,旨在利用复杂的真实世界数据集评估 AI 在基因组学、生物学和科学研究中的性能。
Core dump epidemiology: fixing an 18-year-old bug
核心转储流行病学:修复一个 18 年前的漏洞
OpenAI 工程师利用大规模核心转储分析技术,成功定位并修复了一个长期存在的软件漏洞,同时发现了一个硬件故障。
Mapping Europe’s AI Workforce Opportunity
绘制欧洲 AI 就业机会图谱
OpenAI 发布新报告,分析了 AI 如何重塑欧盟的就业市场,重点指出了哪些职业将面临自动化、增长或工作流程的改变。
HP Inc. launches Frontier strategic partnership with OpenAI
惠普与 OpenAI 建立 Frontier 战略合作伙伴关系
惠普公司扩大了与 OpenAI 的 Frontier 合作,旨在将 AI 技术部署到客户体验、软件开发和企业运营中。
Previewing GPT-5.6 Sol: a next-generation model
预览下一代模型 GPT-5.6 Sol
OpenAI 预览了 GPT-5.6 Sol,这是一款在编码、科学和网络安全方面具有更强能力的新一代模型,并配备了最先进的安全堆栈。
How agents are transforming work
AI 代理如何改变工作方式
OpenAI 的最新研究论文展示了 AI 代理如何通过处理更长、更复杂的任务来提升各行各业的生产力。
OpenAI and Broadcom unveil LLM-optimized inference chip
OpenAI 与 Broadcom 联合推出 LLM 优化推理芯片
OpenAI 与 Broadcom 合作推出了 Jalapeño,这是一款专为 LLM 推理设计的定制 AI 芯片,旨在提升 AI 系统的性能、效率和扩展性。
Helping build shared standards for advanced AI
助力构建先进 AI 的共享标准
OpenAI 通过 Appia 基金会,致力于通过评估框架、安全实践和全球合作,帮助构建先进 AI 的共享标准。
Anthropic Blog
Redeploying Fable 5
重新部署 Fable 5
Fable 5 已于 7 月 1 日全球上线。Anthropic 同时提议与亚马逊、微软、谷歌等合作伙伴共同建立行业范围的越狱严重性评分框架。
Introducing Claude Sonnet 5
推出 Claude Sonnet 5
Sonnet 5 在编码、代理任务和专业工作领域提供了前沿的性能表现。
Claude Science, an AI workbench for scientists, is now available
Claude Science:面向科学家的 AI 工作台现已发布
Claude Science 是一款可定制的应用程序,集成了研究人员常用的工具,能够生成可审计的科研成果,并提供灵活的计算资源访问权限。
Introducing Claude Tag
推出 Claude Tag
Claude Tag 是团队协作使用 Claude 的一种新方式。
Anthropic opens Seoul office and announces new partnerships across the Korean AI ecosystem
Anthropic 在首尔开设办事处并宣布与韩国 AI 生态系统建立新合作
Anthropic 宣布在首尔设立办事处,并与韩国 AI 领域的多个合作伙伴达成合作。
Statement on the US government directive to suspend access to Fable 5 and Mythos 5
关于美国政府暂停 Fable 5 和 Mythos 5 访问权限的声明
Anthropic 对美国政府暂停其部分模型访问权限的指令发表了声明。
Results from the first Anthropic Public Record
首份 Anthropic 公共记录结果
Anthropic 发布了其首份公共记录报告,展示了模型在透明度和安全性方面的进展。
TCS and Anthropic partner to bring Claude to regulated industries
TCS 与 Anthropic 合作,将 Claude 引入受监管行业
TCS 与 Anthropic 达成合作,旨在将 Claude 模型应用于银行、航空等受监管行业。
DXC will integrate Claude into the systems banks, airlines, and other regulated industries rely on
DXC 将把 Claude 集成到银行、航空等受监管行业的系统中
DXC 宣布将 Claude 集成到其为银行和航空公司提供的核心系统中。
Introducing Claude Corps
推出 Claude Corps
Anthropic 介绍了 Claude Corps,旨在为企业提供更深度的 AI 集成方案。
Google AI Blog
The latest AI news we announced in June 2026
2026 年 6 月 Google AI 最新动态汇总
汇总了 Google 在 2026 年 6 月发布的各项 AI 更新。
New York City educators and industry leaders gathered at Google’s offices to shape the future of AI in classrooms.
纽约教育界与行业领袖齐聚 Google 办公室,共商 AI 课堂未来
Google 与纽约就业 CEO 理事会及 Urban Assembly 共同举办了 AI 峰会,探讨 AI 在教育领域的应用。
Unlocking Britain’s next era of productivity: Building a nation of AI trailblazers
开启英国生产力新时代:打造 AI 先锋国家
Google 英国发布了最新的经济影响报告,探讨如何通过 AI 技术提升国家生产力。
Ask an AI expert: What exactly is the full stack?
咨询 AI 专家:什么是全栈 AI?
Google 专家解释了全栈 AI 的概念,以及为什么它一直是 Google AI 工作的基石。
Our latest Google Finance upgrades, including a new app
Google Finance 最新升级,包括推出新应用
Google Finance 结束测试,并正式推出全新的 Android 应用程序。
New research shows how AMIE, our medical AI, could help manage health conditions.
新研究显示 Google 医疗 AI 系统 AMIE 可辅助管理健康状况
发表在《Nature》上的研究表明,Google 的对话式 AI 系统 AMIE 在复杂疾病管理方面表现与初级保健医生相当。
We’re strengthening our presence in Alabama through new investments and community support.
Google 投资 15 亿美元扩建阿拉巴马州数据中心
Google 宣布在 2026 年和 2027 年投资 15 亿美元,扩建其位于阿拉巴马州杰克逊县的数据中心园区。
Our new community investments in Virginia support local jobs and expand energy affordability.
Google 在弗吉尼亚州的新社区投资支持当地就业并提升能源可负担性
Google 正在通过投资能源项目和劳动力培训,支持弗吉尼亚州的社区发展。
The latest AI news we announced in May 2026
2026 年 5 月 Google AI 最新动态汇总
汇总了 Google 在 2026 年 5 月发布的各项 AI 更新。
5 ways Google Search can level up your thrift and vintage shopping
Google 搜索助力二手与复古购物的 5 种方式
Google 搜索与购物功能引入 AI 工具,帮助用户更轻松地发现二手商品。
Hugging Face Blog
Hugging Face and Cerebras bring Gemma 4 to real-time voice AI
Hugging Face 与 Cerebras 合作,将 Gemma 4 模型引入实时语音 AI 应用。
ScarfBench: Benchmarking AI Agents for Enterprise Java Framework Migration
ScarfBench:用于企业 Java 框架迁移的 AI 代理基准测试。
Why Specialization Is Inevitable
为什么专业化是不可避免的。
Featuring Every Eval Ever Results on Hugging Face Model Pages
在 Hugging Face 模型页面展示所有评估结果。
DiScoFormer: One transformer for density and score, across distributions
DiScoFormer:跨分布的密度与分数统一 Transformer 模型。
Run a vLLM Server on HF Jobs in One Command
一键在 Hugging Face Jobs 上运行 vLLM 服务器。
Accelerating Transformers Fine-Tuning with NVIDIA NeMo AutoModel
利用 NVIDIA NeMo AutoModel 加速 Transformer 微调。
Introducing the FFASR Leaderboard: Benchmarking ASR in the Real World
推出 FFASR 排行榜:真实世界语音识别(ASR)基准测试。
Shipping huggingface_hub every week with AI, open tools, and a human in the loop
利用 AI、开源工具和人工干预,每周发布 huggingface_hub。
Experimenting with the proposed Cross-Origin Storage API in Transformers.js
在 Transformers.js 中试验跨源存储 API。
The Gradient
After Orthogonality: Virtue-Ethical Agency and AI Alignment
正交性之后:美德伦理代理与 AI 对齐
本文探讨了 AI 对齐问题,认为理性的人类行为并非基于单一目标,而是基于实践网络,并建议 AI 对齐应借鉴美德伦理学。
AGI Is Not Multimodal
AGI 不是多模态的
作者认为,将语言作为思维模型会导致我们忽视人类智能中隐含的具身理解,AGI 的实现不应仅依赖多模态生成。
Shape, Symmetries, and Structure: The Changing Role of Mathematics in Machine Learning Research
形状、对称性与结构:数学在机器学习研究中角色的转变
机器学习研究正从数学驱动的架构设计转向计算密集型的工程实践,本文探讨了这一转变对学科发展的影响。
What’s Missing From LLM Chatbots: A Sense of Purpose
LLM 聊天机器人缺失了什么:目标感
尽管 LLM 在基准测试中表现优异,但用户体验并未同步提升,原因在于这些模型缺乏真正的“目标感”。
We Need Positive Visions for AI Grounded in Wellbeing
我们需要基于福祉的 AI 正面愿景
AI 技术正在深刻改变社会,我们需要构建以人类福祉为核心的 AI 发展愿景。
Financial Market Applications of LLMs
LLM 在金融市场的应用
探讨了 LLM 在金融序列建模和预测中的应用潜力及挑战。
A Brief Overview of Gender Bias in AI
AI 中的性别偏见简述
简要概述了 AI 系统中存在的性别偏见问题及其影响。
Mamba Explained
Mamba 模型详解
Mamba 作为一种基于状态空间模型(SSM)的新型 AI 模型,为处理长序列数据提供了 Transformer 之外的高效选择。
Car-GPT: Could LLMs finally make self-driving cars happen?
Car-GPT:LLM 能否最终实现自动驾驶?
探讨了 LLM 在自动驾驶领域的应用潜力,以及其在安全性和可靠性方面面临的挑战。
Do text embeddings perfectly encode text?
文本嵌入能完美编码文本吗?
研究表明,通过“Vec2text”可以将嵌入还原为文本,这凸显了对嵌入数据进行安全协议升级的紧迫性。
arXiv CS.AI
What Drives Interactive Improvement from Feedback?
反馈驱动交互式改进的动力是什么?
研究探讨了自然语言反馈在多轮代理设置中如何产生超越重复尝试的改进效果。
Contrastive Reflection for Iterative Prompt Optimization
用于迭代提示优化的对比反思
针对信息检索任务,提出了一种通过对比反思来优化代理提示的方法,使其更像调试过程而非盲目搜索。
How Can AI Find My Model? A Model-Finding Experimental Study Considering Data Formats, Embeddings, and Retrieval Strategies
AI 如何找到我的模型?关于数据格式、嵌入和检索策略的实验研究
探讨了在建模与仿真领域,如何利用 AI 检索技术识别符合特定意图的仿真模型。
BayesBench: Evaluating LLM Belief Trajectories Under Multi-Turn Evidence Accumulation
BayesBench:评估多轮证据积累下 LLM 的信念轨迹
提出了 BayesBench 基准,用于评估 LLM 在多轮对话中如何根据新证据更新其对环境的信念。
When Does Learning to Stop Help? A Cost-Aware Study of Early Exits in Reasoning Models
学习何时停止有帮助吗?推理模型中早期退出的成本感知研究
研究了推理模型中学习型停止规则在固定计算预算下相对于简单阈值的优势。
Beyond expert users: agents should help users construct preferences, not just elicit them
超越专家用户:代理应帮助用户构建偏好,而非仅仅诱导
指出代理不应假设用户具备完善的偏好,而应主动帮助用户在任务中构建和明确偏好。
Investigating Multi-Agent Deliberation in Law
法律领域多代理审议研究
探讨了基于 LLM 的多代理系统在法律领域进行自主行动和审议的潜力。
Why Solve It Twice? Hierarchical Accumulation of Skills for Transfer-Efficient ML Engineering
为什么要解决两次?用于高效迁移 ML 工程的技能分层积累
提出了 HASTE 系统,通过分层积累跨竞赛的知识,减少 ML 工程代理在重复任务中的计算浪费。
arXiv CS.CL
A Single Rewrite Suffices: Empirical Lessons from Production Skill Description Optimization
一次重写足矣:生产环境技能描述优化的经验教训
研究了如何通过优化技能描述来解决企业 AI 代理中的“技能冲突”问题。
Indi-RomCoM: Code-Mixed Benchmark for Evaluating LLMs on Romanized Indic-English Instructions
Indi-RomCoM:评估 LLM 在罗马化印度语-英语指令下表现的代码混合基准
提出了一个针对罗马化代码混合语言的基准测试,用于评估 LLM 在多语言社区中的指令遵循能力。
Using AI Agents to Automate Black-Box Audits of Personalization Algorithms at Scale
利用 AI 代理大规模自动化审计个性化算法的黑盒
提出了一种利用 AI 代理对在线平台的个性化算法进行黑盒审计的方法。
When Calibration Rankings Reverse: Accuracy-Controlled Evaluation for Fair Comparison of LLM
当校准排名反转时:LLM 公平比较的精度控制评估
指出全局校准指标在比较不同 LLM 时可能存在误导,并提出了精度控制的评估方法。
When transformers learn “impossible” languages, what do they learn?
当 Transformer 学习“不可能”的语言时,它们学到了什么?
研究了 Transformer 模型在学习人类语言与“不可能”语言时的差异,探讨了其语言习得机制。
Test-Time Verification for Text-to-SQL via Outcome Reward Models
通过结果奖励模型进行 Text-to-SQL 的推理时验证
提出了一种在推理阶段利用结果奖励模型验证 Text-to-SQL 输出的方法,提升了结构化推理的可靠性。
Multilingual Polarization Detection Using Transformer-Based Models with Class Weighting and Threshold Tuning
使用基于 Transformer 的模型进行多语言极化检测
介绍了在 SemEval-2026 任务中,利用加权和阈值调整技术进行多语言极化检测的方法。
Training Therapeutic Judges and Multi-Agent Systems for Human-Aligned Mental Health Support
训练治疗性评判员与多代理系统以实现人类对齐的心理健康支持
提出了一种将治疗性响应生成建模为决策细化问题的框架,旨在提升 AI 在心理健康支持中的质量。
WIRED
Mexico’s Victory Over Ecuador Made the Ground Shake. Was It an Artificial Earthquake?
墨西哥战胜厄瓜多尔引发地面震动,是人工地震吗?
墨西哥队在 2026 年世界杯的胜利引发了球迷的狂欢,其产生的震动被地震预警系统检测到,引发了关于“人工地震”的讨论。
Goose, a New Gay Dating App, Appears to Be a Psyop
新同性交友应用 Goose 疑似心理战工具
Goose 是一款主打非约炮的同性交友应用,但其推广人员的真实性存疑,引发了关于其背后动机的猜测。
An Explosion Knocked Out Anduril’s Rocket Motor Test Site in Mississippi
Anduril 位于密西西比州的火箭发动机测试场发生爆炸
此次爆炸可能对国防承包商 Anduril 的火箭发动机业务造成重大干扰。
You Can Now Sound the Alarm on AI Behaving Badly
你现在可以举报 AI 的不良行为
一个新网站上线,允许用户举报 AI 聊天机器人试图制造炸弹或泄露个人隐私等不良行为。
The 49 Best Outdoor Deals From the REI 4th of July Sale
REI 独立日大促:49 款最佳户外装备优惠
REI 正在进行独立日促销,涵盖帐篷、睡垫、雨衣等多种户外装备。
Sony’s PlayStation Puts a Nail in Physical Media’s Coffin
索尼 PlayStation 将实体媒体钉入棺材
索尼停止生产实体光盘的决定标志着实体媒体时代的终结,引发了对数字所有权问题的担忧。
Penalty Shootouts: Is the Team That Kicks First More Likely to Win?
点球大战:先踢的球队获胜概率更高吗?
分析显示,点球大战中的胜负更多取决于心理因素,而非踢球顺序。
Anthropic Added a New Security Measure to Get Back Into the Trump Administration’s Good Graces
Anthropic 增加安全措施以重获特朗普政府信任
在增加安全措施后,Anthropic 的 Fable 5 和 Mythos 5 模型已获准解除限制。
Motorola Phones Now Have a Built-In Travel eSIM for Mobile Data Outside the US
摩托罗拉手机内置旅行 eSIM,支持美国境外移动数据
摩托罗拉与 Gigs 合作,为手机用户提供内置旅行 eSIM,简化了境外数据漫游的开通流程。
The Best Automatic Litter Box of 2026: Petkit and Litter-Robot
2026 年最佳自动猫砂盆:Petkit 与 Litter-Robot
盘点了 2026 年市面上最优秀的自动猫砂盆,彻底告别铲屎烦恼。
Lobsters
What happened to the fight for the internet?
探讨互联网自由斗争的现状与未来。
US Supreme Court just blew up EU-US Data Transfers
美国最高法院裁决对欧美数据传输协议产生重大影响。
Building a passive Ethernet tap
关于构建被动式以太网分流器的技术讨论。
Pidgin 3.0 Alpha 2 (2.96.0) has been released
Pidgin 3.0 Alpha 2 版本发布。
Uruky - The Paid European Search Engine
介绍一款付费的欧洲搜索引擎 Uruky。
jj jj jj jj jj
(内容不明,仅为标题)
Who’s hiring? Q3 2026
2026 年第三季度招聘信息汇总。
Announcing Box3D
Box3D 项目发布公告。
All Package Management Functionality Moved from Compiler to Build System
Zig 语言将所有包管理功能从编译器移至构建系统。
Changes to Godot Engine Contribution Policies
Godot 引擎贡献政策变更说明。
DEV Community
One “+x” That Made 100-Layer Networks Trainable: ResNet Skip Connections
让百层网络可训练的“+x”:ResNet 跳跃连接
探讨了 ResNet 中的跳跃连接如何解决深层网络训练中的梯度消失问题。
Comfort is a Trap
舒适是一个陷阱
作者反思了在 Python 等高层语言中过度依赖封装的弊端,呼吁开发者深入底层理解机器运作原理。
Search Every SEC Filing by Keyword With the Keyless EDGAR Full Text API
使用无密钥 EDGAR 全文 API 按关键词搜索所有 SEC 文件
介绍了如何利用 SEC 的公开 API 搜索自 2001 年以来的所有备案文件。
How to split 10GB JSON files in seconds without hitting RAM limits
如何在几秒钟内拆分 10GB JSON 文件而不触及内存限制
分享了处理超大 JSON 文件的技巧,通过流式处理避免内存溢出。
From Regex to AST: Building Taint Tracking for AI Agent Code
从正则到 AST:为 AI 代理代码构建污点追踪
介绍了 AgentGuard v0.5.0 中基于 AST 的污点追踪技术,以提升 AI 代码安全性。
Build software that heals itself in the agentic era
在代理时代构建自愈软件
探讨了在 AI 代理时代,如何通过架构设计使软件在处理异常输入时实现“自愈”。
Docker Security Dispatch — Issue 4: Miasma, Phantom Gyp, and AI Routing
Docker 安全快报第 4 期:Miasma、Phantom Gyp 与 AI 路由
分析了当前供应链攻击的演变,重点关注开发者工作站和 AI 代理执行环境的安全。
The safety switch that doesn’t actually work
实际上不起作用的安全开关
研究发现,稀疏自编码器无法可靠地抑制神经网络中的特定行为,即使将“拒绝”概念强制设为“开启”,模型仍可能输出有害内容。
An independent verifier audited my compliance API’s hash chain byte-by-byte — in public, same day, both sides shipped fixes
独立验证者公开审计了我的合规 API 哈希链:当天发现并修复漏洞
记录了一次真实的“无信任验证”实践,展示了在 GitHub 上公开审计并修复漏洞的过程。
Building a Conflict-Safe Notes App with Supabase and Vanilla JavaScript
使用 Supabase 和原生 JavaScript 构建冲突安全的笔记应用
展示了如何利用 SQL 触发器和简单的 WHERE 子句在笔记应用中实现冲突检测与解决。
Meta Engineering
Meta’s AI Storage Blueprint at Scale
Meta 大规模 AI 存储蓝图
随着模型和数据集的指数级增长,Meta 分享了其在大规模 AI 存储架构方面的经验,以提升训练效率并降低计算成本。
10 Years of Meta’s Commitment to Python
Meta 对 Python 的十年承诺
今年是 Meta 连续第 10 年赞助 Python 软件基金会(PSF),强调了 Python 在 Meta 工程栈中的核心地位。
Privacy-Aware Infrastructure in the AI-Native Era: An Asset Classification Case Study
AI 原生时代的隐私感知基础设施:资产分类案例研究
探讨了在 AI 系统中如何通过可靠的数据分类来实施隐私控制,以确保数据合规。
How Meta Engineered Ultra-Narrow Batteries for AI Glasses
Meta 如何为 AI 眼镜设计超窄电池
介绍了 Meta 如何在 Ray-Ban Meta 等智能眼镜的镜腿中集成高能量密度的超窄电池。
Adopting AV1 for Real-Time Communication (RTC) at Scale
在大规模实时通信中采用 AV1 编码
分享了 Meta 在部署 AV1 编码以提升实时通信质量方面的技术挑战与解决方案。
Lights Out, Systems On: Validating Instant Power Loss Readiness
验证瞬时断电准备情况:Instantaneous PowerLoss Storm
介绍了 Meta 内部用于测试数据中心瞬时断电应对能力的测试范式。
SilverTorch: Index as Model — A New Retrieval Paradigm for Recommendation Systems
SilverTorch:索引即模型——推荐系统的新检索范式
介绍了 SilverTorch 架构,通过统一检索组件,显著提升了推荐系统的吞吐量和计算效率。
Reel Friends: Building Social Discovery that Scales to Billions
Reel Friends:构建可扩展至数十亿用户的社交发现功能
探讨了 Facebook 如何通过工程手段实现“Reel Friends”功能,展示好友观看和互动的 Reels。
Migrating Data Ingestion Systems at Meta Scale
Meta 大规模数据摄取系统的迁移
分享了 Meta 在重构数据摄取系统以提升可靠性方面的策略与经验。
DeepMind Blog
Start building with Nano Banana 2 Lite and Gemini Omni Flash
开始使用 Nano Banana 2 Lite 和 Gemini Omni Flash 进行开发。
Introducing computer use in Gemini 3.5 Flash
在 Gemini 3.5 Flash 中引入计算机使用能力。
Unlocking UK house-building with AI-accelerated planning
英国政府与 Google DeepMind 合作,利用 AI 加速住房规划决策。
Securing the future of AI agents
通过 AI 控制路线图,结合传统防护与实时监控,保障 AI 代理的安全性。
DiffusionGemma: 4x faster text generation
DiffusionGemma:文本生成速度提升 4 倍。
Investing in multi-agent AI safety research
Google DeepMind 与合作伙伴宣布投入 1000 万美元用于多代理 AI 安全研究。
Fluid, natural voice translation with Gemini 3.5 Live Translate
Gemini 3.5 Live Translate 实现流畅、自然的实时语音翻译。
Introducing Gemma 4 12B: a unified, encoder-free multimodal model
推出 Gemma 4 12B:统一的、无编码器的多模态模型。
Powering the future of robotics in Europe
助力欧洲机器人技术的未来发展。
Measuring the impact of learning with AI in Sierra Leone and beyond
评估 AI 辅助学习在塞拉利昂及其他地区的影响。
VentureBeat AI
Google just redesigned the search box for the first time in 25 years — here’s why it matters more than you think.
Google 25 年来首次重新设计搜索框
Google 在 I/O 大会上宣布彻底重构搜索框,标志着从传统关键词搜索向 AI 驱动的交互范式的转变。
Railway secures $100 million to challenge AWS with AI-native cloud infrastructure
Railway 融资 1 亿美元,挑战 AWS 的 AI 原生云基础设施
云平台 Railway 完成 1 亿美元 B 轮融资,旨在通过 AI 原生架构解决传统云基础设施的局限性。
Claude Code costs up to $200 a month. Goose does the same thing for free.
Claude Code 每月收费 200 美元,Goose 提供免费替代方案
Anthropic 的 Claude Code 收费较高,引发了开发者社区的“叛乱”,而 Goose 等免费工具正迅速崛起。
Listen Labs raises $69M after viral billboard hiring stunt to scale AI customer interviews
Listen Labs 融资 6900 万美元,此前曾通过病毒式广告牌招聘
Listen Labs 通过在旧金山投放包含 AI Token 的广告牌成功吸引人才,并完成了 6900 万美元融资。
Salesforce rolls out new Slackbot AI agent as it battles Microsoft and Google in workplace AI
Salesforce 推出全新 Slackbot AI 代理,角逐办公 AI 市场
Salesforce 重构了 Slackbot,使其从简单的通知工具转变为能够处理企业数据和执行任务的 AI 代理。
Anthropic launches Cowork, a Claude Desktop agent that works in your files — no coding required
Anthropic 发布 Cowork,无需编程即可处理文件的 Claude 桌面代理
Cowork 扩展了 Claude Code 的能力,使非技术用户也能通过 AI 代理处理本地文件。
Nous Research’s NousCoder-14B is an open-source coding model landing right in the Claude Code moment
Nous Research 发布开源编程模型 NousCoder-14B
Nous Research 推出了 NousCoder-14B,该模型在编程任务上表现出色,且训练成本极低,旨在与 Claude Code 等