杜克大学和Adobe联合研究团队首次系统性揭示了"语音推理鸿沟"现象:AI在语音交互时推理能力显著下降。通过VERA评测体系对12个主流语音AI测试发现,复杂数学任务中文字AI准确率74.8%而语音AI仅6.1%。研究表明这是语音实时性与深度推理需求间的根本冲突,为未来语音AI架构创新指明方向。
Adobe研究院联合多所高校提出AWM算法,首次发现主流强化学习方法DDPO存在隐藏的噪声问题,导致训练效率低下。AWM通过统一预训练和强化学习的目标函数,仅调整样本权重,在保持生成质量的同时实现8-24倍训练加速。该算法在Stable Diffusion和FLUX等模型上验证有效,大幅降低了AI图像生成的训练成本和时间门槛。
苹果公司研究团队提出SALT方法,通过"冻结教师"策略革新视频AI训练。该方法将训练分为两阶段:先训练教师模型后冻结,再用固定教师指导学生学习。相比传统V-JEPA同时训练师生的方式,SALT不仅性能更优,计算效率也显著提升,并发现"弱教师强学生"现象,为视频理解AI发展提供新思路。
华盛顿大学与Adobe联合开发的PhotoEye系统实现了AI美学视觉理解的重大突破。该系统通过分析45万张照片和260万条专业摄影师评论,结合多视角融合技术,能够像专业摄影师一样评价照片的构图、光线、色彩等美学要素,在专业测试中达到73.92%的准确率。
这项研究首次构建了专门评估AI传记推理能力的综合框架ADAM,包含400万人的多语言传记数据库、基于认知科学的六层次评估体系和检索增强生成系统。研究发现AI存在显著的知名度偏差,对著名人物的准确率远高于普通人物,检索增强技术能大幅改善这一问题。该框架为开发更准确、公平的AI系统提供了重要工具。
北京大学研究团队针对AI推理训练中的核心难题,开发出GRPO-MA算法,通过让模型为每个思维过程生成多个答案来提升评估准确性。该方法解决了传统GRPO算法中思维与答案不匹配、样本稀缺、评估不稳定等关键问题,在数学、编程、视觉理解等多种任务上都显示出显著优势,特别是在困难的机器人操作任务中成功率提升近三倍,为构建更可靠的AI推理系统提供了重要技术支撑。
OpenAI发布"企业知识"功能,为ChatGPT商业版、企业版和教育版用户提供连接组织数据的能力。该功能集成Slack、SharePoint、Google Drive、Teams和Outlook等应用,但不包含OneDrive。用户需单独验证每个连接器,数据经过加密且不用于训练。与微软365 Copilot的30美元月费相比,ChatGPT商业版仅需25美元,在品牌认知度和价格方面具有竞争优势。
加州大学伯克利分校研究团队利用OpenEvolve开源工具,成功将专家并行负载均衡算法性能提升5倍。该算法用于大型语言模型中将令牌路由到专门的专家模块。研究人员通过AI驱动的系统研究方法,让AI模型迭代生成、评估和优化解决方案,仅花费不到10美元和5小时就实现了显著性能提升。研究表明AI在算法设计中的巨大潜力,未来有望广泛应用于系统性能优化领域。
OpenAI Sora负责人Bill Peebles在X平台预告了视频应用的重大更新。三项新功能包括:角色客串功能将很快推出,界面将实时显示热门客串内容;视频编辑功能首先支持多片段拼接,更强大的编辑工具即将到来;频道/群组功能让用户与朋友分享内容,支持体育俱乐部、大学、公司等特定群体。此外还将优化应用性能、减少审核限制,Android版本也即将发布。
科学家正利用人工智能和大语言模型推进长寿研究。研究人员在表观遗传编程方面取得显著进展,通过甲基化调控与衰老相关的基因。AI能够分析海量数据,识别长寿模式并支持百岁老人研究。尽管面临挑战,专家认为衰老是可调节的生物过程,针对衰老过程的干预比单独治疗疾病更有效。
本周,谷歌利用其Willow芯片实现了比传统计算机芯片快13000倍的计算速度,这一成果已发表在《自然》杂志上。与以往不同的是,这些计算可直接应用于实际问题,如预测化学结构用于药物发现。同时,量子计算公司IonQ宣布实现了99.99%的双量子比特门保真度,错误率仅为0.01%,为量子计算机解决更复杂问题铺平了道路。
曾经主导云计算市场的亚马逊AWS正面临严峻挑战。周一遭遇史上最严重故障之一,周四谷歌宣布向Anthropic提供百万AI芯片,进一步削弱AWS地位。在AI浪潮中,AWS被认为落后于微软等竞争对手,市场份额从2018年的近50%降至38%。内部官僚主义拖慢决策速度,AI产品发展缓慢,对初创企业吸引力下降。尽管仍是市场领导者,但AWS正努力重新夺回主动权。
研究人员提出一种颠覆传统的AI设计思路:将输入文本先转换为图像,再送入AI处理,而非直接使用纯文本。这种方法基于标记化压缩的需求,因为当前大语言模型受限于标记数量限制。实验显示,通过图像压缩可实现10倍压缩率,精度达96%。虽然这种方法看似反直觉,但在处理多语言文本和提高标记效率方面展现潜力,为突破AI内存限制提供新思路。
三星Galaxy XR头显是两家科技巨头合作的首个阶段,下一步将推出适合日常佩戴的智能眼镜。Galaxy XR搭载的Gemini AI能够"看到"用户所见,包括真实世界和虚拟屏幕内容。两公司正与Warby Parker和Gentle Monster合作开发AI眼镜,将与Meta的Ray-Ban产品竞争。未来智能眼镜将通过手机提供算力支持,并与手表、戒指等可穿戴设备连接,重点关注健身和健康功能。
人工智能正在重塑世界,其最重要的变化发生在幕后。OpenAI、英伟达、AMD、博通和CoreWeave等主导企业正在构建一个新的金融体系,投资、基础设施和需求在紧密循环中流转。英伟达投资OpenAI1000亿美元,换取数据中心建设承诺;OpenAI与AMD达成芯片供应协议并获得股权选择权;与博通合作开发定制AI加速器;与CoreWeave签署65亿美元云基础设施合同。这种循环经济模式为参与者带来优势,但也增加了复杂性和准入壁垒。
越南数据中心行业正吸引全球投资者关注,多个重大项目表明该国可能很快成为东南亚的重要参与者。三星C&T与越南CMC公司宣布在胡志明市投资13亿美元建设大型数据中心。谷歌也考虑在胡志明市附近建设超大规模设施。尽管越南目前容量仅51MW,远低于新加坡的1GW以上,但其低能源成本、可再生能源获取和9700万数字化消费者的优势正吸引全球企业关注。
微软发布新版Copilot人工智能助手,支持最多32人同时参与聊天会话的Groups功能,并新增连接器可访问OneDrive、Outlook、Gmail等多项服务。助手记忆功能得到增强,可保存用户信息供未来使用。界面新增名为Mico的AI角色,并提供"真实对话"模式生成更机智回应。医疗研究功能也得到改进,可基于哈佛健康等可靠来源提供答案。同时推出内置于Edge浏览器的Copilot Actions功能,可自动执行退订邮件、预订餐厅等任务。
谷歌与AI初创公司Anthropic宣布达成一项价值"数百亿美元"的重大合作协议,Anthropic将获得多达100万个谷歌张量处理单元(TPU)的使用权。该协议旨在满足Anthropic激增的客户需求,支持其进行更全面的测试、对齐研究和大规模负责任部署。Anthropic目前服务超过30万企业客户,大客户数量在过去一年增长近7倍,计划到2026年实现高达260亿美元的年收入。
EA宣布与Stable Diffusion背后的Stability AI建立合作伙伴关系,共同开发变革性AI模型、工具和工作流程。合作重点是生成游戏纹理和资产,创建物理渲染材料,并通过AI预览3D环境。EA技术艺术总监称这些为"更智能的画笔",旨在为创意人员提供更好的表达工具,在保持质量的同时加快游戏开发速度。
英特尔重返盈利并实现营收增长,第三季度营收达137亿美元,净利润41亿美元。尽管数据中心产品销售下降1%,代工业务营收减少4%,但公司表示AI需求将推动其代工业务获得客户并提升数据中心CPU业务。英特尔正推进18A工艺,并计划推出专为推理优化的GPU。管理层认为随着AI基础设施建设加速,服务器CPU市场将持续增长。