英特尔重返盈利并实现营收增长,第三季度营收达137亿美元,净利润41亿美元。尽管数据中心产品销售下降1%,代工业务营收减少4%,但公司表示AI需求将推动其代工业务获得客户并提升数据中心CPU业务。英特尔正推进18A工艺,并计划推出专为推理优化的GPU。管理层认为随着AI基础设施建设加速,服务器CPU市场将持续增长。
OpenAI最新发布了一系列ChatGPT工作效率提升提示模板包,涵盖撰写专业邮件、会议议程制定、根本原因分析等商务场景。这些现成模板旨在帮助更多用户认识到生成式AI在工作中的实用价值。提示工程师应关注这些模板,既可直接使用也可用于提升技能。使用时需注意隐私安全,选择合适的AI平台,并采用交互式对话方式获得更好效果。用户还应要求AI解释推理过程,仔细检查输出内容避免错误和幻觉问题。
Forrester预测,2026年将有25%的CIO被要求拯救组织内业务主导的失败AI项目。许多组织采用自下而上的AI采用方式,业务团队在缺乏IT深度参与下启动项目,低估了技术工作需求。专家建议从项目开始就让IT领导参与,建立包含IT和业务领导的项目启动团队,确保适当的治理和数据管理。目前仅39%的AI决策者认为CIO主导技术策略,这一比例预计将翻倍。
美国认知科学研究院团队首次成功将进化策略扩展到数十亿参数的大语言模型微调,在多项测试中全面超越传统强化学习方法。该技术仅需20%的训练样本就能达到同等效果,且表现更稳定,为AI训练开辟了全新路径。
纽约大学等机构联合开发的ThermalGen系统能够将普通彩色照片智能转换为对应的热成像图片,解决了热成像数据稀缺昂贵的难题。该系统采用创新的流匹配生成模型和风格解耦机制,能适应从卫星到地面的多种拍摄场景,在各类测试中表现优异。研究团队还贡献了三个大规模新数据集,并计划开源全部技术资源,为搜救、建筑检测、自动驾驶等领域提供强有力的技术支撑。
阿里巴巴团队联合多所知名高校开发出革命性AI训练框架Socratic-Zero,该系统模拟苏格拉底教学法,通过三个AI角色协作进化实现自主学习。仅从100道数学题开始,系统就培养出超越GPT-5等顶级商业模型的数学推理能力,在七项基准测试中平均提升20.2个百分点,展示了"以小博大"的惊人效果,为AI发展开辟了全新路径。
普渡大学研究团队开发出TENET系统,将测试驱动开发引入AI代码生成领域。该系统通过智能筛选关键测试用例、使用专门工具收集代码库信息、并采用反思式改进流程,让AI像程序员一样先写测试再写代码。在两个重要基准测试中,TENET的成功率分别达到69.08%和81.77%,比最佳竞争对手高出9.49和2.17个百分点,展现了测试驱动方法在AI辅助软件开发中的巨大潜力。
这项来自伊利诺伊大学香槟分校的研究首次系统探索了AI模型的组合创造力规律。研究发现AI创造力存在最优的深度宽度平衡点,并揭示了新颖性与实用性之间的根本权衡关系。这种权衡即使在大规模模型中也持续存在,为理解AI创造力局限性和"构思执行鸿沟"现象提供了重要洞察,对未来AI创造性系统的设计具有指导意义。
北卡罗来纳大学研究团队通过大量实验发现,大语言模型缺乏准确的自我认知能力,无法可靠评估自身回答的正确性。他们提出通用正确性模型,通过学习多个AI模型的历史表现来预测回答可靠性,准确率比传统自我评估方法提升2.22%。研究还发现回答表述方式和世界知识对正确性预测具有重要影响,为构建更可靠的AI系统提供了实用技术路径。
Meta AI研究院联合约翰斯·霍普金斯大学开发的RLHI技术,让AI能从真实用户对话中学习成长,而非依赖专家标注数据。该技术通过用户引导重写和个性化奖励系统,实现因材施教式的AI训练。实验显示个性化能力提升24.3%,推理能力平均提升5.3%,为AI发展指明了更人性化的方向。
威斯康星大学麦迪逊分校研究团队创建了首个AI训练数据清洗方法评估基准PrefCleanBench,系统比较了13种数据清洗技术。研究发现删除低质量数据比修正错误标签更有效,多模型投票方法表现最佳,最优数据删除比例为20-30%。该研究为提升AI安全性和可靠性提供了重要技术基础。
威斯康星大学研究团队开发了LUMINA系统,专门检测AI在回答问题时的"撒谎"行为。该系统发现AI有时会忽视提供的参考资料,固执地依赖内部知识生成不准确回答。LUMINA通过监测AI对外部文档和内部知识的依赖程度来识别这种行为,在多个测试中达到90%以上的准确率,比以往方法提升13%,为构建更可信的AI系统提供了重要工具。
这项由法国CentraleSupélec大学领导的研究通过严格控制的实验,系统比较了AI的推理训练与传统训练方式。研究发现推理训练在数学、开放式任务中效果显著,但需要70亿参数以上模型才能充分发挥优势,且成本增加明显。研究为AI开发者提供了明确的应用指导,有助于根据具体场景选择最优训练策略。
这项由OPPO等机构完成的研究首次建立了评估AI研究助手个性化能力的标准基准。研究团队构建了250个真实用户场景,开发了PQR三维评价框架,测试发现开源系统个性化能力更强,用户信息越详细AI表现越好,为推动AI从标准化服务向个性化伙伴转变提供了重要参考。
浙江大学和阿里巴巴集团联合开发的DATAMIND系统,通过创新的数据合成和训练方法,让AI具备了专业数据分析师的能力。该系统使用12,000个高质量训练样本,采用动态权重调整的混合训练策略,最终的DATAMIND-14B模型在多项测试中超越了GPT-5等商业模型,平均得分达71.16%。这项开源成果大大降低了数据分析的技术门槛,让普通用户也能获得专业级的数据洞察能力。
复旦大学团队针对掩码扩散语言模型提出三项关键技术:EOS早期拒绝解决句号陷阱问题,渐进式步长调度器将解码步骤从L/2降至log?L,一致性轨迹强化学习确保训练与实际运行的一致性。研究发现规划任务更适合并行解码而数学任务偏好顺序解码,为AI系统的任务特定优化提供新思路。
上海AI实验室研究团队开发出具备推理能力的科学答案验证模型SCI-Verifier,解决了AI无法准确验证科学答案等价形式的关键问题。该模型覆盖数学、物理、化学、生物五大领域,验证准确率达86.28%,与GPT-5相当。通过构建跨学科测试平台和两阶段训练策略,为AI科学应用的可靠性验证提供了重要突破,有望广泛应用于教育、科研和工业质控等领域。
香港科技大学团队通过DAFNYCOMP基准测试发现,当前最先进的AI模型在编写单个功能时表现优秀(95.67%语法正确率),但在需要多个功能协调工作的复杂程序中却表现糟糕(仅3.69%验证成功率)。研究揭示了AI在组合推理方面的三大缺陷,为理解AI能力边界提供了重要见解。
微软在Edge浏览器中推出增强版Copilot模式,提供更强大的AI代理功能,目前在美国进行限量预览。该模式包含Actions和Journeys两大功能:Actions让浏览器能代表用户执行任务,如语音控制打开网页或查找文章特定内容;Journeys则记住用户浏览历史,帮助用户继续之前的研究任务。此举正值AI浏览器竞争加剧,OpenAI推出ChatGPT Atlas、Perplexity发布Comet、谷歌集成Gemini到Chrome。目前Chrome占据71%市场份额,Edge仅占4.67%。
IBM正通过收购红帽和HashiCorp、为Power和z系统增加AI功能等方式,构建盈利能力强的AI产品服务组合。公司拥有超10万企业客户,将为其提供安全、熟悉的AI集成解决方案。IBM第三季度营收163.3亿美元,同比增长9.1%,净利润17.4亿美元。基础设施业务受益于Power11和z17升级周期,销售额增长17%。GenAI咨询订单增加15亿美元,占咨询积压订单的22%。