俄罗斯下尼诺夫哥罗德大学研究者开发出AI学术论文质量检查系统,能识别摘要和结论中的无根据信息和模糊代词。测试显示不同AI模型在特定任务中表现差异显著,为学术写作质量控制提供新工具。
中科大团队推出深度研究智能体评测基准DeepResearch Bench,包含100个跨22领域的博士级研究任务,创新性地设计了RACE和FACT双重评估框架,分别评判AI生成报告质量和信息收集能力。测试显示谷歌Gemini表现最佳,该研究为AI研究助手行业建立了首个科学统一的评估标准。
中科大与Metastone公司合作提出"归因接地"框架,通过分析真实指令的产生机制来大规模合成高质量训练数据。该方法将指令归因于文档、用户和动机三要素,构建了100万条指令的SynthQuestions数据集。实验显示,用该数据集训练的AI模型性能显著提升,证明了质量胜过数量的重要性,为解决AI训练数据稀缺问题提供了新思路。
伦敦大学学院研究团队开发的NOWAIT方法通过阻止AI生成"等等"、"嗯"等思考词汇,在保持准确性的同时将AI输出长度减少27%-51%。该方法无需重新训练模型,可直接应用于现有AI系统,为提高AI推理效率提供了简单有效的解决方案。
Kong Research发布的2025年企业大语言模型采用报告基于550名IT领导者调研,揭示了企业生成式AI从谨慎探索转向战略必需的十大趋势:投资大幅增长,72%企业预计支出上涨;谷歌以69%使用率领先OpenAI;企业偏好付费解决方案;安全隐私仍是主要障碍;国际供应商获得认可;混合策略兴起;客户支持和开发者生产力成主要应用场景;开源模型受青睐;成本仍是关键障碍;82%企业对AI影响持乐观态度。
GenLayer启动首个激励测试网Asimov,推出智能区块链基础设施。该平台结合AI模型和区块链技术,通过大语言模型验证器处理主观决策,为AI代理时代构建去中心化法律基础设施。同时发布Rally营销协议,利用AI自动评估社交媒体内容并分发奖励,品牌可设定规则让系统自主管理影响者营销活动,大幅降低运营成本并提高透明度。
PPG副总裁兼首席信息官Bhaskar Ramachandran正在领导一项多方面的转型战略,通过云技术和AI推动创新、客户增长和新能力建设。他采用"云端唯一"而非"云优先"策略,目前已实现97%的云迁移率。PPG利用AI优化涂料配方研发和质量控制,每年投入7亿美元研发资金。在生成式AI应用中,公司花费8个月时间训练IT服务台聊天机器人。
制药行业的GenAI热潮正从早期试验走向务实应用。通用GenAI工具在精准度要求极高的生命科学领域遇到瓶颈,需要转向领域专用的智能助手。企业面临的真正挑战不是算法优化,而是系统集成、治理框架建设和投资回报率证明。成功的关键在于构建团队AI应用能力,建立支持创新的治理体系,以及将GenAI深度嵌入现有工作流程。未来AI智能体的兴起将进一步重塑制药企业运营模式。
斯坦福和魁北克研究团队首创"超新星事件数据集",通过让AI分析历史事件和科学发现来测试其"性格"。研究发现不同AI模型确实表现出独特而稳定的思维偏好:有些注重成就结果,有些关注情感关系,有些偏向综合分析。这项突破性研究为AI评估开辟了新方向,对改善人机协作和AI工具选择具有重要意义。
威斯康星大学研究团队提出"生成-筛选-排序"策略,通过结合快速筛选器和智能奖励模型,在AI代码验证中实现了11.65倍速度提升,准确率仅下降8.33%。该方法先用弱验证器移除明显错误代码,再用神经网络模型精确排序,有效解决了传统方法在速度与准确性之间的两难选择,为实用化AI编程助手铺平了道路。
约翰霍普金斯大学研究团队发现,即使给AI模型提供近乎完美的外部反馈,它们仍然无法完全吸收并达到理论最佳表现,这种现象被称为"反馈摩擦"。研究通过九项不同任务测试了多个先进AI模型,发现所有模型都存在这一局限性,且主要原因是模型的反馈抗拒而非反馈质量问题,为AI自我改进研究指明了新方向。
哈工大研究团队开发出革命性AI智能体Mirage-1,首次实现了像人类一样的长期规划和跨应用操作能力。该系统通过分层多模态技能学习和技能增强搜索算法,在Android和网页环境测试中分别取得32%、19%、15%和79%的性能提升,为AI助手的实用化发展奠定了重要基础。
职场正在经历一场悄然的变革。最新盖洛普研究显示,虽然算法工具越来越普及,27%的员工经常使用AI工具,但员工对与AI系统协作的准备度却在下降。欧盟AI法案强调透明度,要求用户了解何时与AI交互。研究提出"双重素养"概念,即同时具备人类和算法领域的流利度。成功的人机协作需要信任校准,在过度依赖和充分利用AI能力之间找到平衡。组织文化需要培养好奇心、同理心、创造力和勇气四种品质,以实现有意识的人机协作。
智能体AI具备推理、适应和自主行动能力,能够以机器速度运行,有望彻底改变企业维护数字韧性的方式。它结合了大语言模型的对话分析体验和智能体框架的任务执行自动化,帮助IT团队从被动救火模式转向主动规划模式。智能体AI可瞬间定位根本原因、预防中断和停机、提供实时洞察并优化人力资源配置,为企业数字生态系统的安全和可靠性能交付提供全新解决方案。
凯捷研究院调研显示,尽管AI在自动化重复性业务任务方面带来显著成本节约,但应用场景相对简单。调研涵盖1607名来自年收入超10亿美元企业的高管,发现AI可降低客户运营成本40%、人员运营成本26%。然而,四分之三的高管仍偏好专有AI模型,其中43%选择超大规模云服务商产品。尽管开源模型如DeepSeek能实现11倍计算成本降低,企业领导者仍因技术专业性要求、安全风险和社区支持等因素,对开源AI方案保持谨慎态度。
加拿大密码管理公司1Password与亚马逊云服务AWS达成战略合作协议,专注为人工智能和云原生环境提供企业级安全工具。该合作帮助1Password从消费级密码管理器转型为企业安全平台,目前服务财富100强中三分之一的公司。双方推出新的AWS密钥管理器集成功能,解决AI代理、非托管设备和未授权应用带来的安全盲点问题,通过扩展访问管理平台为混合和AI驱动环境提供全面的访问安全解决方案。
知名AI图像生成公司Midjourney发布备受期待的AI视频生成模型V1。该模型可将用户上传的图像转换为四段5秒视频,仅通过Discord提供服务。V1与OpenAI的Sora、Runway的Gen 4等产品竞争,但更专注创意应用而非商业用途。公司计划未来开发3D渲染和实时AI模型,最终目标是创建实时开放世界模拟系统。视频生成费用为图像生成的8倍,最低订阅计划为每月10美元。
谷歌在美国地区的iOS和Android应用中推出了AI搜索语音功能Search Live。用户需在实验室模式中开启AI功能,即可通过语音与搜索进行对话交流。该功能基于定制版Gemini驱动,支持连续语音问答和文本转换。谷歌称这适合用户在移动或多任务处理时使用。未来几个月还将支持实时图像识别和解答功能。不过此功能可能影响原始信息源网站的访问流量。
浙江大学团队提出CanDist框架,让AI在数据标注时先提供多个候选答案而非单一答案,再通过师生框架筛选最优标签。该方法受心理学"模糊厌恶"启发,在六个文本分类任务上表现优异,相比传统方法平均提升18-27%准确率,为AI数据标注提供了更智能可靠的解决方案。
微软联合多所知名高校开发了SwS框架,让AI模型能够自主识别学习弱点并生成针对性练习题进行自我改进。该方法在数学推理任务上取得显著效果,7B和32B模型平均性能分别提升10%和7.7%。通过"弱点诊断-针对性出题-强化训练"的三步流程,AI首次实现了真正意义上的自我反思式学习,不依赖外部知识灌输即可持续优化自身能力,为人工智能的自主学习开辟了新道路。