人工智能 关键字列表
大规模推理能力如何提升大语言模型的事实准确性:从思考长短与可靠性角度的实证研究

大规模推理能力如何提升大语言模型的事实准确性:从思考长短与可靠性角度的实证研究

这篇研究来自丹麦奥尔堡大学的团队,探讨了大语言模型的推理过程如何影响事实准确性。研究者通过从高级推理模型中提取思考轨迹,并用知识图谱增强这些轨迹,然后对不同规模的模型进行微调并在六个数据集上测试。结果表明,对小型模型而言,长推理过程显著提高事实准确性;而增加测试时计算资源(如并行采样或增加令牌预算)可使准确率提高2-8%。研究发现约2K令牌长度的推理效果最佳,为提升大语言模型事实准确性提供了新思路。

Qwen3:思考与非思考模式融合,多语言支持升级至119种语言的划时代大模型

Qwen3:思考与非思考模式融合,多语言支持升级至119种语言的划时代大模型

Qwen3是阿里巴巴Qwen团队发布的最新大语言模型系列,最大创新在于将"思考模式"和"非思考模式"融合到单一框架中,允许用户根据需求动态切换推理深度。模型规模从0.6B到235B不等,包括密集和混合专家架构,支持119种语言(较前代扩展90种),训练数据达36万亿词量。通过"思考预算"机制,用户可灵活控制推理深度与速度平衡。评估结果显示,Qwen3在代码生成、数学推理等任务上达到顶尖水平,且所有模型以Apache 2.0许可开放使用,推动AI社区共同发展。

阿里巴巴团队如何让AI学会"人间真情":全球最大偏好模型训练实验揭秘

阿里巴巴团队如何让AI学会"人间真情":全球最大偏好模型训练实验揭秘

阿里巴巴Qwen团队首次进行全球最大规模人类偏好建模实验,使用1500万真实偏好样本训练AI理解人类喜好。研究发现偏好建模存在类似语言模型的缩放规律,AI在识别错误信息方面能力稳步提升,但在主观偏好判断上表现复杂。该技术已集成到实际系统中,性能显著改善。

Bielik v3:波兰SpeakLeash团队打造的小身材大智慧AI语言模型,1.5B参数媲美数倍大小竞品

Bielik v3:波兰SpeakLeash团队打造的小身材大智慧AI语言模型,1.5B参数媲美数倍大小竞品

波兰SpeakLeash团队联合多家机构开发了Bielik v3系列AI语言模型,包含1.5B和4.5B参数版本,专门优化波兰语处理能力。该模型采用创新的小参数高效能设计,在多项波兰语基准测试中超越了参数量2-3倍的竞品模型。通过精心的数据筛选、自适应学习率和先进的训练策略,证明了小模型也能在特定语言领域达到卓越性能,为资源受限环境下的高质量AI语言服务提供了新的解决方案。

波兰语AI新突破:仅用110亿参数,竟能击败千亿级语言模型!SpeakLeash团队的Bielik 11B v2如何做到的?

波兰语AI新突破:仅用110亿参数,竟能击败千亿级语言模型!SpeakLeash团队的Bielik 11B v2如何做到的?

SpeakLeash团队联合波兰多所大学开发的Bielik 11B v2语言模型,仅用110亿参数就在多项测试中击败了参数量大2-6倍的模型。该模型专门针对波兰语优化,采用创新的深度上扩架构和智能训练技术,在波兰语理解、跨语言能力和数学推理等方面表现卓越,为非英语语言AI发展提供了新路径。

AI能否准确理解英国公共卫生指南?英国卫生安全局首创最大规模LLM健康知识基准测试

AI能否准确理解英国公共卫生指南?英国卫生安全局首创最大规模LLM健康知识基准测试

英国卫生安全局研究团队首次构建了包含8000多道题目的AI公共卫生知识评测基准PubHealthBench,测试24个AI模型对英国健康指南的掌握程度。结果显示最先进AI在选择题中正确率超90%,但自由作答时降至75%以下,且在面向公众的指南上表现优于专业医疗指南。

延世大学研究团队发布G-FOCUS:让AI像设计师一样评判网页界面说服力

延世大学研究团队发布G-FOCUS:让AI像设计师一样评判网页界面说服力

延世大学研究团队首次让AI具备专业设计师级别的网页说服力评判能力,开发出G-FOCUS智能评估系统和WISERUI-BENCH标准数据库。该技术通过目标导向的四步推理过程,能够像人类专家一样分析网页设计的用户说服效果,准确性达70%且显著减少评判偏见,为快速低成本的设计优化提供了科学可靠的AI辅助方案。

Capital One如何构建生产级多智能体AI工作流程来支持企业应用

Capital One如何构建生产级多智能体AI工作流程来支持企业应用

Capital One推出了生产级多智能体AI系统来增强购车体验。该系统包含四个协作的AI智能体:一个与客户沟通,一个基于业务规则创建行动计划,一个评估前两者的准确性,一个向用户解释和验证计划。系统设计时考虑了金融机构的严格要求,采用动态迭代方法,并融入了风险管理框架。技术上使用开源权重模型和NVIDIA推理堆栈。首个应用Chat Concierge已在汽车业务中部署,客户参与度提升达55%。

Graid基于Nvidia GPU的RAID卡技术突破及产品路线图

Graid基于Nvidia GPU的RAID卡技术突破及产品路线图

Graid公司专注于英伟达GPU驱动的RAID卡技术,推出包括企业级和工作站版本在内的SupremeRAID产品线。该公司2024年营收翻倍,出货约5000张卡片,预计2025年增长60%。产品路线图涵盖桌面简化版、AI版本、HPC版本等五个组件,支持NVMe RAID并提供企业级数据保护。AI版本支持GPUDirect直接传输,HPC版本针对BeeGFS等环境优化。

AI驱动数据产业整合潮流,但这不是全部真相

AI驱动数据产业整合潮流,但这不是全部真相

数据行业正面临重大变革,市场整合趋势明显。近期Databricks以10亿美元收购Neon、Salesforce以80亿美元收购Informatica等交易显示,更多并购即将到来。被收购公司虽规模不同,但都有共同点:买方希望通过收购技术促进企业AI采用。AI成功取决于优质数据访问,但收购ChatGPT前时代的公司能否真正推动当今AI采用仍存疑问。

亚马逊第100万台仓储机器人正式上岗,AI赋能更智能化

亚马逊第100万台仓储机器人正式上岗,AI赋能更智能化

亚马逊机器人部门宣布已部署超过一百万台仓储机器人,并推出DeepFleet人工智能系统。该系统如交通控制器般协调机器人运行,提高移动效率并避免拥堵。从2012年开始测试至今,这些机器人已成为亚马逊履行中心的主力,遍布300多个仓库。DeepFleet基于AWS构建,能实时重新规划机器人路径,将行进时间缩短约10%。亚马逊表示机器人创造了更多技术岗位而非取代人工。

企业领导者需要了解的开源与专有AI模型选择策略

企业领导者需要了解的开源与专有AI模型选择策略

企业在采用生成式人工智能时,需在开源模型与专有模型间做出选择。真正的开源AI包括模型架构、训练数据和权重,但完全开源的模型很少。多数企业会混合使用两种模型。对于银行等受监管行业,开源模型是唯一选择,因为数据不能离开本地。开源模型提供更大灵活性和深度定制,而专有模型在成本和延迟方面具有优势。随着开源模型性能提升,专有模型的财务可行性面临挑战。企业领导者应根据具体需求选择最适合的模型组合。

影子AI风险:大语言模型应用的治理挑战

影子AI风险:大语言模型应用的治理挑战

影子AI指员工在企业IT政策和数据治理控制之外私自使用未经授权的人工智能服务。研究显示,2024年企业生成式AI流量激增890%,与生成式AI相关的数据泄露事件增长一倍以上。开发人员为提高效率和缩短产品上市时间,常绕过AI安全防护措施,使用未经审查的开源大语言模型或AI代码生成工具,这可能导致知识产权泄露、系统安全漏洞和供应链完整性问题。专家建议采用统一平台方法,将AI治理和开发者工作流程整合到单一系统中。

欧洲核子研究中心的粒子物理数据处理技术访谈

欧洲核子研究中心的粒子物理数据处理技术访谈

欧洲核子研究中心(CERN)作为大型强子对撞机的所在地,已成为开放量子研究所三年试点阶段的基地。该中心高级顾问夏尔玛介绍,计算是CERN的三大支柱之一。中心需要将每秒4000万次碰撞的数据快速筛选至1000次,再缩减至100次,处理时间约为2.5毫秒。CERN依靠模式识别和机器学习处理实验产生的庞大数据集,通过仿真模型预测碰撞结果。该中心开发的白兔精密定时系统将应用于量子计算纠错技术。

英伟达用分层KV缓存和Dynamo引擎扩展大语言模型内存

英伟达用分层KV缓存和Dynamo引擎扩展大语言模型内存

英伟达通过Dynamo引擎实现分层KV缓存,将大语言模型的键值对存储从GPU高带宽内存扩展至CPU内存、直连SSD和网络存储。该技术解决了GPU内存不足时向量数据被驱逐需重新计算的问题,通过多层存储架构提升推理效率。Dynamo支持vLLM等推理引擎,具备分离服务、智能路由等四大功能。目前已有Cloudian、DDN、戴尔、HPE、NetApp、Pure Storage等多家存储厂商宣布支持该技术。

基于场景驱动的模拟测试无法保护我们免受通用AI和超级AI的威胁

基于场景驱动的模拟测试无法保护我们免受通用AI和超级AI的威胁

本文探讨了一种防范通用人工智能(AGI)和人工超级智能(ASI)存在性风险的方法:将它们置于计算机仿真世界中进行测试。虽然这种方法看似合理,但存在诸多挑战。AGI可能会隐藏恶意行为,或因被欺骗而转向恶意。此外,仿真环境可能无法完全模拟真实世界,导致测试结果不准确。构建高质量仿真系统的成本和技术难度也不容忽视。文章认为,仿真测试虽有价值,但并非万能解决方案。

AI在游戏中的表现暴露了其致命弱点

AI在游戏中的表现暴露了其致命弱点

尽管AI在围棋等复杂游戏中表现出色,但在简单的井字棋游戏中却屡屡失败。研究显示,AI代理在模拟商业环境中的表现同样令人失望,经常出现幻觉、欺骗和任务未完成等问题。游戏测试为评估AI能力提供了直观方式,帮助普通用户理解AI的真实水平。面对当前AI行业的过度宣传,通过游戏化测试揭示AI的实际局限性,对于防范AI泡沫具有重要意义。

ViStoryBench:一场可视化故事世界的大冒险——StepFun团队打造全面评估标准,帮你判断AI是否真懂讲故事

ViStoryBench:一场可视化故事世界的大冒险——StepFun团队打造全面评估标准,帮你判断AI是否真懂讲故事

ViStoryBench是一个全面的故事可视化评估基准,由StepFun团队打造,用于测试AI将文字故事转化为连贯图像序列的能力。它包含80个多样化故事和344个角色参考,评估包括角色一致性、提示遵循度等多个维度。研究测试了20多种方法,发现UNO在开源方法中表现最佳,而商业软件如豆包和GPT-4o在提示一致性方面表现突出。该基准为故事可视化研究提供了统一标准,推动这一领域的创新发展。

数据清洗与扩充让开源语音模型更强大:卡内基梅隆大学团队打造的OWSM v4如何超越工业级模型

数据清洗与扩充让开源语音模型更强大:卡内基梅隆大学团队打造的OWSM v4如何超越工业级模型

卡内基梅隆大学与本田研究所日本分部的研究团队通过数据扩充和清洗技术,打造了新一代开源语音模型OWSM v4。研究者们开发了一套三步数据清洗流程,从原始YODAS数据集中提取出166,000小时高质量语音数据,涵盖75种语言。基于此数据训练的OWSM v4模型系列在多语言语音识别、语言识别和翻译任务上大幅超越先前版本,甚至在多个场景中与工业级模型Whisper和MMS比肩。该研究证明,即使在学术资源有限的条件下,开源模型通过有效的数据清洗也能实现卓越性能。

从师到生:语言模型中的级联偏见——Google DeepMind揭示蒸馏过程中的偏见放大现象

从师到生:语言模型中的级联偏见——Google DeepMind揭示蒸馏过程中的偏见放大现象

该研究揭示了语言模型蒸馏过程中的严重安全隐患:教师模型中微小的偏见会在传递到学生模型时被显著放大。Google DeepMind和东北大学的研究团队发现,仅需在教师模型训练数据中注入0.25%的偏见样本,就能使学生模型在未见过的任务上表现出高达33.4%的偏见响应率,是教师模型的6倍。更令人担忧的是,现有防御机制如困惑度过滤、偏见检测器和自动评估系统均无法有效识别这些精心设计的偏见样本,为AI系统安全带来新的挑战。