首页资讯

一周AI大事:阿里Qwen 3小更新秀大肌肉 AI教父辛顿上海最新警告

时间:2025-07-28 20:42 作者:三娘丫丫

一周AI大事:阿里Qwen 3小更新秀大肌肉 AI教父辛顿上海最新警告

本周焦点:AI模型攻克奥数金牌,Qwen3系列重磅更新,谷歌与GitHub工具发布潮

一、 重磅新闻:AI斩获IMO金牌,人类数学最后的堡垒被攻克

新闻:谷歌旗下人工智能实验室DeepMind宣布,其AI模型Gemini Deep Think在全球顶级数学竞赛——国际数学奥林匹克(IMO)中,以35分(满分42分)的成绩正式斩获金牌。此前不久,OpenAI也宣布其AI推理模型在同一赛事中获得了同样的金牌成绩。有趣的是,两家公司的模型解决了六道题目中完全相同的五道题。此外,字节跳动的Seed-Prover模型也获得了银牌,成功解出四题。


值得注意的是,OpenAI和谷歌的AI模型均为通用推理模型,其输入输出皆为自然语言,并未调用任何专用模型或外部工具。这意味着,这些模型中使用的技术具备应用到其他领域的巨大潜力。

锐评:奥数金牌都被AI拿了,以后鸡娃不如直接鸡代码。

二、 重磅工具:Qwen3系列更新——阿里的“小升级”与“大肌肉”

新闻:阿里巴巴的通义千问(Qwen)团队发布了全新的开源生成式AI模型,其在推理和编程方面的性能已超越部分顶尖的闭源AI模型。基于Qwen3 2350亿参数的混合专家(MoE)架构,团队针对特定任务推出了独立的指令调优版本(Qwen3-235B-A22B-Instruct-2507)和思维链版本(Qwen3-235B-A22B-Thinking-2507)。与此同时,团队还发布了全新的MoE架构编码智能体模型Qwen3-Coder-480B-A35B-Instruct,性能达到了业界顶尖水平(SOTA)。

升级后的Qwen3-235B-A22B-Instruct-2507支持256K token的上下文窗口,且没有“思考模式”带来的token开销。这款模型在非思考模式下的基准测试中,表现已超越Kimi-2、DeepSeek V3和Claude Opus 4等模型,例如在GPQA基准测试中的得分率达到77.5%,在BFCL函数调用基准上更是创下新的SOTA高分。这不仅证明Qwen3在非思考模式下的性能有巨大提升,也证明强大的AI能力并非必须依赖显性的“思考模式”。

Qwen3-235B-A22B-Thinking-2507在基础模型上增加了思考能力,其基准测试结果极其出色,在某些测试中甚至优于Gemini 2.5 Pro和GPT o4 mini。例如,这款模型在AIME25上的得分率达到92.3%,在LiveCodeBench上达到74%。Qwen3-235B-A22B-Thinking-2507不仅是一款SOTA级别的AI推理模型,更以仅220亿的活跃参数,成为开源AI模型中的顶尖之作。

通义千问团队还发布了Qwen3-Coder-480B-A35B——一款专为智能体式代码生成设计的MoE模型,总参数量4800亿,活跃参数量350亿。模型利用规模高达7.5万亿token的数据(其中70%为代码)训练而成,在SWE-bench基准测试中创下69.6%的新纪录。Qwen3-Coder通过YaRN扩展支持最高100万token的上下文,以明显更低成本实现与Claude 4 Sonnet相媲美的性能。


尽管阿里官方称之为一次“小幅”更新,但这些改进无疑使Qwen3成为目前最强的开源AI模型之一。阿里通义千问团队负责人林俊旸在ThursdAI播客中揭示了其核心打法,他们“在超过20000个并行沙盒的环境中进行强化学习”,通过持续的“代码-编写-测试-学习”循环,实现了规模化的能力进化。

Qwen3系列模型均为采用Apache 2.0许可的开源模型,用户可通过通义千问聊天工具和各大开源AI模型平台获取,也可从HuggingFace下载。

通义千问团队还发布了Qwen Code。这个从Gemini CLI复刻而来的命令行(CLI)工具和编程智能体便于用户调用阿里最新的编程模型,可通过GitHub获取。

锐评:阿里太过“凡尔赛”,这是在暗示别家的大版本还不如自家的小补丁?

三、 AI技术与产品发布——谷歌领衔“工具雨”

1. 谷歌推出Opal:这款出自谷歌实验室的AI驱动“氛围感编程”(vibe-coding)工具,允许用户通过简单的自然语言和可视化编辑,将提示词、模型和其他工具组合在一起,轻松创建并分享自己的迷你AI应用。

锐评:好的程序员不仅要懂代码,还得懂情调。

2. 谷歌正式发布Gemini 2.5 Flash-Lite:这是谷歌旗下最具性价比、速度最快的Gemini 2.5 AI模型,相比2.0 Flash速度更快、成本更低,同时在编程、数学和多模态理解方面表现更优。

锐评:主打一个“加量不加价”,谷歌模型也开始走薄利多销的亲民路线了。

3. 谷歌推出AI新功能Web Guide:作为Search Labs的实验性项目,Web Guide能利用Gemini对用户的复杂查询进行分类,并对相关网页进行分组,从而更好地组织搜索结果。

锐评:信息选择困难症的福音。

4. 谷歌推出AI虚拟试衣功能:该功能允许美国用户在购物平台上传自己照片来虚拟试穿衣服,在原有功能基础上升级了个性化体验。

锐评:提前预演网购翻车现场。

5. 谷歌更新NotebookLM技术:新增的“专家笔记”功能允许用户用自己的笔记和文档训练AI,从而实现更强大、更符合上下文情境的对话。

锐评:私人定制的AI“懂王”来了。

6. 英伟达更新Nemotron推理模型:这个名为OpenReasoning-Nemotron系列的小型AI推理模型包含15亿到320亿参数,基于Qwen2.5开发,并从DeepSeek R1 0528中蒸馏而来。

锐评:英伟达上演了一出AI版“站在巨人的肩膀上”。

7. 英伟达将Kimi-K2-Instruct加入Nvidia NIM微服务:此举更便于开发者在其应用中调用强大的K2 MoE模型。

锐评:让天下没有难调用的AI。

8. Boson AI开源文本转语音模型Higgs Audio v2:这款模型能实时生成富有表现力的语音,支持零样本多说话人对话、语音克隆以及“哼唱转歌声”。Higgs Audio v2整合了30亿参数的Llama 3.2核心模型和22亿参数的音频模型,具备深厚的语言和声学理解能力,可在单张A100 GPU上高效运行。

锐评:连哼唱都能转成歌,五音不全也能玩音乐。

9. GitHub Spark开放公测:这款通过单次提示即可创建Web应用的工具,已向Copilot订阅用户开放。有开发者甚至用Spark成功地对Spark本身进行了一番逆向工程,上演了一出现实版的“我分析我自己”。

锐评:一句话生成应用的时代来了。

10. Anthropic在移动端推出新交互方式:新功能允许用户直接通过手机创建交互式工具、浏览作品集并分享工作成果。

锐评:手机不止能刷剧,还能搞AI创作。

11. LlamaIndex发布全开源智能体:该智能体可自动化响应“需求建议书”(RFP),处理文档提取、分析和报告生成等繁琐工作。

锐评:未来连“写材料”的活儿都要被AI抢光了。

12. 腾讯正式发布并全面开源混元3D世界模型1.0:这是业界首个开源的可沉浸漫游、可交互、可仿真的世界生成模型。过去需要专业团队数周才能搭建的3D虚拟世界,现在只需一句文字或一张图片,几分钟内即可生成。

锐评:分分钟建出个元宇宙。

13. 阶跃星辰发布Step-3开源多模态推理模型:公司方面称,这款大模型效率高、成本低,对国产算力更加友好,推理效率最高可达DeepSeek R1的300%。

锐评:国产算力友好是亮点。

14. 荣耀发布自研多模态感知大模型MagicGUI:这款70亿参数的大模型,在荣耀Magic V5常用场景用机操控中的准确率达到91.5%,表现已比肩SOTA模型。

锐评:苹果Siri也要捏把汗。

四、 AI研究新动向——“想太久”会犯错,小模型能破局

1. Anthropic发现“反向缩放效应”:其最新研究论文《测试时计算的反向缩放效应》指出,在模型推理时,计算量并非越多越好。Anthropic在Opus 4的基准测试中观察到,延长推理时间反而会导致准确率下降,因为增加计算可能会“强化有问题的推理模式”。

锐评:模型“想太久”反而会“想岔路”,大力不一定能出奇迹,也可能出悲剧。

2. Sapient Intelligence发布分层推理模型(HRM):正如其论文《分层推理模型》(Hierarchical Reasoning Model)中所述,这是一种新颖的循环架构,能显著提升计算深度,同时保持训练稳定。一个仅有2700万参数的微型HRM,也能在解决复杂数独等特定任务中实现复杂推理。

锐评:证明了AI智能不在于“体格”大,而在于“脑回路”清奇。

3. 苹果提出多token预测新思路:其论文《你的大语言模型知道未来:多token预测潜力发掘》(Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential)展示了相关新想法,这些改进有望在不损失质量的情况下,将大语言模型的推理速度提升多达5倍。

锐评:让大模型学会“预判你的预判”。

五、 AI商业与政策——规则与资本齐飞

1. 中国发布《人工智能全球治理行动计划》:7月26日,该行动计划在2025世界人工智能大会上正式发表,包括13条主要内容,呼吁各方协力推进全球人工智能的健康发展与治理。


锐评:为人类服务的AI才是好AI。

2. 白宫发布《美国AI行动计划》:该计划提出90项建议,旨在通过加速AI进步与部署、确保美国的领导地位来“赢得AI竞赛”。计划将AI视为经济机遇和国家安全要务,包含90项建议:放松AI监管,简化数据中心及相关基础设施建设审批流程,建立AI测试设施,资助AI研究与人才培训,支持开源模型,在联邦政府全面推广AI应用,通过国防部等机构提供拨款和投资以刺激AI发展。硅谷普遍对这一计划表示欢迎,主要因为其在AI领域优先考虑发展而非约束,且制定过程采纳了硅谷的意见。

锐评:生怕在AI这场牌局里起得晚了,连牌都摸不着。

3. OpenAI与Oracle扩大数据中心合作:双方同意在美国将其“星门计划”(Stargate)数据中心的容量再扩充4.5吉瓦,总容量将超过5吉瓦。这一合作是对运行先进AI模型所需数据中心的重大投资。扩建预计将创造超过10万个建筑和运营岗位,位于得州阿比林的“星门计划”一期项目已经投入运营。

锐评:这是要用整座发电厂给AI当充电宝。

4. OpenAI设立5000万美元AI基金:该基金将用于支持非营利组织和社区组织利用AI应对教育、医疗等领域的关键挑战。

锐评:这点钱对OpenAI来说,格局略显小了。

5. Reka宣布获得1.1亿美元融资:投资方包括英伟达和Snowflake等知名企业。

锐评:融资不上亿都不好意思上新闻了。

6. 谷歌CEO桑德尔·皮查伊(Sundar Pichai )确认向OpenAI提供云资源:尽管OpenAI是谷歌搜索的最大竞争对手,但这笔交易为谷歌云服务带来了一位大客户,也使其来自AI公司的营收显著增长。

锐评:只要钱给够,情敌也能变战友。

7. Meta与AWS联合启动初创公司扶持计划:该计划旨在支持使用Llama模型构建AI应用的有潜力的早期初创公司。

锐评:“富爸爸”们开始为自家的AI生态圈招兵买马了。

8. Meta任命赵晟佳为超级智能实验室(MSL)首席科学家:赵晟佳曾是OpenAI研究员,为ChatGPT和GPT-4做出过关键贡献。


锐评:顶尖人才的流动,定义着AI行业的格局。

9. 特斯拉人形机器人产量远低目标:特斯拉计划2025年生产5000台“擎天柱”(Optimus)机器人,但目前仅生产了数百台。尽管如此,埃隆·马斯克现计划明年初开始生产Optimus 3,并在五年内实现“年产百万台”的宏伟目标。

锐评:老马的大饼年年画,今年特别多。

六、 AI观点:驯服还是消灭?AI安全的终极拷问

1. AI教父杰弗里·辛顿(Geoffrey Hinton)谈“AI威胁论”:辛顿在世界人工智能大会(WAIC)上发表主题演讲,并抛出了他认为最关键的问题:人类如何不被自己创造的智能体消灭。他强调,大模型一旦具备比人类更强的智能,仅靠“关掉它”并不能解决问题。他用了一个生动的比喻:“养老虎的唯一办法是,要么你把它训练得永远不攻击你,要么你把它干掉。” 他呼吁建立一个国际性的AI安全组织。

AI教父辛顿现身WAIC,称要训练AI不去消灭人类 (来源:财经网科技)

锐评:这只“老虎”现在还萌,但谁也保不准哪天它不想再吃猫粮了。

2. 萨姆·奥特曼(Sam Altman)警告AI心理治疗风险:奥特曼强调,用户与ChatGPT等AI进行的敏感对话并不享有法律上的保密特权,公司可能被强制要求披露相关内容。他还表达了对年轻人过度依赖AI的担忧,强调AI应辅助而非替代独立思考。

锐评:AI有风险,倾诉需谨慎。(辰辰)

Top

1、孩子厌学有时是一种自我保护,孩子厌学怎么办最有效的方法

2、伍戈:反内卷,反什么?,反内卷表情包

3、现在都反过来了,生活可以乱来,影视纯洁无瑕,现在生活可真是

小编推荐

当前文章:http://www.share.sichuan-zkha.cn/FWD/detail/crowbn.html

相关阅读

网友评论

我要评论

发表

取消

三娘丫丫