离线智能,什么时候迎来 DeepSeek 时刻?
当云端模型高歌猛进时,我们如何实现真正的离线智能?
作者|Li Yuan
编辑|郑玄
过去两年,关于 AI 模型的故事,几乎都在围绕两个版本展开:无所不能的云,和充满想象的端。
曾经,一个被广泛描绘的行业蓝图是:随着轻量化模型能力的持续增强,AI 摆脱云端束缚,在每个人的设备上实现永不离线的贴身智能,似乎只是一个时间问题。
然而,喧嚣过后,一个尴尬的现实摆在眼前:不论是近期爆火的 AI 玩具,还是备受瞩目的 AI 眼镜,其核心交互和智能依然牢牢地系于云端。即使是算力更强的手机和 PC,真正实现了离线 AI 能力的,却依然凤毛麟角。
技术演示里,端侧模型看起来无所不能。但最后说好的离线智能,怎么还是离不开网络?
矛盾的一面,是用户对体验的极致渴求:即时响应不能等,隐私数据不想传,断网时刻不失联。而另一面,是端侧设备永远无法回避的「物理天花板」——有限的算力、功耗和内存,像一道无形的墙,残酷地阻隔了绝大多数高性能模型的落地。
更深层的矛盾,则在于商业的引力。对于手握最强模型的巨头而言,云端是彰显技术领导力的标杆,更是利润滚滚而来的收费站。当所有的目光和资源都聚焦于云端时,那个更苦、更累、商业回报更不明朗的端侧,自然成了被忽略的角落。
那么,那些真正致力于推动「离线智能」的少数派,他们到底在做什么?在今年的世界人工智能大会(WAIC)上,一家名为 RockAI 的公司给出了自己的答案。他们正走在一条少有人走的路上,并找到了破局的钥匙。
以「让每台设备都拥有专属智能」为使命,这支团队一头扎进底层技术,甚至大胆舍弃主流 Transformer 架构,硬是啃下了端侧部署这块被视为「不可能完成的任务」的硬骨头。早期,他们的模型就能完整跑在算力捉襟见肘的树莓派上——这块卡片大小的电脑向来是端侧部署的严苛试金石,大多数同类模型在它上面往往跑出几句话就卡住。
而在今年 WAIC 推出的 Yan 2.0 Preview 仅 30 亿参数,已经能做到多模态,并在本地实现真正的「记忆」:模型可动态调整权重,长期保留并更新用户偏好。
而这项「不可能完成的任务」的成果,也并未停留在实验室的演示阶段。量产订单已经从海内外市场发来,将技术实力迅速兑换为商业价值。
他们的故事或许能回答那个根本问题:当云端模型高歌猛进时,我们为什么还需要、以及如何才能实现真正的离线智能?
极客公园采访了 RockAI 的联合创始人邹佳思,与他们聊了聊 RockAI 背后的商业故事。
01
为什么我们还没有拥有永不下线的随身AI?
问:整个行业似乎都在为一个离线智能的未来而努力,苹果这样的巨头更是将此视为核心战略。可为什么从技术演示到消费者手中,这「最后一公里」却总是走不通?
邹佳思:大家都在谈离线智能、设备端的 AI,但理想和现实之间,横着两座几乎无法逾越的大山:一座是算力,另一座是功耗。
大模型想在设备上运行,需要很高的算力配置。目前很多行业内的 AI 公司,虽然也有参数比较小的模型,但是仍然需要算力更高的芯片才能跑上去。
比如我们的一个客户,想要在手机上配置离线的大模型,但是当时行业里其他大模型厂商提出的方案,几乎无一例外地要求必须使用高通最新的旗舰芯片以及 16G 以上的内存。但现实是,大多数智能设备,都不能具备这样的算力芯片。
这就是最残酷的算力鸿沟:你的AI技术再先进,如果只能满足少数顶配设备应用,那么就失去了普惠 AI 的意义。
另一座大山,则是功耗。
这个问题在手机上体现得淋漓尽致。现实中,手机厂商只要尝试部署大模型,设备的发热就非常严重,这几乎是所有基于传统 Transformer 架构模型的通病。几乎所有主流手机厂商都和我们交流过这个痛点。他们都想在下一代 AI 手机上实现突破,但又都被这堵功耗之墙挡住了去路。
为什么最后一公里走不通?
事实是,硬件的更新的节奏客观上很慢,很多设备多年前就卖出去了,当年的芯片、存储、麦克风、摄像头都不是为今天的大模型准备的,把 Transformer 往这些中低端算力上布,要么跑不起来,要么勉强跑效果差。
即便上游厂商推出新一代高端芯片,把它布置进新产品线往往要经历 6–12 个月;而产品真正卖爆、规模化出货并广泛普及通常还需要额外 1–2 年。这种节奏是客观物理现实,不可能被跳过。
问:您刚才提到了,无论是算力还是功耗,很多问题的根源都指向了目前主流的 Transformer 架构。Transformer 在云端证明了自己是当前最强的AI架构,为什么把它搬到端侧设备上,就水土不服了呢?
邹佳思:这个问题确实问到了在设备端运行大挑战的核心。Transformer 之所以强大,依赖于它革命性的注意力(Attention)机制。但问题恰恰也出在这里。
传统的 AI 模型像一个流水线工人,他处理信息是一个一个按顺序来的,记忆力有限,处理到后面就忘了前面。而 Transformer 就像一个拥有超能力的总指挥,他不是按顺序处理,而是让信息排成一个方阵,然后要求方阵里的每一个字,都要和其他所有的字握手一次,来计算彼此之间的关联度。
这种「全局握手」的能力,让 Transformer 拥有了超凡的理解能力。但在云端,你有无限的算力去支持这种计算。
但手机芯片(CPU/NPU)的设计,更像是刚才说的「流水线」,它擅长的是高速、顺序地执行任务。你突然让它去完成一个需要「全局握手」任务——每增加一个字,计算量就指数级暴增——它瞬间就不知所措了。
我们从一开始就关注到了这个问题。业界目前也有一些改进方案,像 Flash Attention、线性注意力等等。但我们的结论是,这些都只是在「指挥大厅」里做一些小修小补,没有从根本上改变「全局握手」这个高耗能的模式。
我们最后选择了一条更彻底的路:保留 Transformer 强大的特征提取能力,但彻底拿掉那个消耗巨大的Attention机制,用一种全新的、更适合在「流水线」上运行的架构来替代它。国外同期的 Mamba 架构也看到了类似的方向。我们不是去修补一辆不适合在小路上开的 F1 赛车,而是重新设计一辆能在小路上跑得飞快的越野车。
问:这听起来非常复杂。只是为了在智能硬件上跑,就要重新设计一个架构。离线智能真的有这么必要吗?
邹佳思:这个问题很有趣,我们认为非常有必要,而且我们也确实看到了很强的市场需求。
它的必要性体现在几个无法被云端替代的价值上:
第一,绝对的隐私安全。这是苹果这样的公司投入端侧最核心的初衷。最敏感的数据,比如你的相册、健康信息、聊天记录,根本就不应该离开你的设备。这是一个原则问题。
第二,极致的实时交互。很多场景对延迟的要求是毫秒级的。比如部署了 Yan 架构的无人机,用户喊一声「在我跳起来的时候抓拍」,模型就必须瞬间响应。这种场景,任何一次网络波动都可能是致命的,你不可能依赖云端。再比如未来的机器人,它需要根据自己独特的臂长、传感器参数来做出精准的动作,这种与硬件高度绑定的实时控制,必须由本地的」大脑」来完成。
第三,成本问题。云端 API 的价格看起来在不断下降,甚至免费,但仍然是有成本的。以摄像头为例,出货量是以亿为单位。在这种海量规模下,云端再便宜,乘以亿,也是一笔天文数字。而走向离线智能,硬件成本是已经付出的,后续的使用几乎不产生额外费用。从商业逻辑上,海量设备,本地部署一定是成本最优解。
本地模型就像一个守在门口的聪明管家,它隐私、安全,个性化的理解你。即使它不一定能解决所有最复杂的问题,但它应该能处理掉 80% 的日常琐事——开应用、设提醒、简单翻译、会议纪要等等,并且做得又快又安全。对于绝大多数用户来说,不是每时每刻都需要处理复杂任务。
这就像华强北和品牌货可以共存一样。品牌货是非常重要的,但是华强北也需要存在,云端模型能够满足用户比较高的需求,但是设备端的模型能更快,更安全,更便宜地满足用户的大部分需求。
02
能实现离线智能的模型,应该长什么样?
问:刚刚提到,为了实现离线智能,你们选择了最难的路——重新设计一辆「越野车」。那么,这辆新车的「发动机」,也就是你们新架构的核心机制,究竟是什么?
邹佳思:我们的核心创新,就是抛弃了我们前面说的 Transformer 那种需要「全局握手」的、高耗能的 Attention 机制,回退到更轻的「特征—抑制—激活」架构,再配合分区激活,把每次真正运算的参数量压到十分之一甚至更低。算力需求降到原来的五分之一以上,功耗降到十分之一。前面说过,标准 Transformer 架构中,无论任务多小,所有参数都必须全部被激活,才能获得一个高智能的答案。但是人脑其实不是这么运行的。
人脑其实也有 800-900 亿的神经元,我们可以理解为,它是一个 800-900 亿参数的模型,人脑如果是全量激活,功耗可能会到 3000 瓦甚至 4000 瓦,但是人脑其实际的功耗只有 30 瓦不到。
人脑怎么神奇地干成这件事情呢?就是靠分区激活。我们的模型就是借鉴了这种方式。
除了功耗降低了,新的架构还让我们能够在一个 3B 的模型中,实现多模态。
用一个不太严谨的比喻,当你看到一只鸟,听到它的叫声,同时又在阅读「鸟」这个字时,你的大脑并不是整个被点亮。它是在视觉区、听觉区、语言区这些不同的分区里,激活了特定的、小范围的神经元。正是这些分区既独立又相互重叠的激活,帮助我们高效地将形态、声音和词汇完美地对齐。
30 亿参数以下的 Transformer 模型因为其全局计算的特性,很难高效地处理和对齐不同来源的模态信息。而我们的类脑激活机制本身就更接近大脑的分区处理模式,不同模态输入可以天然地激活不同的分区,让对齐变得更轻松、更精准。因此在 3B 规模下,我们依然能保留强大的文本、语音、视觉联合理解能力。
问:「分区激活」思路确实很巧妙。但人脑之所以能只激活一小部分,是因为它本身是一个近千亿参数的巨型模型,底子够厚。而我们现在的端侧模型,本身就只有区区几十亿参数,已经是在「螺蛳壳里做道场」了。我们真的能指望一个小模型,通过激活更小的一部分,来完成更好的智能吗?
邹佳思:您这个问题,正好触及了当前大模型发展范式的核心——我们称之为压缩智能的困境。
现在的预训练大模型,本质上是一个压缩智能的过程——像一块巨大的海绵,它的训练过程,就是把海量的互联网数据(水),压缩进这个由几千亿参数构成的容器里。参数量越大,海绵越大,能吸收和储存的知识自然就越多。
这个范式在处理多模态时,会存在一些问题。压缩过文件的人应该都知道,1G 的文字打包压缩后,是比 1G 的视频、图像这样的文件更小的。视频图像这样的文件本来就大,而压缩比又低,这就是为什么市面上小参数的 Transformer 模型,很难加入多模态能力。
所以,如果游戏规则只是比谁的海绵更大、谁背的书更厚,那小参数的模型确实没有未来。
但我们认为,真正的智能,不应该只是压缩,更应该是成长和学习。这就是我们路线的根本不同:我们不是在一条道上走到黑,而是压缩智能 + 自主学习双线并行。
我们刚才提到的分区激活,它的意义不仅在于节能,更在于它为成长提供了可能性。
我们现在的模型只有 30 亿参数。但通过神经网络精细的动态分区,打比方分成 100 个区,那么一次只需要激活 3000 万个参数。这意味着,我们未来完全可以在手机内存允许的范围内,把端侧模型的总参数也做得很大,比如做到百亿甚至更多,但通过只激活其中极小一部分,来保持同样低的功耗。
这就颠覆了游戏规则。我们不再是研究怎么把大模型变小,而是研究怎么让模型在端侧从小长到大。
所以,当别人都在压缩这条路上内卷时,我们通过 MCSD 架构、分区激活、记忆神经单元,为端侧模型找到了第二条、也是我们认为更符合生命本质的成长路线——可持续的、低成本的自主学习。我们不只是在构建一个能在设备端跑起来的模型,我们是在为端侧 AI 的未来,构建一个全新的、能够不断成长的大脑底座。
问:您提到了自主学习这个词,怎么理解 Yan 模型的自主学习?它和现在云端模型的个性化有什么不同吗?
邹佳思:自主学习,正是我们这次在这次 WAIC 上想展示的最令人兴奋的技术突破之一。
目前我们接触到的云端大模型,都要通过预训练才能更新自己的智能。因为一个模型真正学习的过程——理解用户的反馈,并将其体现在自己的神经网络变化中,依赖于前向传播(推理/猜测)和反向传播(学习/修正)的过程。而反向传播本身是一个特别耗能的过程。在云端,一个千亿模型进行一次反向传播,需要动用一个庞大的、由上千张 GPU 组成的训练集群。
所以,所有基于 Transformer 架构的模型,一旦被部署到你的手机上,就成了只读存储器——它只有前向传播的能力,失去了学习和更新的可能。我们接触到的所谓的个性化,都只是模型通过对话,记住了你的一些偏好,形成了一个外挂知识库,这并不是从根本上学习了你的偏好。因此有时候你和模型即使强调了很多遍你的偏好,模型还是会有自己想偏好的输出。
而我们的创新,恰恰是在这个最根本的物理限制上,实现了一个看似不可能的突破:它让反向传播这个学习过程,第一次有可能在端侧设备上发生。
得益于分区激活的特性,当模型需要学习新知识时——比如记住你「喝咖啡不加糖」这个偏好——它不需要去撼动整个几十亿参数的神经网络。我们的架构能做到:锁定与这个新知识直接相关的、那个被激活的、极小的神经元分区。在这个被隔离的微型战场里,执行一次低功耗的反向传播,只更新这个分区内极少数的权重参数。将这个学到的新知识,直接、永久地写入模型本体的神经网络中。
通往个性化记忆和自主学习的大门就这样被打开了。
现在,我们的模型可以一边使用(推理),一边学习(训练),把新学到的东西,比如你的新习惯、新偏好,直接写进模型本体。它让模型拥有了真正的自主进化能力。
03
离线智能什么时候能够上AI玩具?
问:我们刚才聊了很多技术上的不可能与可能。现在我们回到市场,当大部分声音还在追逐云端千亿模型时,你们的技术却在短时间内找到了真实的商业订单。这让我们非常好奇,从你们的视角看,当前市场上,究竟是哪一类玩家,对离线智能抱有最强烈的执念?他们背后的商业驱动力是什么?
邹佳思:目前,我们接触了多个领域的客户,而每个领域客户对于离线智能的执念背后,都有着深刻的商业逻辑。
PC、平板和机器人是我们当前最核心、已实现量产的战场。我们会更关注更广域的中低算力市场。
以我们和某头部出海厂商的合作为例。他们的核心诉求,并不仅仅是为未来的旗舰机型打造 AI 功能,更是要盘活手中数以亿计的、已经售出或正在销售的中低端设备。
为什么硬件厂商如此在乎这些旧设备?这背后有两条生命线:
第一条,是针对已经卖到用户手里的设备。通过 OTA(空中升级)的方式,为这些旧设备推送我们的 AI 模型,可以创造全新的软件预装和增值服务收入。更重要的是,这极大地提升了品牌价值——「我几年前买的电脑,现在居然也能升级成 AI PC 了!」这种口碑是花钱也买不来的。
第二条,是针对当下仍在出货的、非旗舰的机型。任何一个品牌都不可能只靠售价上万的顶配 AI PC 活着,真正的销量和利润,来自于广大的中低端市场。但这些设备,因为芯片算力限制,根本无法运行主流的 Transformer 模型,但厂商并不愿意因此看着自己的产品与 AI 绝缘。
而我们的技术,恰恰是填补这个巨大空窗期的解。我们的模型能直接在这些非旗舰的存量设备上流畅运行,让厂商下个月就能把 AI PC 卖到用户手中,而不是苦等三年。
除了 PC 和平板之外,我们也关注机器人和手机领域。与无人机公司也有一定的合作。
问:AI眼镜和 AI 玩具这些炙手可热的领域呢?
邹佳思:这两个品类,几乎是所有媒体和投资人见到我们必问的问题。它们代表了设备端 AI 最性感的想象力,但也暴露了最骨感的现实。
它们的根源问题,其实是同一个:为了极致的成本控制和轻便性,这些设备里的芯片,从设计之初就不是为了跑AI的。
以 AI 眼镜为例,现在市面上的主流方案,用的要么是高通的 AR 专用芯片,要么是恒玄等厂商的芯片。这些芯片本质上是通信芯片,它们的任务是做好蓝牙连接、信息投屏、简单翻译等,算力被严格限制。
结果就是,我们的模型想跑在大部分眼镜上,都跑不上去,算力、内存完全不达标。连我们都跑不上去,就更别提那些动辄几十亿参数的 Transformer 模型了,那更是天方夜谭。AI 玩具也面临着完全一样的困境。
市场对体验有极高的幻想,但硬件的物理现实却极其残酷。
面对这个死结,我们目前看到了两条清晰的路径,我们也在同时推进:
第一条路,是「曲线救国」,也是当下最务实的方案。既然眼镜本身算力不够,那就借用手机端的算力。这个方案,我们正在和一些头部的眼镜厂商进行深入的洽谈。
另一条路,是更激进、更面向未来的「釜底抽薪」。我们和一些像影目科技(INMO)这样有魄力的伙伴,正在尝试一个大胆的想法:在下一代的眼镜上,直接换一颗更强大的大脑芯片。
这当然会带来巨大的功耗和工业设计挑战。但对他们来说,一旦成功,就意味着拥有了一款独一无二的、能真正实现离线智能的眼镜。想象一下,你戴着它去海外旅游,在没有任何网络的环境下,它能实现即时的、高质量的离线翻译,这种体验是「炸裂」的,是绝对的差异化优势。
所以,对于眼镜和玩具这两个市场,我们既有务实的「当下解法」,也有着眼于未来的「终极方案」。我们非常有耐心,因为我们相信,真正的爆发,需要等待技术和硬件的完美共振。
问:现在国内的AI硬件赛道极其火热,但都以使用云端 AI 为主。但我观察到你们的客户,实际上是销往海外的。在离线智能这件事上,海内外的市场温度是否并不一致?
邹佳思:您观察到的这个「温度差」,正是我们现阶段战略布局的核心。销往海外市场的智能硬件,其实为我们提供了一片更广阔的蓝海。这种「炽热」的需求,主要源于三个国内不太敏感的「痛点」:
第一,是根植于文化的「隐私执念」。在欧美市场,用户对于个人数据隐私的重视程度,是写进法律、深入人心的。我们目前也在和一家头部玩具 IP 公司谈合作,他们之所以对我们的方案产生浓厚兴趣,一个核心前提就是:他们不希望用户的隐私上云。他们的内容 IP 和用户数据是最高级别的资产,必须在设备端处理。
第二,是客观存在的「网络鸿沟」。我们很容易被国内一线城市无处不在的 5G 网络所「蒙蔽」,认为网络无所不能。但放眼全球,对于我们的出海伙伴来说,他们的用户可能在非洲的原野,也可能在东南亚的岛屿,这些地方的网络环境,让依赖云端的 AI 体验变得极不可靠。一个能在弱网、无网环境下稳定运行的离线模型,是他们的「救命稻草」。
第三,是更高的人力成本催生的「效率需求」。在海外,很多场景下用机器替代人力的意愿更强。当他们需要一个可靠的、无需联网的 7x24 小时接待员或多语言导游时,离线智能的商业价值会比国内市场体现得更直接、更迫切。
所以,我们的战略非常清晰,我们称之为「借船出海」。我们通过赋能那些本身就非常优秀的中国出海企业,将我们的技术带给全球那些对离线智能有着最真实、最强烈需求的 C 端用户。
问:您的分享描绘了一个非常激动人心的前景,但也无法回避一个尖锐的现实:一方面,端侧模型是各家智能硬件厂商都在关注的重点,国外内手机巨头们都在投入重兵自研,试图把AI的命脉掌握在自己手里;另一方面,硬件的摩尔定律也在飞速前进,两三年后,当手机芯片强大到能轻松运行更大的模型时,你们今天「小而美」的优势,是否还存在?面对这样的未来,RockAI 最深的护城河,究竟是什么?
邹佳思:您这个问题非常尖锐,它恰好点出了我们每天都在思考的两个核心挑战。
首先,关于硬件变强。我们认为这是一个对我们有利的趋势。第一,任何高端硬件的普及,都至少需要两到三年的窗口期,在这个窗口期内,我们是解决海量存量和中端设备 AI 化问题的最优解。第二,当硬件底座变强,它能容纳的不仅仅是更大的 Transformer,也能容纳我们从小长到大的 Yan 架构大模型。我们同样可以做 10B 甚至更大的模型,而我们独特的自主学习、低功耗特性等优势,依然会存在。
另一个问题,可能更触及我们这家公司的灵魂,回答了我们真正的护城河是什么。
我们的团队基因,其实源于一个始于 2015 年的、未完成的梦。那时候,我们几个创始人就想做真正的智能硬件,当时的形态类似于小爱同学,但当时就因为 AI 技术不成熟而失败了。直到我们看到了 Transformer 的潜力,觉得时机到了,才再次聚到一起创业。
再后来,我们就痛苦地发现,把 Transformer 这台「云端猛兽」硬塞进小小的设备里,这条路,在工程上根本走不通。
那时,摆在我们面前的有两条路:一条是跟着行业主流,给 Transformer 打补丁,做各种优化,这条路更容易、也更容易被投资人看懂。另一条,是走一条更难、更孤独的路,承认此路不通,从零开始,去构建一个全新的、为端侧而生的架构。
我们选择了后者。而支撑我们走下来的,不是我们有多少钱,有多少卡,或者团队背景有多光鲜。我们内部总结,可能就是一个很「玄学」的词:坚持。
我们笃信,模型一定要跑到端上去,设备一定要有自己的智能。正是因为这份执念,我们才愿意去坐那两年多的冷板凳,在别人追逐云端风口时,我们像一个实验派的炼丹师,在实验室里反复尝试、验证,最终才炼出了 Yan 架构大模型这颗丹。
所以,我们的护城河,不是某一两个技术点,因为聪明的人和团队太多了。我们的护城河,是我们因为坚持而趟过的那些坑、积累的认知,以及我们从第一天起就与众不同的、为端侧智能而生的创新基因。
*头图来源:AI 生成
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
极客一问
你如何看待 RockAI ?
售价 2.5 万元的特斯拉?马斯克拯救计划开始!
点赞关注极客公园视频号,
1、坐高铁节约下来的5小时,每小时要多花35元,坐高铁五个小时什么感受
2、台湾当局外事部门负责人窜访日本,外交部向日方提出强烈抗议
3、冯骥推荐看《南京照相馆》:没有犹豫,没有矫饰,没有抒情,只有血淋淋的事实