财华智库网 - 黄仁勋在台北吹的哨，最先惊醒了卷云端的人，也彻底验证了明略科技的端侧棋局！

6月1日，英伟达创始人黄仁勋在台北GTC大会上用一句话给AI行业的新范式定了调——AI已经从大语言模型阶段，正式跨入能够自主观察、推理、规划并调用工具的Agentic AI时代。

这场演讲的核心信号不是某一款芯片或某一个模型，而是一个系统性判断：智能体正在彻底改变传统的计算模式，从云端数据中心到每个人面前的PC电脑，整个科技行业的软硬件架构都需要深度重构。

黄仁勋为此拿出了一个覆盖全链路的产品矩阵：云端的Vera Rubin智能体超算系统、企业级的Agent Toolkit工具包、端侧的RTX Spark个人AI电脑、物理世界的Cosmos-3机器人模型。所有产品指向同一个目标——让海量智能体以更低延迟、更低成本在各种终端高效运行。

因为在智能体时代，"算力即收入（Compute is Revenue）"。

数据主权：智能体落地绕不开的安全底线

黄仁勋在演讲中反复强调安全性。他指出，智能体由模型、框架、工具、技能和运行时组成，是一个解耦的分布式异构计算系统。当智能体越来越深入地接管企业和个人工作流——处理代码、分析数据、调用工具——数据安全和隐私保护就成为绕不过去的前提。

为此，英伟达推出了开源的Open Shell运行时。黄仁勋在演讲中说："该Shell保护智能体遵循安全策略，同时保护隐私、权利和身份。"Open Shell已被Red Hat、Canonical和Microsoft等广泛采用，并且可以在"任何云端、本地甚至设备端"运行。

这句"本地甚至设备端"值得细品。它意味着安全策略不再是云端的专属，智能体在用户的PC上运行时，同样受到隐私和安全框架的保护。对于中国企业而言，这一点尤为关键。在《数据安全法》和《个人信息保护法》的合规框架下，企业最有价值的数据——客户信息、交易记录、广告投放效果、内部经营数据——往往也是合规要求最严格的数据。

而明略科技也曾明确指出这条路线的三个关键优势：第一是数据主权，不需要超大基模，可以部署规模小一些的开源模型，个人数据和公司数据不用传到云端；第二是可审计，开源白盒模式，可以被监管和检查；第三是保护人在组织中的价值与利益。

可以说，智能体要在企业场景中规模化落地，数据主权是必答题。

端侧模型：从"能不能跑"到"跑得好、跑得省"

演讲中最值得关注的趋势判断之一，是黄仁勋对端侧计算的重新定义。他说："40年后的今天，Microsoft和NVIDIA将重新发明新PC。"黄仁勋预言："这次对计算机的重塑，意义不亚于将电话重塑为智能手机。"

端侧算力的爆发，让一个根本性问题浮出水面：有了强大的本地硬件，谁来提供在端侧高效运行的模型？

明略科技已经给出了经过验证的答案。

今年，明略科技分阶段开源了Mano-P——可在Mac本地运行的GUI-VLA智能体模型。企业想用AI自动化处理敏感数据，但云端方案要求把截图和文档上传到远程服务器，这在高合规场景是致命伤。Mano-P核心解决的，正是从"云端依赖"到"本地自主"的关键跃迁。

Mano-P的72B版本在OSWorld专用模型榜上取得58.2%成功率，领先第二名13.2个百分点，位列全球第一。而其4B量化版本专为端侧设计，在Apple M4 Pro上实现476 tokens/s预填充、76 tokens/s解码，峰值内存仅4.3GB。72B证明技术上限，4B证明日常可用——这正是端侧模型从"技术可行"迈向"生产可用"的关键一步。

与Mano-P配合的，是明略科技开源的端侧推理加速框架Cider。Apple Silicon的M5芯片内置了专用的INT8 TensorOps矩阵乘单元，但主流推理框架MLX只做了权重量化，计算仍走FP16路径——芯片里的INT8算力全程闲置。Cider通过W8A8全量化推理，直接调用M5芯片的INT8硬件指令，实测Prefill速度比MLX原生方案提升1.79倍，内存降低约40%，精度几乎无损。

一组数据对比足以说明问题：在M5 Pro上运行Qwen3-8B，MLX原生W8A16量化的Prefill时间是221.3秒——甚至比不量化的FP16（179.9秒）还慢。而Cider W8A8只需123.5秒，同时困惑度仅比FP16高0.03。权重量化省内存，激活量化省时间——Cider补上的正是后者。

黄仁勋在演讲中介绍Nemotron 3 Ultra时强调，这款开源模型"让您全盘接收并让它为您所用"。方向与明略科技一致：模型竞争的焦点正在从"谁更大"转向"谁更快、谁更省、谁更专"。

端侧基础设施：从模型到硬件的完整闭环

黄仁勋的RTX Spark重新定义了PC，但端侧AI的基础设施不只是芯片和模型，还包括智能体之间如何协作、线下场景的数据如何被采集和理解。

明略科技近期开源的Octo通过连接人、数字分身Agent、Runtime Agent与各类外部工具，让Agent从孤立的个人效率助手走向可协同、可编排的组织级数字劳动力。Octo的MoA（Mixture of Agents）协作逻辑不只是配合，也有对抗——不同Agent之间互相验证、互相挑战，最终产出比单个模型更可靠的结果。

黄仁勋在演讲中将CUDA-X库开放为智能体的技能工具时说："这些库提供给智能体后，它们的使用效率甚至超越了人类。"Octo的思路类似——不是让单一模型包打天下，而是让一组专精的Agent协同作战。

在硬件端，明略科技5月13日推出的Octic，定位"随时助攻的会议知己"。区别于传统录音笔"会后生成纪要"的逻辑，Octic把AI辅助前置到会中场景——开会时，Agent实时判断对方陈述的事实是否与公开数据一致、逻辑是否自洽，并即时提醒用户。基于分层记忆架构，Octic持续积累用户数据，构建专属Personal AI。

这就形成了一个完整的端侧AI产品矩阵：Mano-P负责端侧智能体的理解和决策，Cider负责推理加速释放硬件算力，Octo负责多Agent协作和组织级编排，Octic负责线下场景的数据采集入口。四个产品——模型、引擎、协作网络、硬件——全部开源或已发布，构成了从"端侧模型"到"端侧基础设施"的完整闭环。

从"看懂数据"到"拿到结果"

黄仁勋在演讲中说，在智能体时代，"Token已经成为了盈利和收入的单位"。当AI的价值用Token来计量时，每一次端侧推理省下的云端调用，都是实实在在的成本优势。

明略科技创始人、CEO兼CTO吴明辉早在2025年就判断："未来通用模型可能会变成'收电费'的公共基础设施，专业小模型会解决各个细分领域问题。"如今，这个判断正在被Mano-P、Cider、Octo和Octic一一落地。

2025年全年，明略科技实现营收14.26亿元，经调整净利润实现扭亏为盈。Agentic Services业务收入突破1亿元，新增大客户中超过30%来自这一方向。吴明辉在2026年3月说："2025年，明略科技完成了一次关键转型——从帮助客户'看懂数据'，到帮助客户'拿到结果'。"

当黄仁勋站在台北的舞台上说"过去我们启动应用程序进行点击和输入，现在只需向AI解释我们的意图和需求"时，明略科技的端侧智能体Mano-P已经在Mac上做到了这件事——看懂屏幕、理解意图、操作软件、数据不出域。

端侧AI的时代正在到来。谁手里有经过验证的端侧模型和推理引擎，谁掌握着从模型到硬件的完整产品矩阵，谁就拥有在这个新赛道上的起跑优势。

内容来源：有连云

HI！欢迎登录财华智库网

HI！欢迎注册财华智库网

黄仁勋在台北吹的哨，最先惊醒了卷云端的人，也彻底验证了明略科技的端侧棋局！