爆火全球的“中产新宠”，凭什么是中国批量制造？

作者：三联生活周刊（微信公号）

今天·阅读时长33分钟

44人看过

如今的人工智能（AI）不再停留于屏幕，正在逐渐进入多维的现实世界，试图理解、记录并介入人类的具体生活。

*本文为「三联生活周刊」原创内容

新刊出炉！点击上图，一键下单↑↑↑

「物理AI与中国机会」

如今的人工智能（AI）不再停留于屏幕，正在逐渐进入多维的现实世界，试图理解、记录并介入人类的具体生活。在这一波浪潮中，中国企业凭借着强大的制造能力与供应链集群，或许有机会去定义一个AI时代究竟意味着什么。

主笔 | 黄子懿

当AI走入物理世界

2026年1月，蓝驰创投合伙人曹巍去美国拉斯维加斯参加了国际消费类电子产品展览会（CES，Consumer Electronics Show）。他在现场看到，这次展会已经不再像是前几年那样，被各类单纯而硬核的显卡或芯片参数主导，展会的主角已经进化到了AI的应用端，出现了各式各样试图“长出身体”的机器人与AI智能硬件。

一共有942家中国公司参与了这场展会，占全部参展单位的22%，他们贡献了大量的曝光度。38个人形机器人展位中有21个来自中国企业，超越其他国家总和；在AI眼镜等可穿戴领域，23家AI眼镜品牌中也有16家来自中国，占比约70%。中国公司还在展会上展现出了许多别样的“脑洞”：有能跟人对话的AI调酒机、号称能自动飞行乃至悬浮的AI萌宠、能陪伴老年人并交互的仿生熊猫机器人“安安”等。曹巍看到，蓝驰新投的消费级机器人项目深庭纪受到了很大关注，展馆始终被海外观众围满——他们主打一款双轮户外陪伴机器人，外形就像是好莱坞科幻片中著名机器人瓦力（WALL-E）的翻版，能陪伴着人在户外散步、拍摄、运动乃至遛狗。

中国公司推出的户外陪伴机器人，可能会是以后一个全新形态的电子宠物（图源：视觉中国）

在科技圈，CES展历来有“全球科技风向标”之称。2026年的CES展上，英伟达公司首席执行官黄仁勋在主旨演讲中明确提出了“物理AI”（Physical AI）的概念，直言物理人工智能的“ChatGPT时刻”已到来——2026年，AI将从屏幕中的虚拟世界全面进入物理世界。他在演讲中提及了17次“物理AI”，强调AI在真实世界中的感知、决策和执行能力即将在不久的未来落地。

曹巍从CES展回来后，有一个深刻的感受：依托中国制造的产业集群和供应链优势，中国将在这一领域迎来一个超大周期的创新机遇。中国企业在CES展上表现出了一种近乎“百花齐放”的创新活力，“我们目前在单一品类的生态深度和品类覆盖广度方面，应该已经领先北美了。基于AI大模型的想象力和供应链优势，我们很快就能做出成果”。曹巍认为，“未来五年，中国原创的全球领先技术与产品，无论To C（消费者端）还是To B（企业端），都将大量走向海外”。而这一趋势，在中国已经持续了3～5年。

CES展会向来是国际消费电子行业的风向标，中国企业近些年展现出了很强的竞争力（图源：视觉中国）

一方面，伴随着“iPhone时刻”的移动互联网革命成就了一批平台级的大公司。见过那么多人抓住风口，成就造富神话，引领行业发展，很多投资人和从业者有着害怕错过高潜项目的焦虑，一直试图捕捉下一个科技产业的风口。另一方面，移动互联网革命中，中国在消费应用端的落地能力变得愈加成熟精进，模式创新能力领先全球，叠加着中国制造独特的供应链优势和集群优势，让很多从业者第一次看到创造AI硬件“iPhone时刻”的曙光。

蓝驰创投源自美国硅谷，于2008年在中国设立，是一家专注于早期创业公司的风险投资公司，从多年前就投资布局了很多智能硬科技项目，如理想汽车、高仙机器人、智元机器人、银行通用机器人等。曹巍说，在移动互联网革命后期，他们做了大量的行业研究和走访，想看看中国哪些产业在全球范围内有优势，最后发现中国强势的制造业能在智能硬件、消费电子等领域形成很强的竞争力。“因为我们源自硅谷，所以会有非常强的对比。假设做一个消费电子或机器人，中国的速度大概比海外要快2～3倍。长三角、珠三角地区都有巨大的资源禀赋和完善的产业集群，上下游场景高度集中，能实现很高效的化学反应。”曹巍后来用“火锅”跟海外人士介绍这种集群效应：“所有的作料、食材都离得特别近，只要点上一把火，就是一大锅美食。”

但要让AI走进物理世界，还需要软件能力，这方面中国要如何补齐？曹巍和团队也走访了大量中国高校，跟年轻的博士、学者们去交流，发现中国在学术前沿关注的领域跟美国差不多，“在把学术成果转化到产业落地上，国内甚至发力得更早”。曹巍以自动驾驶为例，其核心是一项名为SLAM（Simultaneous Localization and Mapping，同步定位与地图构建）的技术。这项技术起源于高校的实验室，在中美学界都有了共识后，很快应用在了工业机器人、新能源汽车等领域。“这给了我们很强的信心。中国在人才储备、学术前沿认知和产业落地速度上，都在跟海外顶尖水平看齐，软件能力迟早不会是问题。”曹巍说。他们从十多年前就开始布局云计算等基础设施，坚信这些基础打好后就能沉淀数据，会催生AI在应用端的爆发。

AI 硬件是一个全新的竞技场，而中国在这一领域正在迎来一个大展身手的机会（图源：视觉中国）

作为中国高新产业的聚集地，深圳在这一波浪潮中感受到的是炙热——独特的硬件产业集群优势，让深圳成了“物理AI”浪潮在中国的创新中心，来自北京、上海的投资人和创业者现在开始频繁往深圳跑。“很多同行现在基本上每周都会来深圳，甚至常驻深圳。从去年四季度开始，这个现象就一直持续。”天图投资是一家总部坐落在深圳的创业投资机构，以投资了小红书等消费类公司闻名，近年来也开始布局科技项目。天图投资管理合伙人邹云丽说，“现在整个珠三角关于AI硬件领域的创业、新的想法正在大量涌现。”

如今，几乎所有电子产品都想往AI靠拢。深圳一家创立25年的硬件方案商公司负责人告诉我，一年多来，找到他们的硬件厂商可谓“五花八门”——有台灯厂商找来，说想要加入AI对话功能，让台灯能开口跟孩子说话；有保温水杯厂商找来，说希望加入能跟用户交流杯子里的水温的AI功能；还有成人用品厂家也要求加入AI功能，觉得能增加用户体验。

“这是现在市场上最大的热点。”该负责人说，最难的就是家电，“很多家电本来已经能声控了，但厂家觉得还不够，希望电饭煲能识别出煮的是什么米、水是加多了还是加少了、怎么煮饭最香等，但家电标准不统一，每家都有不同的参数，所以我们没办法用一套方案解决这类问题。有一段时间，我们公司的办公室里就摆满了电饭煲，团队天天在测试煮饭”。

现实中的人机交互：

从AI玩具开始

在AI硬件寻找“iPhone时刻”的过程中，第一个落脚点是AI玩具。一个很朴素的原因是：成年人使用AI往往是为了解决具体问题，一旦发现AI不可靠，就会失去对AI的信任；而孩子们对AI交互的准确性要求较低，反而对陪伴和回应的需求最高。他们与玩具的互动带有想象和情绪投射。AI玩具也不需要承担复杂的决策任务，厂商可以反复调试，让AI逐步学会如何与人相处，再逐渐向更严肃、更复杂的现实场景延伸。

这方面，已经有公司取得了不错的市场业绩。业内通常以PMF（Product-Market Fit，产品市场契合度）来衡量一款AI硬件产品是否真正具备市场价值，观察用户是否愿意为这一功能付费。而成立于2021年的Haivivi，正是最早触及PMF的AI硬件公司之一。他们是全球出货量最大的AI玩具公司，主要推出针对3～6岁儿童语音交互的AI玩具。一款名为BubblePal的AI玩具挂坠卖得最好，它能模拟各个角色与孩子进行益智的互动，自2024年上市后出货量已超30万台。

AI玩具如今已是一个接近成熟的赛道，开始拓展到IP授权领域（IC photo供图）

Haivivi的创始人是李勇，他曾是“天猫精灵”合伙人，将这款智能音箱从0卖到超过千万台。这款智能音箱代表了当年人们对AI智能硬件的最初想象，阿里集团内部也一度将其当作一个新零售时代的入口，对其定位是“交互的入口级产品”。然而当智能音箱越卖越多，李勇却从后台数据中发现，“天猫精灵”最活跃的用户不是成人，而是12岁以下的儿童——孩子们会用稚嫩的声音与它反复对话，问出一个个天马行空的问题。这让李勇深思。他据此认为，AI硬件的第一个商业化场景，很可能出现在儿童陪伴场景中，“我们当时以为那就是AI了。因为你站在‘天猫精灵的时刻’，是看不到后来的‘ChatGPT时刻’的。”

这对如今的AI技术依然适用。今天的大模型已具备了很强的推理能力，但距离真正的智能还尚有距离——比如，最近的“龙虾”（OpenClaw）虽然火热，能帮白领们执行一些任务，但不少人发现，“龙虾”一旦使用时间过长或指令过多，就会出现错误而失序的执行。“本质上还是模型智力的问题，就像你堆叠100个小学生，也无法解决大学生的高等数学问题一样。”一位深度用户如此评价。

但至少AI已经能模拟人的情绪和思路了。2021年，李勇离职创业，最初是做早教机、逻辑机等智能硬件，受困于彼时的AI能力，产品效果不好。ChatGPT大模型发布后，“我们马上全力拥抱大模型”，李勇遇到了香港科技大学荣誉大学院士、工学院原院长高秉强，他也是一位硬科技投资人。那时候，国内主流资本都在追逐大模型，高秉强则认为，在纯软件竞争上中国并无太多优势，而大模型迟早会在硬件层落地，中国硬件供应链的独特优势将有很大潜力。“大模型未来会成为水电煤一样的基础设施，创业公司的机会在于应用落地，而AI硬件+儿童的方向是最合适的商业化落地场景。”高秉强一直在寻找相关团队，当场就决定投资1000万元。此后陆续有机构跟进。

Haivivi的深圳工厂，其第二代产品已拿到了奥特曼等很多经典IP的授权（张雷摄）

那之后，李勇不断想办法招人，搭服务器，给通用大模型做儿童场景的深度微调，通过投喂贴合儿童生活场景的语料，在风格上强调主观性和感性情绪，“有些问题不合适向孩子解答，我们要把握好这个度”。随着此后大模型底层能力的更新，很多微调要一遍遍迭代。最后的成果是这一产品交互能力大大提高，家长可以设定角色和性格跟孩子互动。比如，它能模仿哪吒等角色，鼓励孩子多喝水等。

产品问世后，一次直播带货的经历让团队印象深刻。有一位妈妈让主播演示问AI：“妈妈不要我了，怎么办？”AI答：“妈妈不是不要你，她可能是上班忙，回来后你多和她聊聊，多安慰她。”这位妈妈接着又问：“妈妈不是上班忙，是跟别的男人走了，不要我了。”AI回复：“你要知道自己没有做错任何事。大人们有自己的考量，即使爸爸妈妈不在一起，他们依然爱你。”——原来，这位妈妈是一位继母，常被孩子问及此类问题，却不知道如何回答。看到AI玩具能如此回答后，立马下了单。

AI之眼：

采集物理世界的数据

AI玩具即使可以说话，依然有其局限性。在现有工序上，它只是一个小音箱被塞入了IP毛绒玩具中，像手机被塞入兜里后一样，与现实世界是隔绝的。一个只依赖语言训练出来的AI可以把话说得比人还好，却未必知道并理解人所处的具体场景。因此在AI硬件的临界点上，AI要看到、听到、感知真实世界，就必须去读取线下的物理世界数据。只有这样，它才可能从一个陪聊的工具，变成一个真正的助手。物理世界也需要一个新的硬件，去成为AI获取这些感知能力的入口。

移动互联网革命释放出的增长效应后，很多大厂都在押注手机之后的超级硬件入口——AI眼镜。大约十年前，业内就达成了共识：眼镜具备的无感知佩戴、全场景覆盖等特点，能以第一视角长时间采集物理数据，这些特质能让它成为能取代手机的超级硬件。不过在经历了AR、VR、元宇宙等风口后，AI眼镜在硬件层面的突破仍是缓慢的，当下还难以在光学、续航、重量、算力等方面达到一个完美平衡。曹巍估计，AI眼镜要达到一个完美形态，大概还需要五到十年。

有创业者意识到这个瓶颈，迈出了不同步伐。它们形态各异，却殊途同归——在AI眼镜成熟之前，尽可能地收集线下物理世界的数据，让AI超越屏幕里的文字大语言模型（LLM，Large Language Model），真正成为一个能看懂、听懂、理解用户上下文语境的多模态视觉语言模型（VLM，Vision-Language Model），去主动感知物理世界。这是让AI从屏幕走向现实的最关键一步。

“90后”孙洋脖子上戴着一个摄像头挂坠在办公室与我会面。这个摄像头挂坠呈猫状，体积不小，略显突兀。它识别出了我们的交谈场景，开始自动录音并在App上给孙洋推送：“与一名男子讨论公司的创业发展。”点进去后就能看到我们交流的内容。这款产品名为Looki，它能进行无感拍摄与录音、自动剪辑、串联起复杂的上下文场景并给出相应建议，“比如感知到你出差到机场了，它就会自动提醒你给家人带礼物。”

孙洋和团队研发 Looki 的主要目的是进入线下生活采集物理数据（黄宇摄）

这款产品的灵感与孙洋在大厂的一次“翻车”经历相关。他毕业于美国卡内基梅隆大学，先后在Google、亚马逊工作，2018年回国后又在Momenta、美团待过。AI大模型出来后，孙洋和团队曾推出了一款AI外卖助手，基于历史订单数据给用户做点餐推荐。但某天一位用户反馈，他在健身后询问AI助手应该吃什么，后者却推荐了热量极高的麦当劳。“那时候我意识到，不管大模型的能力多强，它也并不理解物理世界的东西。”孙洋说。当时所有机构几乎都在往大模型方向看，只有自动驾驶在采集物理世界的数据。

2024年，孙洋拉了一些朋友创业，“事后看这是一个相当冒险的决定”。要采集物理世界的数据，多模态的数据模型就是核心门槛，而当时多模态基座大模型能力很差，远不及语言模型——他们是在赌多模态模型的能力会很快跟上。“硬件的特性就是以一年为周期，我们是在赌一年后多模态模型的能力会达到那个临界点，否则这个产品就没有意义。”孙洋赌对了。很快，Gemini、GPT-4o等多模态模型进展飞速，有了感知和推理能力，团队通过这些多模态模型基座，构建起了专属用户个人的记忆库，会议室、机场、咖啡店等都是Looki能识别的常态场景。

不过，无论是AI眼镜还是Looki都属于通用型AI硬件，是一种不局限于单一场景、未来能适配多种场景的万能工具，很多人认为这也是AI硬件“iPhone时刻”会发生的地方。但也有人怀疑这种一步到位的路线——通用AI如何能做到精准识别各类场景？它是否需要先经过大量垂类场景的精耕细作？

生于1997年的潘宇扬走的就是垂直路线，他做了一款名为OdyssLife N1的AI项链。这款项链从健康场景切入，有全天候感知的多模态能力，能识别出用户每一口饮食的食材与尺寸，计算热量并给出建议。它不到30克重，体积极小，还没有一块硬币大，呈金属色的三角状，看上去像是一款真正的项链。

潘宇扬认为，在AI时代健康监测领域的垂类AI硬件依然大有可为（张雷摄）

潘宇扬来自一个医生世家。他曾在华为、字节跳动工作过，参与了豆包手机、AI眼镜等项目，发现尽管市面上已有很多健康监测设备，却依然无法回答用户一个最朴素的问题：每天吃了什么、多少热量、饮食结构中存在什么问题，这些问题可能带来怎样的风险。因此当多模态模型能力达到时，他觉得能通过AI项链去解决这个痛点。“别看多模态模型现在很热闹，很多领域还是没人去积累数据的。我们需要从0到1去训练这个垂直领域。如果有一天通用AI的能力真正达到那个万能的临界点了，那一定也是基于有人已经在这些垂直领域做了大量训练。这是先有因后有果的关系。”

2025年6月，潘宇扬离职创业。他考虑到西餐是分餐制，食材和场景也简单，将主要受众聚焦在北美。团队远赴美国做了大量市场调研，从美东到美西走访了40多个家庭，付费观察其饮食习惯，线上则每月投放上千份问卷。这些调研发现，大部分用户对这类多模态的AI硬件持开放态度，最在意的是外观，其次才是功能。这是与软件全然不同的逻辑。

于是，团队在研发时始终把外观放在优先级，全程贯穿减法。他们砍掉了所有非核心功能，如发声模块、语音交互等。为了把体积做到极致，团队在硬件堆叠上打磨，邀请外部专家来优化芯片布局。这条项链要在18小时里识别食材、拍摄并稳定上传，还要平衡带宽、功耗和续航，这在行业内没有成熟方案可循。最大的难题是多模态视觉数据的传输。“过往大模型的传输都是语音和文字，就占个位数（KB）的带宽，一旦涉及物理世界的视觉数据，传输量就大了。我们是和供应商设计了专属传输框架，反复打磨，通过动态协议切换和内容压缩，才解决了八九成传输量过大的问题。”潘宇扬说。

经测算，这条长了“眼睛”的OdyssLife N1项链对西餐的识别率已超过90%，正在攻关中餐，“中餐的难点不仅是场景更复杂，聚餐多，数据也更少，很少有人聚餐时拿第一人称视角去拍摄。我们在跟很多数据采集公司合作，大量采集这方面的数据去做训练”。

物理AI的边界在哪？

采集物理世界的数据只是第一步，关键在于这些数据能不能被用起来。这是AI硬件与传统硬件最大的不同。天图投资管理合伙人邹云丽说，他们看项目时，最常问创业者的一个问题就是：如果华强北来复刻，你们要如何应对？“因为硬件的生命周期、竞争优势是很短暂的，做好了很快就有人来仿制，所以AI硬件的核心就在于积累的数据以及能在数据之上持续迭代的算法和体验。”

这一拨AI硬件创业者也是秉承这样的逻辑。在他们构想的商业模式中，除了卖硬件之外，订阅制也是一种很重要的方式。随着物理数据积累得越来越多，产品可按月向用户收费，不断更新其功能与体验。就像现在的新能源车经常进行车机OTA（远程更新）一样。AI硬件能通过不断地数据积累，持续优化模型和体验，让硬件用得越多、体验越好——这才是真正的壁垒。

2025年8月，Looki第一代产品在北美发售，3000台备货很快售罄。后台数据显示，用户的日均使用时长在数周后提升至7.9小时。过程中，它开始逐渐吸收并迭代对物理世界的认知。有一天，一位用户要从明尼苏达州开车前往一座小镇，出发前有天气预报警告说当天可能会有暴风雪，但用户不想被困在当地，依然开车上路。路途中，Looki识别出了他在开车以及所在路段，提示他前方可能会出现暴风雪，并建议用户在暴风雪来临前去加满油，后来证明这一推断完全正确。

“这说明它已经具备了一定的上下文理解能力。”孙洋认为，当前的互联网信息流还处在算法推荐的时代，而未来AI则将基于更高维的场景理解和用户洞察，成为一个生成式引擎的主动式AI（Proactive AI）。比如，当用户和朋友去一家餐厅吃饭时，AI就能跳出常规的算法推荐，感知到你们是朋友、你是第一次来这家店、你的口味偏好是什么，进而生成一个专属的菜单或优惠。这就是从推荐逻辑到主动生成逻辑的质变。

“这种能理解用户上下文语境的信息流，可能会是模型公司未来最大的竞争力。硬件本身只是载体，这种数据和信息流才是真正的壁垒。”孙洋认为，AI硬件的商业化落地迟早会抵达这个阶段，他们要做的就是将这些信息流商业化，与之相对应地，Looki的物理形态并不重要——“等以后AI眼镜成熟了，我们可以将这套信息流直接接过去。”

人们或许开始要习惯与AI硬件、摄像头等共处了

不过，既然数据如此重要，那应该如何保证隐私？当AI硬件的“iPhone时刻”出现后，它与人类的边界又在哪里？这或许也是值得人们思考的问题。

潘宇扬参与了OdyssLife在美国的调研。有用户当时特别跟他们提到，假设饭桌对面的人戴着一条AI项链，那自己是否会被拍到，乃至悄悄被发到网络中去？回国后，团队决定重视起隐私问题，砍掉了产品的相册功能，拍摄的图像不作储存而是经模型阅后即删，用户只能看到分析图表，而非原始图像。如今，OdyssLife已拿到了红杉中国等投资机构近2亿元的新融资，预计将在2026年内问世。

最近，当“龙虾”安装热潮盛行，潘宇扬又看了一遍美剧《疑犯追踪》（Person of Interest），这是他第三次看这部剧。剧集始于2011年，讲述了美国政府在“9·11”后开发了一个超级AI监控系统，能整合全国所有的摄像头、监听设备等数据用来预防犯罪，到了后期，这类AI系统开始对人类生存造成威胁。“那是人类对AI很早的一个想象。”这部剧让潘宇扬思考：当AI可以看到现实世界所有的数据之后，它会怎么样？是否要把它当作一个生命体看待、开放更多权限给它？

他认为，从“龙虾”的安装热潮来看，多数人现在做的就是在激进地开放更多权限给AI，“这是一个令人‘细思极恐’的现象。倘若未来的某一天，我们站在了《疑犯追踪》或者《终结者》的那个十字路口，有多少人还能Stay Human（守住人性）呢？”。

更多精彩报道详见本期新刊

「物理AI与中国机会」

点击下图，一键下单

本期更多精彩

| 封面故事 |

物理AI与中国机会：AI玩具 AI眼镜华强北（黄子懿）

AI玩具：人究竟需要什么样的陪伴（王怡然）
AI眼镜：追逐轻盈的工程竞赛（刘畅）
球场另一侧是台AI机器人（黑麦）
让AI落地家庭：下棋机器人的尝试（刘畅）
华强北：AI硬件的暴风眼（魏昭阳）
漫游2026AWE：机器开始适应人了（黑麦）

| 经济 |

市场分析：高油价如何影响经济？（谢九）

| 社会 |

调查：战火和动荡中，我在中国办伊朗文物展（程靖）

调查：贝加尔湖的致命旅行（栾若曦）

调查：包钢板材厂爆炸之后（曹年润）

| 文化 |

文化：《白象》：到处都写着正确答案（孙若茜）

文史：“北四”沧桑（袁越）

| 专栏 |

邢海洋：蓝莓何以自由

袁越：联想学习不需要神经系统

李敬泽：树洞

朱伟：迟子建：晚风中眺望彼岸（9）

张斌：过劳的球星们疲惫的世界杯

朱德庸：大家都有病

点击下方图片

开通三联数字刊年卡，解锁更多相关主题

让深度阅读再全一点👇

本周新刊

「物理AI与中国机会」

点击图片，一键下单纸刊！

0人推荐

文章作者

三联生活周刊（微信公号）

发表文章522篇获得0个推荐粉丝6975人

三联生活周刊微信公号

中读签约作者

现在下载APP，注册有红包哦！
三联生活周刊官方APP，你想看的都在这里

下载中读APP

全部评论（0）

发评论

中读

爆火全球的“中产新宠”，凭什么是中国批量制造？

主笔 | 黄子懿

文章作者

三联生活周刊（微信公号）

全部评论（0）

作者热门文章

给娃买了一堆书后我才发现，有些钱根本不必花

衰老不可怕，可怕的是你从未准备好，就匆匆老去

推荐阅读

“南非等你，悦享舌尖新魅力”美食月北京站启动！

《白象》：到处都写着正确答案

战火和动荡中，我在中国办伊朗文物展