【技术】他们不是不想做纯视觉,而是根本做不了
今天轮到华为了,问界M7,高速撞上静止的大车。事是去年的事,视频是今天上网的。
这激光雷达看见了吗?看见了。
有没有反应呢?没有。
为什么?根本不是传感器的问题,是你算不出来,也动不了。
很多人一直以为,激光雷达路线是高级的,
纯视觉是廉价版的FSD。
但我告诉你吧,FSD的纯视觉,才是整套系统里最难、最高级、最底层彻底重构的那一种。
它难,不是因为你省了激光雷达,
而是因为它把整车变成了一个会“看”、会“想”、会“动”的神经系统。
那现在问题来了,为什么国内不选纯视觉?
不是不想,是根本做不了。
第一,数据不够。
纯视觉不是装几个摄像头就能跑。
你得有海量的真实场景数据去训练它,
它得看过、错过、撞过,然后才能变得聪明。
特斯拉是从2016年开始收数据,FSD V13背后吃掉的是全球几十亿公里的路况、错误、拐点和决策链条。
你看国内这些车企,有几家有这个数据闭环?
就算销量上来了,你有没有用户用智驾?有没有标注团队?有没有端到端迭代的系统?
都没有。你是靠封闭道路做演示,靠规则模拟做决策,
你喂的是假动作,它练出来的永远是假身手。
第二,结构错了。
特斯拉的纯视觉,是把整个系统做成了神经网络结构,
从摄像头进来,到车轮动起来,中间不分模块,不分角色,就是一整个“思维系统”。
国内不是,国内是拼装工程:
激光雷达看一遍、摄像头看一遍、毫米波看一遍,
然后感知模块处理一遍,传给决策模块,再传给控制模块。
每一个环节都有延迟,有误差,有丢包。
这不是AI,这叫部门协作。
所以你看到大车了,你甚至知道该刹车了,
但刹不住。你要汇报,你要排队,你要等模块之间“开会”。
特斯拉FSD不需要通知别人,它自己一看到,就能自己动。
这才叫端到端,这才叫一体化的智能系统。
第三,我们得说说,为什么激光雷达就算“看见了”,它也没用。
你想啊,一辆车在高速上开一百多公里每小时,
你就算提前两三秒看到前面有静止障碍物,
你能不能刹住,不是靠“有没有看到”,是靠看到以后能不能及时判断、及时执行。
而激光雷达的数据非常重,它不像摄像头那种连续视频流,
它是脉冲式、点云式、一帧一帧发出来、接收回来、再还原三维模型的。
所以你就会有一个非常致命的过程:
看到 → 转换 → 解析 → 判断 → 下指令 → 动作
每一步都要时间,每一步都要算力,
然后你开着车在真实世界里跑,一秒钟就可能是生死。
而特斯拉不是,它从来不追求看得最清楚,
它追求的是——反应得最快,决策得最像人,甚至超越人。
它靠的是摄像头流,就是光子信号,
直接喂给神经网络,然后整车一体判断,直接执行。
它不用还原三维图,不用等传感器拼图,它是——“看到就是理解,理解就是行动。”
这就是纯视觉的力量,也是FSD和其他车之间的断代差距。
很多人都在追求“我能看多远、我能识别多少种障碍物”,
但FSD追求的,是“我能提前预判你要干什么、我要怎么规避、我要怎么做得更稳。”
你可以理解为,国内智驾像是一个看得清的木讷保安,
而FSD像是一个直觉敏锐的格斗高手。
激光雷达是告诉你:“前方三十米有一个静止目标,形状如下……”
FSD是告诉你:“前面可能有问题,我现在就准备变道。”
它的厉害,不在于它看得准,
而在于它根本不需要等你“看准”,它已经行动了。
说到底啊,国内这些车企不是不知道神经网络好,
也不是不知道端到端是未来,
他们不是不想学特斯拉,他们是——根本跑不动。
为什么跑不动?
你先看看FSD的硬件系统。车上用的是特斯拉自己设计的FSD芯片,HW3、HW4,
后端5万块英伟达H100+Dojo超级计算集群做训练,
马斯克说一句“我们不是在跑模型,我们是在训练一个驾驶的大脑”——这不是夸张。
国内起步本就晚现在高端芯片搞不到,但所有型号的车,必须顶着智驾的招牌往外卖!
更要命的是,硬件上不行,算法还不敢放手做端到端。
怕出错,怕责任,怕事故,最后只能走一条“模块化+规则工程”的路:
摄像头是供应商的,雷达是供应商的,感知模块来自某某初创公司,
决策模块还得开会研究,控制模块还要留一手冗余……
这里面每个公司都有可能给自己留一手,多搞点钱,少担点责。
所以FSD强在哪?
强它背后那一整套能实时理解世界并反应过来的闭环神经网络系统,这套系统必须高度集成,必须是一个完整的闭环,而不是各家拼凑的产物。
这就是为什么FSD面对同样的场景,
比如前车突然变道、前面出现静止障碍,
它能做到——“人还没反应过来,它已经判断完并开始变道”。
不是因为它有外挂,不是因为它多了传感器,
而是因为它真的拥有了AI那种“毫秒级预判”的能力。
不是它看得远,而是它“知道前车为什么这么动”,
然后它不等你开口,它自己就动了。
这,才是真正的智能驾驶。
不是多装几个雷达,不是识别更多种障碍物,
而是——你理解世界的方式,已经进化了。
既然特斯拉这条路这么强,为什么国内不学?
为什么这些那么聪明的工程师、企业家,会走错方向?
说白了,不是技术问题,是结构性决策问题。
特斯拉为什么能走纯视觉?因为它敢压五年、敢烧几十亿美金、敢把用户骂声全吃下,
就赌一件事:未来的智能驾驶,一定要靠神经网络去“理解世界”
这里面,马斯克本人的魄力和胆量毋庸置疑占据了很大的因素,但是他也得有那个文化土壤,这个我在我自己的节目中有聊过,这里不再赘述。
而国内呢?你做决策得看资本周期,看项目评审,看年终交付量,看媒体KPI,
你是走一步看一步,你没法all in。
所以他们选了一条看起来最保险的路,
能上车、能发布、能卖、能交作业。
但这一套结构,一开始就注定了你只能做到“看见”,却做不到“判断和反应”。
那有没有机会后来追上?也不是没有。
但你要清楚一件事,FSD现在的每一次丝滑变道、每一次毫秒级反应,
背后是七年时间、数十亿公里、几千个工程师和一个自研神经网络团队干出来的。
你要追,你得先敢推倒现在这套拼装系统,
你得敢说——我们不要激光雷达白名单,我们也要从摄像头开始训练理解世界。
你得敢错、敢撞、敢慢,最后你才有可能赶上。
但现实是,大多数公司连“敢错”这一步,都走不出去。
那就不是代差一年两年,是结构性断代。
所以今天这一期说了这么多,我就想留下最后一句话:
你以为你装了雷达,就能看得见世界;但特斯拉,是在用神经网络理解这个世界。
技术的分水岭,很多时候不在于谁跑得快,
而在于谁走对了那条通向未来的路。
https://xueqiu.com/3252816852/329451560
以下推文采用自研智能关联、组合专题技术…:相关文章 延伸阅读
用户评论
1.

Deepseek评论本文:
以下是对该文章的深度分析与专业评价:
### 一、核心论点的合理性分析
1. **数据闭环与算法迭代的优势**
- 文章强调特斯拉通过海量真实数据训练神经网络系统的观点具有合理性。特斯拉自2014年起积累全球车队数据,其FSD V12采用端到端神经网络,直接通过摄像头输入生成驾驶决策,这种数据驱动的模式确实需要长期积累。国内厂商如华为虽采用激光雷达,但数据规模和多样性可能受限,尤其是用户实际使用智驾功能的覆盖率较低。
- **局限性**:文章忽略了国内厂商在数据采集上的加速追赶。例如,华为ADS 2.0已通过超2000万公里路测数据优化,小鹏计划2025年实现无高精地图全场景智驾,说明国内并非完全依赖“假动作”训练。
2. **系统架构的差异**
- 特斯拉的端到端架构确实减少了模块间延迟。其BEV Transformer框架直接将摄像头数据转化为三维空间理解,无需传统感知-决策-控制的分层流程,响应速度更快。相比之下,多传感器融合方案需处理不同传感器的数据对齐和冗余,可能增加计算负担。
- **局限性**:文章将模块化架构贬为“部门协作”,但融合感知在极端天气(如雨雾、逆光)下更具可靠性。华为192线激光雷达可穿透雨雾,弥补摄像头缺陷,特斯拉HW4.0也重新引入毫米波雷达以应对极端环境。
3. **激光雷达的局限性**
- 文章指出激光雷达点云数据处理存在延迟,这一点符合技术原理。激光雷达需通过点云重建环境,而特斯拉的纯视觉系统通过连续视频流实现实时推理,决策链路更短。
- **局限性**:问界M7事故(115km/h撞击静止车辆)的归因过于简化。事故车辆为入门版,未搭载华为高阶智驾系统(无激光雷达),AEB供应商博世的系统工作范围仅限4-85km/h,与华为ADS的130km/h能力存在代差。因此,事故更多反映低配车型的传感器与算法局限,而非激光雷达本身失效。
---
### 二、技术路径选择的深层逻辑
1. **成本与供应链考量**
- 特斯拉选择纯视觉的核心原因包括:激光雷达成本高昂(早期超1万美元)、依赖外部供应链风险,以及美国路况相对简单(车距大、环境干扰少)。而中国厂商选择融合感知,既因激光雷达价格已降至千元级,也因复杂路况需冗余保障。
2. **技术路线的哲学差异**
- 特斯拉追求“类人驾驶”的直觉反应,通过神经网络模拟人类决策,强调预判能力。国内厂商则更注重“安全兜底”,通过多传感器交叉验证降低漏检风险。例如,理想汽车李想曾称:“在中国深夜高速,马斯克也会用激光雷达”。
3. **责任与法规压力**
- 国内厂商面临更严格的法规和舆论压力,倾向于采用保守方案。例如,AEB标定更倾向于减少误触发(避免急刹追尾),而非追求极限刹停速度。特斯拉则通过用户协议将责任转移至驾驶员,敢于激进迭代。
---
### 三、文章的偏颇与忽略
1. **对国内技术进展的忽视**
- 华为ADS 3.0已实现“God’s Eye”多模态融合感知,小鹏XNGP逐步减少对激光雷达依赖,蔚来计划推出纯视觉版本,说明国内并非“做不了端到端”,而是选择阶段性融合策略。
2. **事故归因的片面性**
- 问界M7事故中,AEB未触发的主因是车辆未搭载高阶智驾系统(无激光雷达 博世AEB限速85km/h),而非激光雷达本身失效。文章将事故归咎于系统架构,忽略了配置差异。
3. **极端场景的对比缺失**
- 纯视觉在逆光、大雾等场景下表现不稳定,特斯拉HW4.0重新引入毫米波雷达即为佐证。而激光雷达在恶劣环境中的可靠性已被多厂商验证。
---
### 四、结论:技术路径的“最优解”之争
该文章的核心价值在于揭示了纯视觉方案在算法集成与响应速度上的优势,但存在以下问题:
1. **技术决定论倾向**:过度强调架构优势,忽视成本、法规、市场需求的综合影响。
2. **案例引用偏差**:以低配车型事故否定激光雷达价值,逻辑不严谨。
3. **忽略生态差异**:特斯拉的全球数据闭环与Dojo超算集群是其护城河,而国内厂商需在芯片限制下探索替代方案。
**未来展望**:智能驾驶的终极形态可能是“混合感知”,即纯视觉为主、多传感器为辅。特斯拉的端到端架构与国内厂商的融合方案将长期共存,前者追求极致效率,后者保障复杂场景安全。