科技创新:数据标注,人工智能风口下的“卖水人”?

图片


从ChatGPT走红到GPT-4降临,最近爆火的多种大模型应用再次带火了人工智能这个不算新的概念。作为人工智能核心应用场景之一,自动驾驶的发展长期以来备受争议,算法优化和落地量产能力是人们讨论的重点。


随着大家的注意力逐渐回到人工智能上,除了下游应用和上游算力,人工智能产业链当中还有哪些值得关注的部分呢?璞跃中国移动出行关注到了自动驾驶上游数据供应商在这一产业链中的存在价值。


人工智能模型和算法的发展带动数据标注的需求不断增长。数据标注就是生产"数据"的工作,它存在的意义便是让机器理解、认识世界。例如,在计算机视觉中,图像分类、对象检测和目标分割工程中,需要对输入模型训练算法的每张图像进行注释。


//01. 市场背景


自动驾驶不是一朝一夕的事,而是已经有了长期积累沉淀的算法。


2018年以前,由于受成本和法规限制,高级别自动驾驶的商业化落地遭遇瓶颈。


2022年起,自动驾驶公司的发展核心从算法研发转向L2量产落地,带来对长尾场景的大量数据需求。自动驾驶算法经历不断迭代加速后已基本成型,在落地渗透率上不断提高,需要长尾数据完成算法优化。


2018-2021年间路测数量显著上升,数据来源包括道路量产车和采集车数据两种。

L2+算法需要大量的3D点云数据支撑,引发对2D3D融合和3D点云标注的需求。


2022年,受益于算法、数据与芯片技术发展,我国在售新车L2和L3的渗透率分别为35%和9%,新车搭载L2功能正在逐渐成为前装标配。


国内自动驾驶领域相关融资153起,与2021年相比,融资事件数量有所增加。


图片


自动驾驶下半场来临,商业化落地将成为竞争关键,其中L2&L3的渗透率提高将更为显著。 


1)政策方面,2022年11月,工信部印发《关于开展智能网联汽车准入和上路通行试点工作的通知》,对准入试点的智能网联汽车产品,提出了一系列规划和指导要求,进一步推进了自动驾驶的发展进程。2022年以来,商业化落地能力成为对自动驾驶投资和判断的关键指标。


2)落地应用方面,预计2023年L2和L3渗透率将达到51%和20%,L4渗透率达到11%,带来更多且更高质量的数据需求。


3)技术演进方面,3-5年内随着大模型的落地应用,对分布式预训练模型数据需求呈爆发式增长。


禾赛科技是全球自动驾驶及高级辅助驾驶激光雷达领军企业,其上市招股书中指明:从2017年到2022年12月31日,禾赛已出货超过10.3万台激光雷达,仅2022年累计出货超过8.04万台激光雷达,禾赛在2022年ADAS(高级驾驶辅助系统)领域出货量全球第一。不仅如此,禾赛还是全球第一家每月交付超过1万台激光雷达装置的公司。


图片


2025图像数据标注行业市场规模或达400亿人民币/年,随着人工智能行业应用不断发展,在未来3-5年内数据需求持续保持旺盛。


2025自动驾驶行业客户全年总预算可达200亿-300亿人民币,数据支出需求多。在算法趋同成熟的情况下,量产需要大量高质量、无偏差的数据,需求持续时间长。


图片


举个例子,假设有一辆汽车在不同的驾驶条件下,以每小时45公里的速度行驶30万公里。通过计算,可得知汽车行驶了6700个小时。假设自动驾驶系统在6700个小时内以每秒至少10帧的速度记录,最后会生成2.4亿帧的数据。如果平均每帧有15个对象,其中包括行驶车辆、行人、信号灯、障碍物等,最终会得到超过35亿个需要标注的对象。可见,自动驾驶标注的工作量是巨大的。


  • 随着新能源乘用车及商用车逐步替代燃油车,自动驾驶市场进入高速发展阶段,在技术上已经高效突破,并在多个应用场景探索落地。如无人公交车、无人卡车、无人配送机器人、无人户外清洁车等通用与垂直场景的应用加速,整体数据市场近5年内增长速度会达到30%—50%。


  • 根据国内需求方与供应方营收增长情况推算,预计2024年数据标注市场规模在130亿-180亿元左右,2025年市场规模在200亿-300亿元。 


在这几年的发展过程中,我们发现自动驾驶的数据需求同时也具备可持续性:


1)算法在不断更新:


  • 算法模型所使用的训练数据需要定期更新:约 1/3 的算法模型每月至少更新一次,约 1/4 的算法模型每日至少更新一次。


  • 算法模型持续更新的特点将进一步拓展各领域训练数据的需求空间。 


2)环境和场景需求不断更新:


  • 在算法拉不开差距的情况下,场景训练数据就成了关键。


  • 长尾Corner Case场景数量极多,模型训练过程中涉及的数据集覆盖面越广,标注越精细,分类越准确、类型越多,自动驾驶性能就越好。


  • 现实道路交通场景不断更新,带来更多未识别过的新场景。


3)车型和传感器不断更新:


  • 车型的变化、传感器的升级,都会导致需要重新训练的需求。


//02. 行业对比


任何人工智能算法在应用初期都需要人工标注,如歌曲、图片、语音、方言等,其中部分行业的标注可视为类似“验证码找图片”的测试,即简单的对比图片和音频选择正确的含义,对比音频标注等已起量的数据标注应用。自动驾驶行业数据量占比高,行业壁垒高,时间周期晚,但发展周期相似。


音频标注难度最低,标准化程度高,数据采集简单,是目前大型公司的核心业务。


  • 在2015-2016各家企业的技术积累到了爆发关口, 几乎国内外所有IT、互联网巨头都相继进入了语音交互市场,推出的Alexa等产品得到大规模商业化应用。


  • 一年内有三倍市场规模爆发,数据堂首先完成上市。


对比语音标注行业,自动驾驶数据标注处于爆发前夕。


  • 目前仍处于技术积累后期、商业化量产前期阶段,时间周期更晚


  • 图像复杂、精度要求严格,复检容错率低的特点,技术壁垒更高


  • 数据采集难度高,地理信息位置图像安全要求高,行业标准严格


Appen、海天瑞声、数据堂在2021-2022年间智能驾驶数据标注业务涨幅极高,表明行业需求旺盛。


图片


除了自动驾驶,数据标注的其他横向可迁移场景包括工业、医疗、AIGC、军工、农业等,共计150亿人民币。


自动驾驶是中国人工智能数据采标服务市场行业中最大需求之一(60%+),且标注壁垒最高,对于其他⾏业的数据标注需求,属于能力范围内的降维迁移(除数字医疗)。


//03. 产业链核心要素


在这些不同人工智能算法应用中,数据标注连接原始数据和人工智能算法中不可或缺的基础,其中数据标注成本占到了总数据成本的90%。


  • 数据类型包括文本、图像和视频。在这些数据中,有90%数据是非结构化的数据,这些非结构化的数据只有经过清洗与标注才能被唤醒价值,因此也推动源源不断的清洗与标注需求。


  • 对于自动驾驶数据标注行业来说,数据标注公司主要完成数据预标注、团队匹配、数据标注(及后续数据回测环节)。


图片


自动驾驶标注市场,大部分服务供给来自第三方服务商,采取众包结构的服务商可以节约用工成本、满足波浪用工需求、完善政府与校企配合机制,推动地区人才发展与就业。


服务商提供了整体数据标注市场79%的服务,企业自建只占21%。对于第三方标注公司,公司结构主要可以分为众包结构和工厂结构两种


图片

数据标注众包结构


数据标注众包结构指需求公司通过众包平台发布标注需求,数量众多的标注志愿者或兼职人员在平台上自由领取标注任务,采取众包结构的公司可以达到的效果包括: 


1)降低成本


  • 合同期限较短,企业可对劳动力充分考量,降低人才选拔的风险和成本。


  • 不用负责员工保险,场地费等问题,劳动力成本相对较低。


  • 在4-6线城市雇佣劳动力,降低劳动力成本。


2)用工灵活


  • 数据标注行业工作量和用工需求随机且呈波浪形,众包方式可帮助企业解决标注时间紧、任务多的问题,避免人员和资金浪费。


  • 打破地域限制,充分利用分散的智力和劳动资源,满足尚无法满足的客户需求。


3)推动就业


  • 人工智能训练师在2020年正式成为新职业,并纳入国家职业分类目录。


  • 校企结合,帮助政府推动地区职业院校AI人才发展和就业。


数据标注行业融资热点时期包括2014-2016年和2021-2022年,分别对应算法研发期的数据需求和起量爆发前的数据需求。


2018年是自动驾驶行业融资最高峰,带动自动驾驶数据标注企业融资、估值金额在2019年突破2000万美元。 


目前市面不同种类的竞争者数量较多,智能调度初创企业有与先来者竞争的能力,主要分为三个类别:


1)传统人力外包机构:


  • 业务分散,专业度低。


  • 人力外包模式为主,人员流动性高,运营及技术更新困难。


  • 不构成主要竞争。


2)有一定业务体量的成长型企业:


  • 自动化调度能力不足。


  • 并非自动驾驶行业专精。


  • 已具备一定体量,且外包团队分散,难以调整业务模式应对突然起量的高强度市场需求,在标注精度和响应时效上已经难以满足客户要求。


3)智能调度初创企业,项目灵活性高、性价比在起量后能够满足现有客户需求,有替代前者的可能性:


  • 重视先期优化自动贴合算法派别。


  • 在基础自动贴合的能力基础上,重视运营管理&供应链模式,先行起量,继而完成算法优化。


由此,璞跃中国移动出行团队总结自动驾驶数据标注整体市场行业情况为:


作为人工智能、自动驾驶行业的“卖水人”,发展跟随相关行业周期;近两年随着商业化落地增量,目前处于市场拐点,路测数量激增,2022年1-9月L2搭载量同比增长69.53%,量产数据需求爆发起量明显;数据需求最大的周期为算法研发期和量产落地期。


1)供给端


大中型企业自动化程度低;初创企业类别主要分为“专注研发自动贴合标注”和“在基础自动贴合上融合运营管理能力”两大类。


2)需求端:


客户黏性低,对低价和标注精度和效率有明确追求;客户需求容易波动,呈波浪形。


3)行业瓶颈:


客户需求高、预算高(单个客户亿级),但处于供应商量产能力,目前仍有大量标注需求未被满足;初创企业、上市公司竞争状态分散,集中度低,目前未有明显巨头集中


图片


图片



加入璞跃中国
科技创新生态
添加微信小助手 pnp_china
发送【移动出行玩家】
加入移动出行行业交流群
与更多志同道合的伙伴们共话移动出行


关于 Plug and Play China 璞跃中国

2006年成立于硅谷的璞跃(Plug and Play)是全球科技创新平台引领者,曾先后成功早期投资孵化了Google、PayPal、Dropbox 等多家互联网行业科技巨头公司,业务涵盖:早期投资、企业创新服务、创新生态空间运营等。经过10余年的发展和超过20年的长期积累,目前在全球设立50多个创新生态空间和区域办公室;累计投资超过1600家初创企业,为超过17000家初创企业进行孵化加速,为超过500家全球领先大企业提供联合创新服务,年平均举行初创企业和大企业间的对接交流活动1000余场。

2015年,在中国双创浪潮下,璞跃入华,2016年“璞跃中国(Plug and Play China)”成立。

璞跃中国立足北京——中国总部,布局上海、深圳两大区域创新中心,联动南京、武汉、无锡等城市创新合作伙伴开展中国创新业务。

璞跃中国现开设有企业创新服务、城市创新服务、科技投资、创新空间四大业务板块,构建了中国领军的线上线下创新平台,并为之配套构建了包括大企业、初创公司、城市伙伴、风险投资机构、高校科研院所、行业导师等多维度的创新生态伙伴体系。

迄今璞跃中国已服务100余家行业领军企业,累计孵化加速1700余家创业公司,并投资了包括ApplyBoard、AutoX、非夕科技、纵行科技、银基安全、大界机器人、海飞科、Authing、优时科技等超过150家科技创新企业。

加入科技创新生态请访问:https://www.pnpchina.com/join/ 

Plug and Play中国 是一家科技创新加速器与投资机构,专注创新生态服务和开放式创新业务。 致力于在投资、创业加速、 企业创新服务、 创新生态、 开放创新、 开放创新、 创新咨询、 创新服务、 等层面立体化帮助创业企业成长,专注 开放式创新 ,并与大企业、城市、大学等展开深度创新生态合作。

X

扫码关注 Plug and Play China

plug and play 中国,创新咨询,开放创新,创新生态
X