获取本 告PDF版请见文末
1、国内领先的 AI 模型训练数据提供商 ?
1.1 AI 算法的“加油站”,智能语音领域领军
海天瑞声是中国领先的训练数据专业提供商,自2005年成立以来,始终致力于将简单收集的自然数据源经专业化采集加工,使之成为可供 AI 公司训练使用的工程化数据集,可谓 AI 算法的“加油站”。
公司的主营业务分为训练数据库产品、训练数据定制服务和数据资源相关的应用服务,前两者收入占比超过95%。
训练数据库产品,是公司自行开发的训练数据产品,开发后授权客户使用,产权公司享有;
训练数据定制服务,根据客户需求提供训练数据定制,通过“采集+加工”或“纯加工”形式,形成由客户享有知识产权的训练数据集;
训练数据相关的应用服务。
产品线覆盖多领域、多场景、多类型客户,智能语音为优势领域。
公司所提供的训练数据覆盖语音识别、语音合成等、计算机视觉、多语种发音词典、自然语言五个领域,全面服务于人机交互、智能驾驶、智慧城市等多种创新应用场景,客户覆盖了主要的大型知名科技公司、人工智能企业及科研机构(如微软、腾讯、百度、科大讯飞等)。
智能语音是公司优势领域,主要包含语音识别、语音合成、多语种发音字典。
在数据定制服务中,智能语音营收占比70%以上;在数据库产品中,智能语音营收占比85%以上。
深耕国内市场,推进全球布局。
公司2020年中国大陆地区收入占比64.1%,海外市场收入占比35.9%。公司覆盖超过 160余个主要语种及方言,在深耕国内市场的同时,持续推动全球市场推展,加大美国、日韩及“一带一路”地区的布局,目前语言研究能力已覆盖“一带一路”地区54 个国家的42个语种及方言,累计词条数近350万条。
1.2 股权集中稳定,团队履历亮眼,研发实力强劲
股权结构集中、稳定,保障公司长期战略发展。公司创始人、实控人贺琳直接持股 20.26%,通过北京中瑞安投资中心控股11.58%,合计控股31.84%。总经理唐洗飞直接持股8.36%。
高管、技术团队履历亮眼,行业背景深厚。
高管和核心技术人员毕业于国内北京大学、清华大学、中国科学技术大学等顶尖高校,在加入海天瑞声前在中科院、微软等国内外知名科研院所、行业领军公司任职。截至2020年12月31日,员工中技术、研发人员占比69%,获硕士及以上学历占比 57%。
1.3 标准化产品和定制服务双轮驱动,疫情产生短期业绩扰动
业绩持续稳健增长,疫情对公司短期业绩造成影响。2016年~2020年,公司营业收入CAGR为29.02%,归母净利润CAGR为68.06%。
2020年受到疫情负面影响,原料数据现场采集、标注工作受到限制,下游客户停工需求订单减少,公司营业收入同比下滑1.8%,归母净利润同比增长0.61%。未来随着疫情好转,公司的数据定制服务业务有望恢复增长趋势。
综合毛利率约70%,其中标准化程度较高的数据库产品毛利率极高。
公司整体毛利率基本维持在65%~75%的区间。其中数据库产品毛利率高达100%(所发生的支出在当期全部计入研发费用),数据定制服务毛利率基本维持 40%~50%区间。
费用率基本保持稳定。公司销售、财务费用控制稳健,销售费用率控制在5%左右,管理费用率从2016年的22.18%逐年降至2020年的10.82%。
现金流整体健康,疫情产生短期扰动。
2016年至2021H1,公司经营性净现金流持续为正,且收现比例多数维持在110%附近,但2020年疫情对回款产生了一定短期扰动。
2、?AI 落地刚需带动基础数据服务百亿级潜在市场空间?
2.1 国内 AI 产业全面商业化,基础数据服务市场打开百亿空间
AI 产业已进入全方位商业化阶段,全球产业规模超500亿美元。随着 AI 技术的不断成熟,AI 的商用化落地已经在全球各地全面展开。
截至2019年年末,全球共有5386家活跃 AI 企业,27400名高级研究人员,20座重点发展城市。
2019年,全球人工智能行业共产生约374亿美元融资,其中,自动驾驶、药物医疗、人脸识别、视频内容和金融反欺诈是获得融资最多的领域。
根据 IDC 的数据,2020年,全球人工智能产业规模达到501亿美元,预计2024年将达到1100亿美元,年复合增长率为21.73%。
根据Gartner在2018年的预测数据,2019年,全球人工智能产业的商业价值将达到 19010亿美元,预计2022年将达到39230亿美元,年复合增长率为27.31%。
中国 AI 产业发展位居世界前列,国内市场规模超四百亿元。
中国 AI 产业在论文发表数、论文引用率、企业数量、融资金额等方面都居全球领先。
截至2019年年末,中国(不含港澳台)活跃 AI 企业达到1189家,占全球总数的 22.08%,位居全球第二;
2019年期间,中国人工智能领域论文的发布数量占该领域全球论文发布总量的 28%,位列全球第一;
2008-2019年人工智能领域的专利申请共发生448,684项,中国拥有66,508项,位列全球第二,中国的 AI 技术水平处于全球前列。
2019年,中国人工智能行业的融资总额约为166亿美元,占全球的44.39%,位居全球首位。
此外,根据美国斯坦福大学的一份 告显示,2020年,中国在学术期刊上有关 AI 的论文引用率占比为20.7%,美国为19.8%,中国 AI 论文引用率首次超过了美国。
根据国际数据公司(IDC)的数据,2020年,中国人工智能产业规模将达到62.70亿美元,预计2024年将达172.16亿美元,CAGR达30.40%。
中国 AI 基础数据服务市场处于快速成长期,2025年将突破百亿规模。
一方面,随着算法模型、技术理论和应用场景的优化和创新,AI 产业对训练数据的拓展性需求和前瞻性需求均快速增长;另一方面,随着行业内对训练数据需求类型的增加以及对服务标准要求的提高,产业链的专业化分工将愈加清晰,专业化的训练数据服务提供商将扮演更加重要的角色。
根据艾瑞咨询《2020年中国 AI 基础数据服务行业研究 告》,2019年中国基础数据服务行业的市场规模达到30.9亿元,预计2025年将突破100亿元,CAGR达21.8%。
2.2 AI 基础数据服务行业承上启下,AI 算法迭代和场景创新是行业成长驱动力
AI 基础数据服务行业上承数据生产者,下接 AI 应用方,是 AI 落地过程中不可或缺的 一环。
基础数据服务行业的上游包括数据生产者和数据生产组织者,主要提供原料数据的采集服务;中游包括基础数据服务商,主要通过数据处理能力和项目管理能力完成训练数据集结构设计、数据加工和质量检测等工作,为下游客户提供训练数据产品和相关 服务,公司位于产业这一环,其他参与者还包括云测、慧听数据、京东众智等;下游包括科技公司、行业企业、AI 公司和科研单位,主要负责算法研发。
我们认为,机器学习算法迭代的天然需求与应用场景的创新是 AI 基础数据服务行业扩张的主要驱动力:
专业化的训练数据是当前 AI 算法发展迭代的刚需。
算法模型从技术理论到应用实践的落地过程依赖于大量的训练数据。模型不是一次性构建的,需要持续学习,通过“收集行为数据–收集反馈数据-模型训练–模型应用”全流程提升业务效果,避免传统模型的效果随着时间衰减的弊端。
AI 所能带来的价值与数据量的增加有正向关性,需要通过喂数据反复迭代算法,从而使得产品从“可用”逐步进化到“好用”状态。
然而,从自然数据源简单收集取得的原料数据并不能直接用于有监督的深度学习算法训练,必须经过专业化的采集、加工,形成相应的工程化训练数据集后才能供深度学习算法等训练使用。
目前,应用有监督学习的算法对于训练数据的需求远大于现有的标注效率和投入预算,基础数据服务将持续释放其对于算法模型的基础支持价值。
深度学习模型对训练数据的数据量、多样性和更新速度方面提出较高要求,需要专业数据商提供服务。
根据麦肯锡研究数据显示,为充分发挥技术潜能,深度学习模型需要海量且涵盖图像、视频及语音在内等多种类型的训练数据进行模型训练。
此外,人工智能技术要求算法模型根据潜在的应用场景变化而持续更新,因此,算法 模型所使用的训练数据亦需要定期更新。
具体而言,约1/3的算法模型每月至少更新一次,约1/4的算法模型每日至少更新一次,算法模型持续更新的特点将进一步拓展各领域训练数据的需求空间。
智能物联 、产业互联 等新型场景催生增量新需求。
随着人工智能商业化进程的演进,新兴应用场景如智联 AIoT、AI PaaS、产业互联 等将展现出巨大的发展潜力,并逐步促进 AI 技术和算法模型的优化和创新。因此,在创新应用场景和新型算法的带动下,具有前瞻性的训练数据产品和高定制化的训练数据服务需求将逐步成为主流。
2.3 行业集中度低,2019年CR5仅26.2%
行业集中度低。
根据艾瑞咨询数据,2019年 AI 基础数据服务行业CR5为26.2%,行业集中度低。国内整体供应方中,以提供图像类数据采标服务的公司居多,内容涉及人像数据、OCR 数据、自动驾驶数据等,业务需求较为分散,其中以百度数据众包营收份额占比最大。
相比而言,语音类数据需求较为集中,且供应门槛高于图像类数据,内容包含语音识别数据、语音合成数据等,其中以海天瑞声的营收份额占比最大。
中小数据供应商是当前市场中的主要供应力量,品牌数据服务商次之。
中国基础数据服务行业的市场参与主体主要包括学术机构、政府等中立机构、需求方自建数据团队、以及基础数据服务商。
其中,基础数据服务商依据业务规模又可以进一步分为品牌数据服务商和中小数据供应商,它们与需求方自建基础数据团队构成市场竞争关系,为基础数据服务市场的主要供应方。
2019年,品牌数据服务商、中小数据供应商以及需求方自建团队的市场份额分别为30.4%、47.0%和22.6%。
需求方对训练数据的要求向精细化转型,有望推动市场集中度提升。
随着 AI 产业落地成为主旋律,需求方对训练数据质量的要求不断提高,垂直场景的定制化训练数据需求逐步成为主流,需求方对训练数据的要求逐渐向精细化转型。
研发需求对数据数量的要求较高,但数据标注内容倾向于标准化;训练需求对数据标注的内容需求较为丰富,对数据准确性要求高;成熟场景的落地需求对训练数据的内容有特定指向,采标难度较大,对基础数据服务商的综合能力要求高。
而中小型数据供应商的数据质量和采标能力可能难以达到需求方的精细化要求,未来品牌数据服务商有望获得大部分“红利份额”,使得市场集中度进一步提升。
3、?成长逻辑:一体化平台的根基是算法、资源和经验,数据积累带来规模效应和粘性,多领域、多语种能力打开成长空间 ?
3.1 基于核心算法打造“从设计到质检”的一体化平台
基于核心算法,通过一体化平台,赋能数据生产全流程,形成核心技术壁垒。据招股说明书披露,公司目前积累了12项核心技术,满足不同应用场景训练数据需求,通过一体化的数据处理平台,高效满足大规模数据的加工、质检,显著区别于通过简单组织劳务人员进行原料数据采集、标注的企业。
其中多语音语言学基础研究、多语种多模态训练数据设计技术、数据同步技术、大数据驱动的高效数据处理技术及分布式高性能自动校验技术,具备较强专业性,较难为同业或上下游突破,形成公司核心技术壁垒。
竞争优势背后是技术、资源以及对垂直行业的理解。
以语音语言学基础研究为例,公司掌握了丰富的语言学家团队资源,成员遍布世界各地学校和研究机构,具备丰富经验和技术储备;公司基于多年研究,积累了丰富的数据和经验,建立了成熟的词典构建流程,并掌握了成熟的词典构建技术——如基于词典与模型的发音预测技术等。招股说明书显示,公司目前已建立超过100个语种/方言的发音词典,累计词条数超1000万条。
设计环节:公司需要基于算法模型的应用领域、场景、预期的训练效果,反向确定训练数据集的数据类型、数量、比例分布等。比如让有限的训练数据集尽可能覆盖足够多的自然语言现象(发音习惯、语言特点、句长分布等),行业 Know-how 在这个环节作用非常明显。
采集环节:根据成品训练数据集的目标数据量,预留少量冗余,确定需采集的原始数据量,根据模型的训练需求寻找合适的采集对象(语种、方言类型、目标应用场景、语言风格、发音人年龄、信噪比等)。
加工环节:通过语音识别+人工听辨生成“标签数据”,关键在于提升数据标注的准 确率(如语音、语调、音素、音节边界、韵律、词性、一致性、文本正则化,去重、 文本分词、句法分析、情感属性标注等),核心技术算法在这个环节发挥巨大作用。
质检环节:前端原始数据的即时质检、终端加工环节的效率和准确度、后端大规模训练数据集的质检,对“标签数据”全面检查,使之成为“成品数据”。
重视研发投入,推进产学研协作。
截至2020年底,公司拥有研发人员44名,技术人员59名,前述两类员工人数合计占比达到68.21%。2018年起,研发支出占比逐年上升,2020年达到18.64%。
此外,公司与北京语言大学合作建立“海天瑞声-北京语言大学汉语学院联合实验室”,并与清华大学就“语音数据库构建与验证平台”开展技术开发合作,持续推动产学研协作。
3.2 数据积累带来规模效应,高复购率显示高客户粘性
“数据积累->技术迭代->提升数据质量”的闭环带来明显的规模优势,对垂直行业 Know-how 的理解拓宽公司的竞争护城河。
1)公司在进行训练数据设计、采集和处理环节涉及大量数据,包括:①采集的原料数据;②拥有自主知识产权的训练数据产品;③训练数据生产过程产生的大量日志数据;
2)数据积淀推动数据分析工具、数据处理平台等优化迭代;
3)更有效率的工具与平台赋能生产过程,提升训练数据产品质量。
上述过程形成的正反馈使得赛道的龙头公司具有明显的规模优势,进一步加深对数据背后的行业Know-how的理解,推动技术不断迭代,拓宽公司的护城河。
头部客户的高复购率验证产品的高粘性,带动公司对行业Know-how的理解。
2018~2020年,公司前五大客户均为互联 及科技巨头,包括阿里巴巴、腾讯、微软、三星、百度、字节跳动、亚马逊等七家公司,前五大客户的收入占比始终保持在 50%以上,头部客户的复购率显示了对公司产品的粘性。
由于上述科技公司对 AI 的重视程度高,它们持续加大在特定领域的布局和投入也相应带动了公司业务的增长、加深对细分领域行业Know-how的理解。
3.3 产品多领域覆盖,多语种能力助推海外市场开拓
产品能力涵盖智能语音、计算机视觉和自然语言 3 大领域,自有训练集数据产品数量位居行业领先。
公司招股书披露,已培育起适应不同应用场景、语言语种需求的产品服务体系,具备覆盖智能语音、计算机视觉和自然语言 3 个应用领域,160余个语种或方言的数据处理能力。
截至2020年底,公司自有知识产权训练数据产品数在同业中占据优势,达到762个,而同业第二位Appen为291个。
积极开拓海外市场,扩展成长空间。
产品力和优质海外标杆客户支撑海外拓展之路。公司产品服务中覆盖多种语言/语种, 可面向多种应用场景,因而也具备参与海外市场的能力,前五大客户中也不乏微软、 三星等海外行业巨头。
多管齐下推动业务出海。
目前海外拓展举措目前包括:
1、建设内部团队,增聘境外销售人员;
2、跟进境外优质客户训练数据需求,拓展业务增长点;
3、加强线上线下宣传力度,持续针对海外及潜在客户进行品牌宣传。
海外收入受到疫情的短期扰动。根据招股说明书数据,2018~2020年公司境外收入占比先上升后下降,2019年占比较高系海外开拓力度加强,且外语种业务需求较强, 不过2020年受疫情影响有所回落。
4、盈利预测?
我们预计,公司2020~2022年收入增速分别为20.67%/41.71%/37.01%,整体毛利率分别为64.55%/65.09%/65.66%。
假设依据如下:
我们预测公司2021-2023年收入分别为2.82/3.99/5.47亿元,对应归母净利润 0.84/1.18/1.61亿元,对应收入CAGR为32.9%,归母净利润CAGR为25.2%,横向比较的 AI 公司的2021年 PE 均值约为61倍,考虑到公司在 AI 数据训练行业的稀缺性,给予2022年目标市值约72亿元。
风险提示 ?
AI 产业景气度下降:
公司为 AI 下游客户提供训练数据集,如果未来 AI 产业景气度下降,可能对公司的经营产生不利影响。
市场竞争加剧:
参与 AI 行业的公司在逐步增多,如果公司未来不能持续提升产品力,加深垂直行业的理解,可能在竞争中逐步处于劣势。
海外贸易摩擦风险:
公司出口地主要为美国、日韩等国家和地区,如果未来海外贸易摩擦加剧,可能对公司的经营产生不利影响。
新冠疫情恶化的风险:
疫情带来的隔离、交通管制可能对公司的业务开展造成不利影响。
——————————————————
请您关注,了解每日最新的行业分析 告!
告原名:《AI 算法的“加油站”》
获取更多PDF版 告请登录【远瞻智库官 】或点击链接:
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!