数据标注师:化“人工”为“智能”

 新闻中心     |      2024-04-28 04:58:59
      人工智能训练师于2020年正式成为新职业并纳入国家职业分类目录。人工2021年,数据师化《人工智能训练师国家职业技能标准(2021年版)》发布,标注数据标注员是为智人工智能训练师的工种之一。

  ——————————

      4年前,人工陈霞还是数据师化一名全职妈妈,也从没想到自己会成为人工智能领域中的标注一员。如今,为智31岁的人工她已经是一名资深的数据标注师了。

      她参与的数据师化是无人驾驶项目,负责在电脑上对车在道路上采集的标注现实交通场景的原始数据进行处理,将其转化为机器学习可识别的为智专业数据。

      “比如道路上的人工各种障碍物、建筑、数据师化绿植,标注各类车道线以及行人等,我们要把这些人、物标出来,我们就是无人驾驶车的眼睛,告诉它们看见的东西是什么,应该怎么去行驶。”陈霞这样描述着她的工作。

      有多少智能,就有多少人工

      “数据标注是机器感知现实世界的起点,是大部分人工智能算法得以有效运行的关键环节。”百度智能云数据标注基地业务产品负责人胡驰说,简单来说,数据标注是对未经处理的语音、图片、文本、视频等数据进行特征标签,将非结构化的数据转变为机器可识别的结构化数据,使机器通过大量学习这些数据,化“人工”为“智能”。

      数据标注师是伴随人工智能发展诞生的新职业,人工智能的进步离不开数据的标注。随着中国人工智能产业的高速发展,数据标注师这个新职业的需求及人数也在壮大。作为人工智能的“启蒙老师”,数据标注行业流行着一句话,“有多少智能,就有多少人工”。

      目前,数据标注不仅服务于自动驾驶行业,还服务于医疗保健、智能安防、新零售等场景。

      帅双双是一名医疗数据标注师,他的工作主要是对医疗类问答进行标注,纠正生成式人工智能对医疗相关问题的解答,主要用于在线问诊等场景。他介绍说,“比如向AI提问心脏病的并发症有哪些,我们要从它的多个回答中标注出符合问题的选项。有时,AI的回答虽然正确,但是语句不通顺、不清晰,我们也要对此进行标注,通过这些操作,综合培养AI的回答系统。”

      AI技术的落地应用在很大程度上缓解了医疗资源紧张、地区分布不均等问题,提升了医疗体系的整体运行效率。数据标注有望在增强人工智能在医疗保健领域的应用方面发挥重要作用。

      胡驰表示,目前,人工智能技术不断演化、技术与行业场景融合不断泛化,这些都需要大量的数据支撑,会对数据产生许多新的需求。数据标注也从早期的相对通用数据向专业化、复杂化方向演进。越来越多的细分场景,需要更多定制化模型进行迭代训练,这也让数据标注师面临更多考验,“未来,数据标注师会伴随人工智能的发展不断成长与变化,具备较长的职业生命周期与上升空间。”

      数据标注师需求多元化 门槛高低各不同

      天眼查数据显示,目前我国有2000余家与“数据标注”相关的公司。其中,成立1-5年的占比24.2%,成立10年以上的占比50.8%。

      人工智能训练师于2020年正式成为新职业并纳入国家职业分类目录。2021年,《人工智能训练师国家职业技能标准(2021年版)》发布,数据标注员是人工智能训练师的工种之一。

      德勤发布的《2022年人工智能基础数据服务白皮书》显示,2022年中国人工智能基础数据服务市场规模为45亿元,预计2027年市场规模将达到130亿-160亿元。胡驰认为,人工智能技术的迅猛发展,带来了大量AI算法的训练需求,这推动了数据标注产业的快速增长,人工智能训练师的规模也由此快速增长。

      数据标注工具使用户能够通过向数据添加属性标签或对其进行标记来提高数据的价值。使用标注工具的主要好处是数据属性的组合使用户能够在单个位置管理数据定义,而无需在多个地方重写类似的规则。

      大数据的兴起和大型数据集数量的激增,也需要使用人工智能数据标注领域的技术。蚂蚁公益基金会副秘书长黄庆委表示,数据标注行业有望受益于对机器学习改进需求的不断增长,以及对先进自动驾驶技术投资的不断增加。

      对于未来,帅双双表示,随着数据行业的发展,未来行业的门槛会越来越高。人工智能应用场景在不断细分,数据分类也更加精细化、复杂化,作为数据标注师必须不断学习以满足行业发展需求。

      胡驰表示,数据标注行业对人才需求具有多元性,不同的标注数据与场景,对人员要求也呈现出一定的梯度分布的特征。较为低阶的标注如标点、划线等,对标注人员的要求往往不高,普通人经过培训即可胜任;中高阶的标注,如对自动驾驶、大模型等的标注,则对标注人员的要求更高、更专业。而一些细分复杂场景可能会需要更专业、更高学历的数据标注师来提供数据服务。胡驰认为,“未来,随着人工智能的不断发展,数据标注可能将从劳动密集型产业转向技术型产业。”

  中青报·中青网记者 高蕾 来源:中国青年报