
文科女生给AI大模型“喂口粮”
编者按
当流水线工人变身AI训练师,当车间轰鸣转为数据流动,湖北以产业链的蓬勃生长,给出了“人去哪儿”的响亮回答:就业,正扎根于产业每一次迭代裂变的新赛道、新场景。即日起,本报开设专栏“就业长在产业上”,敬请关注。
文/图 湖北日报全媒记者 刘天纵
一张街景,人类一眼能看出“车、人、红绿灯、楼房、马路”;AI看到的只是一堆0—255的像素矩阵。
给数据打标,就是给AI“翻译世界”。数据标注师,应运而生。
在武汉理工大学科技园,览易(武汉)智能数据服务有限公司有一支500多人的数据标注师队伍,分布在省内外多个城市,平均年龄不到30岁。
27岁的恩施女孩黄雨晨就是其中一员。她2026年入职览易智能,现已从普通“数据标注师”成长为“项目经理”。让人意外的是,她的大学专业居然是汉语言文学。在数据、代码、算法满天飞的AI赛道,一名文科生居然挤进了核心岗位。
新手入门不算太难
披着齐肩短发、戴着黑框眼镜、穿着休闲T恤、揣着平板电脑和几本书……在览易智能门外初见黄雨晨,以为是去图书馆上自习的女大学生。
打开办公电脑,画面令人眼前一亮——连片的点状图、彩色的标注框、交错的标记线等,构成了一幅幅“赛博”风格的城市街景图。
“这就是数据标注——给文本、图片、视频、语音等各类数据‘打标签’‘写说明’‘加备注’,方便AI大模型学习理解。”黄雨晨解释道。
AI产业的三要素分别是数据、算力和算法。其中,数据是AI的“营养来源”,算力是“肌肉力量”,算法是“思考方式”,数据标注就是给AI制造“口粮”,将原始数据加工成机器学习算法可识别的内容。
比如,一张城市街景图,需要人用专业软件,标注出汽车、行人、道路、红绿灯、建筑、绿化带、车道线等各类元素,以训练AI大模型的“眼力”和“脑力”。
数据标注工作好上手吗?
“只要学习能力强、耐心细致且能熟练操作电脑,上手入门并不算太难。”黄雨晨透露,2026年大学毕业那年,湖北数据标注产业刚开始兴起,从业人员缺口大,抱着试一试的心态,她向览易智能投了简历。
新手任务都是入门级的。比如给汽车摄像头拍摄的照片做标注。这对黄雨晨而言,类似于用专业软件“P相片”,这正是女生爱好且擅长的。每张照片上的行人、车辆、道路等元素加起来,大约有60个“标注框”,黄雨晨每天能处理50至60张这样的照片,成为新职员中的佼佼者。
AI对数据“食材”的要求越来越高
精修两三张照片,或许小有乐趣。若一天要精修几十乃至上百张照片,难免心生厌倦。想当好数据标注师,就要不厌其烦。
“比起照相馆的精修相片,数据标注图像的精度要求高多了。”黄雨晨说,入行的第一年,她主要处理二维图像数据,即车载摄像头拍摄的照片。每张照片标注完后,公司会有专门的质检人员来检查标注质量,误差不能超过1个像素点。
如24英寸的显示屏,分辨率调成1920(宽)×1080(高)后,每个像素点长宽不到0.3毫米。黄雨晨标注一个人或一辆车,相当于在像素点“万花筒”中精准“抠图”。图像数据标注误差每提高1%,AI大模型训练效果就会大打折扣。
黄雨晨称,数据标注师每天的工作按“计件”考核,效率高的人可以多劳多得,标注速度慢、质量不高的人,只能花更多的时间和精力来补短板。此外,车企投来的订单多涉及新车型研发和排产计划,要求数据标注师每天必须按节点完成工作任务,一刻也拖不得,所以熬夜加班是常态。
因业绩突出,黄雨晨一路从数据标注师、小组长、项目主管成长为项目经理,统筹览易智能多个项目的培训、客户对接、排产、交付等工作。她经手的项目类型,也从汽车领域,延展到工业制造、智能安防、新零售、医疗、金融等多个行业。
“AI大模型几乎每三四个月就迭代一次,市场对数据标注的需求越来越大,标注的内容也越来越复杂。”黄雨晨说。
以自动驾驶为例,黄雨晨参加工作的前几年,主要标注车载摄像头拍摄的二维图像数据,框出图像中的车辆、行人、交通标志等目标。
由于二维图像数据无法感知距离和空间,由激光雷达、毫米波雷达生成的三维点云数据标注快速发展。
然而,自动驾驶车辆在行驶过程中,周遭环境是动态的,三维点云数据仅提供了静态的空间场景,因此包含时序信息的四维标注于2024年开始兴起,能更全面地描述物体的运动轨迹、形态变化以及与环境之间的互动关系。
目前,从蔚来、理想、吉利、东风、长安等车企向览易智能发来的订单看,四维点云数据标注已成主流。“这说明中国自动驾驶技术在飞速发展,AI对数据‘食材’的要求越来越高。”黄雨晨说。
帮AI摆脱“精神内耗”
黄雨晨将人工智能产业解构为“人工+智能”,AI大模型越来越聪明的背后,是广大数据标注师日以继夜的默默奉献。
览易智能创始人、总经理张雪娇是名“90后”,黄雨晨等数据标注师一路成长的艰辛,她看在眼里。
张雪娇透露,最近几年,国内每年都会新增几百家数据标注企业。
“企业要在智力密集型行业里生存下来,必须有自己的‘技术护城河’。”张雪娇介绍,借助武汉理工大学在汽车产业领域的背景优势,览易智能从广大车企的数据标注需求破题,自主研发了“line”数据标注与管理平台,可实现数据“采集—清洗—脱敏—标注—质检—训练”等一站式处理。
“line”平台最立竿见影的效果是提升数据标注效率和质量,为数据标注师减负。
以四维点云图像数据为例,每张点云图像包含100至500帧画面,每一帧画面都至少要标注上百个点、线、框。若让人纯手工标注,几个小时离不开座位。
而“line”平台能自动完成70%以上的预标注任务,支持多人、多团队协同标注,并能提供智能质检功能。数据标注师需要做的就是帮AI查缺补漏,提升整体标注效率30%以上。
拥有高质量的数据集,才能训练出高质量的AI大模型。加工者越细致、越专业,数据集的质量越高。就像医疗影像数据,主任医师的手工标注质量,大概率高于医学院大学生。
目前,金融、医疗、具身智能等行业已成为企业新的订单增长点。张雪娇认为,数据标注行业已进入高速发展期,对人才需求量巨大,湖北作为科教大省,拥有得天独厚的优势。览易智能成立5年来,协同相关高校开展技能培训,已累计培训数据标注人才上万人次,让就业真正“长”在了产业上。
)
)
))
)
)

)
)
)
)

)
)
)
)
(红霉素软膏可以去眼袋吗))