博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据标注工厂里的职业生涯!
阅读量:5781 次
发布时间:2019-06-18

本文共 1671 字,大约阅读时间需要 5 分钟。

随着人工智能行业的发展,也带动了数据标注行业的火热发展,而刚毕业的大学生则怀揣着自己的创业梦想走入了充满憧憬的人工智能标注行业,从此成为了一名标注员。

数据标注是一项枯燥的工作,而在龙猫数据标注团队里则每天忙忙碌碌的标注员除了辛勤的工作之外也创造了一个又一个数据标注的奇迹。

在北京海淀区的知春路,坐落着几栋高楼,龙猫数据则就在这里了。小标是龙猫数据的资深标注员了,他在这家公司已经两年时间了,伴随着一个又一个项目的完成小标已经记不起做过多少个项目了。小标是广东某高校的毕业生毕业就来到这家公司从事标注工作,一恍两年光景。从中学习了很多丰富的标注和采集经验。虽然小标工作很繁忙但每次见到他时都是乐呵呵的开朗阳光。

小标正对着电脑用鼠标“贴标签”:将一张普通道路交通图中的机动车、行人、非机动车逐一框中……贴标签的目的是教人工智能看图识物,他们被叫作“数据标注员”。

当前,以互联网、大数据、人工智能为代表的新一代信息技术日新月异。人工智能在去年、今年两度被写入政府工作报告;而大数据,已经成为世界认识贵州的新名片。在脱贫攻坚主战场的贵州,大数据的经济增速已连续7年位居全国前列。

产业勃兴,数据标注员因此成为新兴职业。多名业内人士告诉记者,目前国内至少有大小近千家标注公司,共20余万名数据标注员。

“教机器认识这个世界”

这是一张微笑的普通女性的脸,她的鼻子、嘴巴、眼睛、眉毛和脸部轮廓布满了点,一共有149个,它们被叫做“人脸关键点”。

小标与同事们坐在电脑前,将图片放大,用鼠标移动这些小点,使它们落在合适的位置。小标浏览了成千上万张人脸图片,在他的眼中,这些人脸没有肤色、性别、老少之分,只有清晰与模糊的区别,一张像是从监控摄像里截取的模糊图片会让他多花几倍时间。

人工智能本身不会识别物体,而要依靠海量训练。当人脸关键点被一一标注之后,计算机才能建立起对人脸的认知。而人脸关键点的数目并不固定,不同数目的背后连接的是不同的算法。“小标们”只需按照人工智能工程师们设定的数目规范来标注。换言之,这些数据标注员并不需要了解算法之复杂,他们所做的,更像在工厂流水线重复作业。

可不就是“画框的”?几十个人坐在电脑前按动鼠标画框,机动车分成大型车、小型车,非机动车分成自行车、摩托车、三轮车,还有行人、交通信号灯,都要一一框起来。

“标注员都是‘滚雪球’带教带出来的,那时一个人一天要画几百个框,以至于后来走在路上看什么东西都想画个框把它框住。”

“后来,看到无人驾驶汽车在美国的硅谷跑,在乌镇的世界互联网大会跑,说实话还是蛮振奋的。”他们笑着说,不管科技有多先进,至少无人车里出现的路况扫描图像他是熟悉的,“也许那就是我之前标注过的。”

那种感觉,就像一不小心踩到了时代潮流的浪尖上。

数据标注行业有一套明确流程:上游的人工智能公司将项目交给中游的数据加工公司或众包平台,后者自行加工或分包给下游的小公司、小作坊,有的小作坊还会分发给“散兵游勇”,比如学生或二三线城市的兼职人员。

而到了下游,项目经过层层转包,利润已经低得吓人。“这与我们一线标注员的付出是不对等的。”曾芸说,早期梦动科技只能从中游的众包平台获取项目,现在则尽量直接对接上游客户。

对一般的数据标注员而言,职业生涯是一眼望得见头的:从一线标注员做起,然后是质培专员(相当于质检)、项目组长、项目主管、项目经理,最后是部门总监。

短短两年间,从小小的鼠标一端,小标便感受到了另一端世界前沿科技进步的速度,“以前无人驾驶汽车框出基本轮廓就可以了,现在不只是从2D平面进化到3D立体,还要标注车头的方向。”

实际上,数据标注本身也是一个要用人工智能来改造的行业,标注工具也正在迭代升级。比如,人脸识别最早均由人工标注关键点,但眼下吴潘威接到的项目里,机器已经打好点,标注员要做的只是最后的校正。!


作者:龙猫数据

来源:CSDN
原文:
版权声明:本文为博主原创文章,转载请附上博文链接!

转载于:https://blog.51cto.com/14318983/2390257

你可能感兴趣的文章
Microsoft发布了Azure Bot Service和LUIS的GA版
查看>>
Google发布Puppeteer 1.0
查看>>
.NET开源现状
查看>>
可替换元素和非可替换元素
查看>>
2016/08/25 The Secret Assumption of Agile
查看>>
(Portal 开发读书笔记)Portlet间交互-PortletSession
查看>>
搭建vsftpd服务器,使用匿名账户登入
查看>>
JAVA中循环删除list中元素的方法总结
查看>>
Java虚拟机管理的内存运行时数据区域解释
查看>>
人人都会深度学习之Tensorflow基础快速入门
查看>>
ChPlayer播放器的使用
查看>>
js 经过修改改良的全浏览器支持的软键盘,随机排列
查看>>
Mysql读写分离
查看>>
Oracle 备份与恢复学习笔记(5_1)
查看>>
Oracle 备份与恢复学习笔记(14)
查看>>
分布式配置中心disconf第一部(基本介绍)
查看>>
Scenario 9-Shared Uplink Set with Active/Active uplink,802.3ad(LACP)-Flex-10
查看>>
UML类图中的六种关系
查看>>
探寻Interpolator源码,自定义插值器
查看>>
一致性哈希
查看>>