会同| 望谟| 赣县| 合浦| 甘泉| 和龙| 邹平| 罗城| 乌兰| 盐亭| 道真| 阳原| 乐山| 左云| 九台| 高雄县| 瑞丽| 凤翔| 喀喇沁左翼| 潘集| 巴中| 东乡| 清原| 新洲| 南昌县| 焦作| 苏州| 玛纳斯| 咸阳| 十堰| 任县| 南海镇| 泾县| 五家渠| 五台| 南郑| 当阳| 双流| 古交| 驻马店| 金口河| 襄阳| 金塔| 莱州| 浦江| 阳信| 耒阳| 武平| 太仓| 宝应| 佛冈| 洪洞| 乐平| 安化| 洮南| 安康| 寻甸| 丰都| 江津| 宁城| 仲巴| 永德| 陇县| 伊吾| 博野| 封开| 庆阳| 册亨| 高邮| 呼伦贝尔| 康乐| 龙山| 永平| 辰溪| 汉南| 永顺| 花垣| 奉新| 云霄| 电白| 新乡| 韶山| 株洲市| 河北| 东阿| 荔波| 凤山| 昔阳| 翁源| 浪卡子| 罗田| 南丹| 汪清| 兴城| 鄂伦春自治旗| 大竹| 临夏县| 马鞍山| 莘县| 东阿| 平远| 南雄| 邕宁| 桦甸| 高安| 东营| 海口| 安吉| 隆回| 邯郸| 天山天池| 阳信| 隆子| 栖霞| 屯留| 武宁| 托里| 鄯善| 奇台| 雅安| 麦积| 白朗| 义马| 桂平| 遂川| 饶阳| 华蓥| 延长| 且末| 海林| 合肥| 道孚| 平鲁| 海宁| 高阳| 南投| 山东| 奉化| 获嘉| 蔚县| 澄迈| 保康| 北辰| 宁河| 吴桥| 巍山| 海城| 青川| 炉霍| 迁安| 惠农| 桃江| 华亭| 费县| 平遥| 米林| 上杭| 兖州| 博鳌| 黄陵| 上饶市| 伊通| 台北县| 保定| 增城| 米泉| 隰县| 顺德| 宣化区| 泾川| 神农顶| 凤阳| 周口| 苍梧| 凤台| 阿克塞| 温县| 祁阳| 山阳| 铅山| 泾川| 高邑| 柏乡| 白云| 磐石| 西平| 新泰| 上犹| 博山| 遂昌| 孟州| 积石山| 吴堡| 凤台| 万山| 安图| 平顺| 正宁| 故城| 怀化| 宜黄| 平江| 上犹| 英德| 澳门| 湖口| 涪陵| 相城| 东台| 阆中| 温江| 花溪| 天等| 赤水| 蒲江| 建阳| 凤翔| 化德| 利川| 集美| 灌阳| 大同县| 滑县| 宣恩| 宝鸡| 怀化| 岚县| 额敏| 华县| 汝城| 钟山| 行唐| 故城| 崇义| 黄山区| 偃师| 耿马| 白碱滩| 龙湾| 平泉| 博罗| 洛川| 颍上| 左权| 乌拉特中旗| 渑池| 紫阳| 辽阳县| 昭苏| 阜新市| 潼关| 乐山| 正宁| 洮南| 杭锦旗| 友好| 海兴| 大同市| 蔡甸| 兖州| 白河| 台南市| 九寨沟| 衡南| 百度
正在阅读: 人工智能背后的人工力量:机器学习必需数据标注
首页> 时政频道> 国内 > 正文

人工智能背后的人工力量:机器学习必需数据标注

来源:科技日报2019-09-14 09:01
百度   迎来新生  保护迫在眉睫。 百度   接受联络员聘书的北京大学研二学生陈莎莉说道:“家乡玉环发展越来越好,作为玉环走出去的人才,我很是骄傲。 百度 跨境电商作为重要的数字贸易方式正在快速发展,据测算,2016至2020年全球跨境电商B2C将保持27%的年均增长。 百度 军寮 百度 六角亭街道 百度 丽景花园

调查问题加载中,请稍候。
若长时间无响应,请刷新本页面

  资料图:市民用手机体验最新产品。殷立勤 摄

  “目前我国已有庞大的数据加工队伍,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人大概超过千万,很多头部的互联网技术企业都有自己的数据标注公司。”

  目前人工智能落地场景不断丰富,智能化应用正改变着我们的生活。而在AI产业高速发展的背后,数据标注师这个新职业的从业人数也正在壮大。数据标注行业流行着一句话,“有多少智能,就有多少人工”。目前AI算法能学习的数据,必须通过人力逐一标注,这些人力为AI产业提供养料,构建了AI金字塔的基础。

  近日,支付宝公益基金会、阿里巴巴人工智能实验室联合中国妇女发展基金会在贵州铜仁万山区启动了“AI豆计划”,这是该计划在全国启动的第一个试点地区。作为一种 “AI+扶贫”的公益新模式,计划旨在通过AI产业释放出的大量就业机会,在贫困地区培训相关职业人才、孵化社会企业,让贫困群众实现在家门口就业脱贫。

  这些从业者不需要背井离乡,她们可以受训上岗,为AI机器学习进行数据的分类和标注工作,让机器可以快速学习和认知文字、图片、视频等内容,成为一名“AI培育师”。

  机器学习必需数据标注

  AI数据标注员被称作“人工智能背后的人工”。“数据是人工智能的血液。当下是大数据基础上的人工智能,是数据智能的深度学习时代,可以说谁掌握了数据,谁就有可能做好。”中科院自动化所研究员、视语科技创始人王金桥告诉科技日报记者。他解释,当前的人工智能也被称作数据智能,在这个发展阶段,神经网络的层数越多,神经网络越深,需要用于训练的数据量越大,“比如目前人脸识别做得好的是中青年人脸识别系统,因为年轻人坐车住酒店,采集的数据量大,小孩和老年人数据相对较少。”

  但同时,只有数据是没用的。对于深度学习来讲,数据只有加上标签才有意义,才能用于机器的学习和进化。“标注是一个必须的工作。”王金桥说。

  王金桥介绍,从数据的收集、清洗、标注到校验都离不开人工。数据标注最基本的就是画框,比如检测目标是车,标注员就需要把一张图上的所有车都标出来,画框要完全卡住车的外接矩形,框得不准确机器就可能“学坏”。再比如人的姿态识别,就包括18个关键点,经过训练的标注员才能掌握这些关键点的标注,标注完成的数据也才能符合机器学习的标准。

  不同的数据类型对标注员的要求也不一样。除了一般较为简单、可以通过培训掌握的标注,还有一些需要专业背景的标注,比如在医疗数据标注中,标注员需要做医疗图像的分割,把肿瘤区域标出来,类似工作就需要看得懂片子的医生完成。再比如地方方言或外国文字,需要的也是掌握那门语言的标注员。

  人工标注帮助AI快速落地

  随着人工智能的发展,数据的训练量非常大,数据标注公司应运而生,这些公司以网络方式运作,一个平台有产品经理和项目经理,接到一个任务就找人来做,大家通过网络群组报名后,由产品经理来培训,之后各自领取自己的任务,登录账号进行标注,检验经理校验合格后就付钱,不合格则需要重新修正。

  “目前已经形成庞大的数据加工队伍,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人大概超过千万,很多头部的互联网技术企业都有自己的数据标注公司。”王金桥说,“这个阶段数据对性能的贡献是最大的,数据越多越丰富、代表性越强、模型效果越好,算法的健壮性和鲁棒性就越强。目前情况是大部分AI公司都还没有实现盈利,但标注公司除外。”

  据王金桥介绍,国外也是一样,无人零售、无人驾驶等都需要大量的人力,基于用工成本的问题,除了隐私数据之外,他们会把标注工作放在第三世界国家完成,马来西亚、泰国、印度等国家都有数据标注分公司。

  常见的报道中,数据标注总被描述为“血汗工厂”,这项工作和从业者被描述得廉价低质,人被重复性机械式的劳动异化。在王金桥的解释下,这一刻板印象也被逐渐打破。

  他直言,目前这种大量的人工标注是有价值的,因为理论上解决问题很难,但有了大量数据,设计深度学习网络,可以在特定场景特定应用中用数据训练神经网络,从而在很多场景中可以让AI快速落地占领市场、驱动行业应用、促进行业升级和迭代。

  “比如在手机玻璃缺陷、高铁轨道的缺陷、电网高压线绝缘子损坏等检测工作中,无人机拍摄画面后,由人来检测,随着数据量增加,机器得到的训练越来越充分,机器慢慢可以自动检测,类似工作可以很大程度上由机器代劳。”王金桥说,目前人工智能的智能性虽然比较弱,但在各行各业都会带来改变,这是AI推动产业革命的机会。

  数据标注需求持续增加

  “现在科研界研究的都是无监督、小样本的深度学习,通过三维合成数据,用虚实结合的数据生成方式来训练机器,尽量减少数据的采集和标注,让机器自主学习、自主进化。”王金桥说,但由于缺乏理论上的突破性技术,所以虽然技术增长速度很快,但整体水平还比较低,目前的深度学习还是依赖基于统计意义的大数据模型,这要求数据足够多、足够均衡、基本满足真实世界的分布。

  因此,标注这项工作会一直存在。

  但王金桥也表示,随着无监督、小样本深度学习的进步,重复性标注的工作量会越来越少。“机器的识别和人一样,人经过几千年的进化,用语言用文字记录和存储几千年的文明,所以看到桌子就知道是桌子,看到灵芝知道是灵芝。机器也需要不断理解更多的内容,有数据标签,它才能学习,才会有智能。数据的加工是一个长期存在的过程,由画框到基础词汇,慢慢形成自己的知识图谱,才能自我推理和思考。”

  目前的数据标注公司基本采取“计件付费”的模式,标注员的待遇与任务量和难度直接相关,熟练工一天能标几千张图片,月收入最高过万。这项工作也有一定专业性,受过培训才知道怎么标、标得清楚,人也要认真细心。“每天产生的数据量太大了,数据量持续增加,对标注的需求也持续增加。”王金桥说。

  据阿里巴巴集团副总裁、阿里巴巴人工智能实验室总经理陈丽娟介绍,贵州万山仅仅是一个起点,未来项目的整体规划将聚焦贫困地区,寻找更多更适合发展“AI标注”产业的地区来落地。同时,也希望更多的人工智能企业加入,把AI标注的订单定向输送给贫困地区,为贫困群众提供更多就业机会。陈丽娟说。

  延伸阅读

  AI数据服务发展新方向:细分化、多模态、专业化

  数据表明,当前AI发展出现了细分化、多模态以及专业化三大特征。相应的,新变化对于AI数据服务行业也形成了一定的影响与方向指引。

  当前AI已经进入技术落地阶段,应用场景涉及安防、金融、家居、交通等各大行业。而未来,在数据标注行业,从业者也将随着AI行业而一同进入细分市场追逐阶段。

  同时多模态也成为了AI技术发展的一个特征。所谓多模态,即是对多维时间、空间、环境数据的感知与融合。如当前的自动驾驶需要雷达+摄像头才能跑的更稳,安防行业需要摄像头+雷达红外RFID才能感知得更精准、更真实。而在数据服务产业,企业也需要适应AI技术发展的多模态特征,掌握对多维传感器融合的数据采集与标注。

  此外,尽管当前AI技术已经进入落地阶段,但是头部AI企业的落地场景相较传统行业的AI落地场景,在技术上会更有前沿性。而这些企业的一些先进技术研究也很有可能成为未来数据服务行业的一大发展方向,所以数据服务企业也需要在这些前沿场景中不断探索,才能在行业竞争中获得长期发展。

[ 责编:张璋 ]
阅读剩余全文(

相关阅读

您此时的心情

新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 五彩大地硕果丰

独家策划

推荐阅读
81岁的胡安民是满族人,人称“跳绳王”。在第十一届全国少数民族传统体育运动会的赛场上,他与团队带来的表演项目花样跳绳一出场,便吸引了全场观众的目光。
2019-09-14 08:20
2010年以来,西藏已普查登记古籍文献18000余函,有291函古籍入选国家珍贵古籍名录,成功修复白嘎寺、墨竹工卡县芒热寺的3000余页古籍。
2019-09-14 08:20
今年7月,红旗渠全面建成通水50周年。50年前,这里万人空巷、欢庆渠成。50年后,这里依然渠水奔流、激励人心。人们更多是在寻找那股永不枯竭的精神之源。
2019-09-14 08:11
9月14日拍摄的金色池塘生态景区一景。初秋时节,西藏拉萨市达孜区塔杰乡巴嘎雪村金色池塘生态景区景色怡人。
2019-09-14 08:08
尼木县隶属于西藏自治区拉萨市,地处西藏中南部、雅鲁藏布江中游北岸。这里山峦起伏,河谷纵横,地形西高东低,平均海拔4000米以上。每到秋收时节,这里的农田由于农作物种植时间不同,种类各异而呈现不同的颜色,从空中俯瞰,犹如一个巨大的天然调色板。
2019-09-14 08:05
9月14日,中国队主教练郎平(前排右二)在比赛间隙指导球员。当日,在日本横滨举行的2019年女排世界杯赛第一阶段A组循环赛比赛中,中国队以3比0战胜韩国队。当日,在日本横滨举行的2019年女排世界杯赛第一阶段A组循环赛比赛中,中国队以3比0战胜韩国队。
2019-09-14 08:02
70年来,新中国在发展中实现和谐。56个民族、亿万中华儿女同心筑梦,奏响了百姓和顺、城乡和美、社会和谐的美妙乐章。
2019-09-14 07:59
当日,马来西亚吉隆坡的华人社区为庆祝中秋节,竖起一个立体的月亮模型气球,吸引市民前来参观、拍照。新华社发 (张纹综摄)  9月13日,在马来西亚吉隆坡,市民在月亮模型气球前拍照留念。
2019-09-14 09:18
9月13日,游客在北京世园会阿联酋馆参观。当日,2019年中国北京世界园艺博览会“阿联酋国家日”活动在北京世园会园区举行。当日,2019年中国北京世界园艺博览会“阿联酋国家日”活动在北京世园会园区举行。
2019-09-14 09:13
9月13日,台北动物园大熊猫“圆仔”在品尝果蔬串。当日,台北动物园熊猫馆的饲养员特制月饼和果蔬串等食物,让大熊猫和人们一起欢度中秋。当日,台北动物园熊猫馆的饲养员特制月饼和果蔬串等食物,让大熊猫和人们一起欢度中秋。
2019-09-14 09:09
苦聪姐妹张民勒和张民松和同学们在云南省者米乡下纳咪小学内上课。
2019-09-14 09:06
地球“第三极”青藏高原腹地,高山群岭耸竦,冰川湿地绵延。在40万平方公里范围内,大大小小的溪流、沼泽、湖泊交织、汇集,形成长江、黄河、澜沧江源头,奔涌而出。
2019-09-14 09:03
9月12日,在德国法兰克福的欧洲中央银行总部,欧洲央行行长德拉吉(中)在新闻发布会上介绍情况。欧洲中央银行12日召开货币政策会议,宣布下调欧元区隔夜存款利率至负0.5%,同时维持欧元区主导利率为零、隔夜贷款利率为0.25%不变。
2019-09-14 08:18
安徽黄山奇墅湖雾气氤氲
2019-09-14 09:48
加载更多
索家坟村 区武装部 梨树县 锦江路里 温江路 大关小区北 麻营 阎家渠 高淳监狱
茄荚 肇庆 高脊岭乡 庆龙居委会 招集社区 后李甲 市运管处 安平开发区 华苑产业区科馨别墅北区一层
石狮市灵秀镇镇政府 晋中 华实道 沈家门街道 淄博 华清园 人民南路四段北 支家村村 和龙县 山东胶州市营海镇
https://www.whr.cc/bbsitemap.htm