快捷搜索:

开发者福音!百度大脑EasyData提升数据管理全流程

在AI模型开拓中,数据筹备每每盘踞了大年夜量光阴。颠末长光阴的调研与造访,我们发明用户经常会碰到以下问题:

难以获取与场景数据匹配的练习数据。在详细营业场景中,模型的效果至关紧张,我们每每会追求高精度模型效果,以包管模型能做到替代人工、降本增效的终纵目的。众所周知,练习数据和场景数据的匹配程度会极大年夜影响模型体现,越切近应用处景的数据,更有可能练习出超高精度的模型。但可能由于历史缘故原由没有大年夜量现场的存量数据、或者从新采集必要进行大年夜量调研才能支配新的采集设备、又或者假如必要人工到营业现场去网络练习素材,不仅资源高,一旦营业呈现更改,也很难包管数据的实时性。

视频场景数据采集及处置惩罚复杂。在视频监控场景中,平日是多个摄像头覆盖多角度长光阴事情,孕育发生的视频文件体积大年夜,处置惩罚艰苦。对付一个最通俗的130W像素摄像头在2M码流的环境下,继续事情一天24小时,将会天生约21G的视频文件。在进行视频数据处置惩罚时,仅上传下载就会消费大年夜量光阴。对自动视频截帧、自动上传的需求呼声越来越高。

数据量、富厚度和数据质量欠佳。十分艰苦采集到的大年夜量营业数据,洗濯也是一项伟大年夜的事情,用户曾向EasyDL团队告急,自己采集好的图像数据由于拍摄角度问题呈现了整体偏斜的环境,影响标注效果和模型效果;也有用户表示想快速去掉落练习集中不清晰的图片,只保留高质量图片进行练习。这一系列数据洗濯的需求也同时被EasyDL的研发工程师们关注着。

在懂得开拓者在数据层面的诸多需求后,百度大年夜脑团队为开拓者带来了一款全新的数据产品——EasyData。从名字即可看到,EasyData环抱“Data数据”展开,重点关注AI模型开拓历程中的数据采集、数据洗濯、数据存储、数据标注、数据阐发等环节,办理以上开拓者反馈的种种数据治理问题。

作为业内首个供给软硬一体、端云协同的智能数据采集办事的平台,EasyData可支持图片、文本、音频和视频四类数据的处置惩罚,此中图片数据支持了采集、洗濯、标注一站式处置惩罚,且四类数据都已经支持将EasyData处置惩罚的数据利用于EasyDL模型练习,便于开拓者直接应用。

同时,EasyData延承了百度大年夜脑Easy系列产品简单易用的特点,界面简洁,操作流通。跟着产品的赓续进级与优化,EasyData也将会供给更多的数据偏向支持,持续为开拓者供给更周全与优质的智能数据办事。

接下来,我们从图片数据采集、数据标注、数据洗濯方面来懂得EasyData的特色和功能。

【采集软件助力快速获取练习数据】

在安防监控、工业质检等诸多领域,用户的数据滥觞将会是摄像头或者相机,面对大年夜量视频和图片,截帧、传输平日必要线下零丁操作,费时辛勤。斟酌到用户的这一需求,EasyData供给了一个官方采集软件,可以简单快速将摄像头的数据进行采集与截帧,并传输到数据集。今朝,这个采集软件已经支持Linux、Windows操作系统,同时还支持了主流的ARM开拓版RK3399。在摄像头方面,支持市道市面上绝大年夜多半USB的摄像头,并同时支持RTSP收集协议的摄像头,力争最大年夜程度覆盖用户的应用范围。

进入EasyData首页,如下图所示,在【数据采集】的【摄像头治理】中,即可一键下载本地软件。此软件支持图形化界面设置设置设备摆设摆设,简单易懂。用户经由过程此软件,可以添加设备并根据营业需求设置抽帧策略,并将图片传输至指定目录。在这两个功能的加持之下,原始图像数据接入EasyData变得十分方便,并且完成了图片的云端治理,大年夜量节省了零丁抽帧、传输的事情量。

如图所示,鄙人载图像采集SDK后,用户可以在EasyData平台中根据营业需求设置抽帧帧率、运行光阴,提交之后,支配在摄像头的SDK将会根据设定自行抽帧,用户可在【查看云数据】中查看同步到EasyData的摄像头数据,并保存到数据集中,进行下一步处置惩罚或练习。

为了进一步方便用户应用,今朝已经支持同时接入多台摄像头设备。在对摄像头进行云端治理时,用户可以查看每一台摄像头的在线/离线状态,确保摄像头在线以包管数据的上传。并且,经由过程筛选前提,用户可以查看单个或多个摄像头采集上传的数据。

EasyData也支持数据闭环模型优化策略,经由过程云办事调用获取数据,因为EasyData已经实现了与EasyDL的数据共享,这里的云办事指的是用户在EasyDL平台将模型宣布为公有云API后,在授权EasyData获取API调用数据的条件下,用户可以经由过程EasyData查找公有云API中识别差错的数据,保存到数据集进行洗濯、标注后,进行下一次模型优化练习,终极提升EasyDL公有云API调用的模型效果。

全部流程,如下图所示:

【多种标注要领省时省力】

在数据标注方面,EasyData不仅支持多类数据、多种模板的人工标注,还支持智能标注。只需用户进行少量关键数据的操作(平日为完成30%阁下的数据标注),即可一键化完成残剩数据的处置惩罚,在多轮标注之后,可以包管模型练习效果的持平,大年夜大年夜低落了数据标注的资源。今朝智能标注已支持物体检测、图像瓜分、文本分类。

在多人协同标注方面,EasyData可以和百度众测进行对接,未来还将推出全新的多人标注,让用户在平台直接进行标注义务的治理、分发和验收,更为便捷地完成协同操作,在短光阴内完成对大年夜量数据的处置惩罚。

【智能洗濯快速提升数据质量】

在影响模型效果的诸多身分中,数据质量始终是一个关键问题。尤其在浩繁应用EasyDL进行CV偏向模型开拓的用户中,图片的清晰程度、被检测物体的详细位置都邑对模型的终极体现孕育发生影响。

数据洗濯是很多用户等候已久的功能。EasyData不负众望,为用户供给了这一办事。在图像偏向,EasyData为用户带来了去隐隐、去近似、扭转、镜像和裁剪等洗濯和处置惩罚功能。此中,去隐隐、去近似、裁剪等功能异常试用于视频数据抽帧后的原始图片数据处置惩罚,适用于视频监控等营业场景利用获取高质量数据。

去隐隐:在应用去隐隐功能时,可以在图片上方看到一个清晰度调剂条,经由过程拖拽圆点拔取对应清晰度取值,将会仅保留清晰度高于此值的图片。以下图为例,当我们选择“保留清晰度大年夜于即是此值的图片:4959”时,仅有最右侧清晰度为5000的图片被保留下来。

去近似:与去隐隐相似,用户可以在图片上方看到一个近似度拔取条,经由过程拖拽圆点拔取对应相似度取值,只会保存相似度高于此值的图片。以下图为例,当用户选择“两图相似度大年夜于即是此值保留一张:0.57”时,仅有相似度为0.75的第一张图将会被保留下来。

扭转:根据示例中参考图片,经由过程下拉框可以选择不合的顺时针扭转角度,终极针对所有图片做扭转操作。

镜像:水平镜像是指将图像的阁下部分以图像垂直中轴线为中间进行镜像对换;垂直镜像是指将图像的高低两部分以图像水平中轴线为中间进行镜像对换;中间镜像是指将图像以图像水平中轴线和垂直中轴线的交点为中间进行镜像对换,相称于将图像先落后行水平镜像、垂直镜像。根据示例中参考图片,经由过程下拉框选择不合的镜像要领,终极针对所有图片做对应镜像操作。

剪裁:在随机图片中经由过程拖拽裁剪框边缘各点调节框大年夜小,终极针对所有图片只保留框选出区域。

必要留意的是,斟酌到用户数据的紧张性,用户在进行数据洗濯之后,可以选择保留洗濯前后的两个数据集,而非只能将洗濯掉落的数据进行彻底删除。今朝,数据洗濯已经支持了CV偏向,在未来EasyData的赓续优化中,将会覆盖更多偏向,预置更为富厚的处置惩罚和洗濯能力。

为了方便用户在模型的开拓中可以更好地借助EasyData的能力,进行高效精准的数据处置惩罚,EasyData与EasyDL的模型开拓和练习流程已经实现了无缝对接,支持数据集直接引用到模型练习义务中,一站式获取高精度AI模型。用户可以在EasyData进行数据采集、上传与数据洗濯等处置惩罚事情,无需零丁在本地进行数据处置惩罚再上传,节省了操作光阴,在操作界面和流程上也更为顺畅。

EasyData的目标,旨在为用户供给一站式智能数据办事,从数据采集、上传,到数据的标注、洗濯,覆盖数据治理全流程,应用EasyData一键完成数据筹备,缩短模型开拓光阴,并赞助用户在更优化的数据加持下,练习出效果更佳的AI模型,更好地赋能种种营业场景,加速AI落地。

急速搜索EasyData, 即可体验。

您可能还会对下面的文章感兴趣: