大模型时代下,人工智能对高质量标注数据的需求越来越高,使得数据标注的任务也越来越复杂,可以预见,贴合垂直场景的高精准定制化数据标注服务在未来将是市场需求主流。而随着对数据标注效率要求的不断提高,一方面对于技术方企业,提供大量高质量的标注数据集需要高效易用的标注平台;另一方面对于用户方企业,自身大量待标注数据也需要功能完备齐全的标注平台,商业化人工智能数据标注平台在功能全面性方面亟需标准规范指引。
人工智能数据标注平台功能专项评估内容
人工智能数据标注平台功能专项评估主要包含六个能力域,分别为“数据接入及预处理”、“数据标注”、“智能标注”、“数据交付”、“安全保障”、“生产管理”,各能力域涉及以下核心条目,其中基本功能71项,高级功能42项。
1.数据接入及预处理
数据接入处理,评估数据标注平台接入数据时的处理能力,包括数据接入过程的自动格式转换、数据清洗等;数据接入类型和方式,评估数据标注平台接入不同数据类型和方式的能力,包括接入图像、文本、语音等数据类型以及离线、在线等接入方式;数据预处理,评估数据标注平台数据预处理的能力,包括数据的增强、缺失值检测和处理等能力。
2.数据标注
数据标注,评估数据标注平台标注数据的能力,是平台的核心功能,包括图像、文本、语音、视频、3D点云、多模态等不同数据类型所需要的各类标注工具以及辅助标注的工具,充分提高标注的灵活性和效率。
3.智能标注
智能标注方式,评估数据标注平台智能标注的能力,包括智能预标注、辅助式智能标注等;智能标注类型,评估数据标注平台不同数据类型智能标注的能力,包括图像、文本、语音、视频、3D点云等数据类型。
4.数据交付
标注质检,评估数据标注平台标注质检的能力,包括不同数据类型的标注检查、质检方法以及生成质检报告单等;数据交付格式,评估数据标注平台交付不同数据格式的能力,包括结构化格式标签数据、语义表达格式标签数据等;数据交付组织形式,评估数据标注平台数据交付组织形式的能力,包括交付标注完成的数据、原始数据、数据集说明等;数据交付方式,评估数据标注平台数据交付方式的能力,包括离线交付、在线交付等。
5.安全保障
数据备份,评估数据标注平台备份数据的能力,包括标注全流程的数据备份以及备份的实时性可控;数据脱敏,评估数据标注平台保护数据的能力,包括图像、文本、语音等数据的脱敏处理;数据产权,评估数据标注平台数据产权保护的能力,包括交付中添加产权声明的数字水印。
6.生产管理
系统管理,评估数据标注平台管理系统的能力,包括用户管理、角色管理、平台使用权限管理等;项目与任务管理,评估数据标注平台团队标注的能力,包括项目管理、人员管理、流程管理等;统计分析,评估数据标注平台数据统计分析的能力,包括任务统计分析、人员统计分析等。
随着标注行业的发展,越来越多的企业将外包、众包等灵活用工方式应用于数据标注。行业内较为著名的数据标注产品例如:龙猫、倍赛、百度EasyData、京东众智等,均在标注平台自身能力的建设的同时,通过众包来解决人效问题,将繁琐的标注任务面向互联网自由职业者,以缩减企业人力雇佣、运营成本。这也是创跑标注平台未来的的发展方向,同时也期待着对行业赋能。