【环球网科技报道 记者 林迪】特斯联的首间人工智能开放创新中心(下称:科创中心)于日前宣布在德阳AI PARK落地运营。据介绍,科创中心最核心的技术亮点,是解决前述问题而打造的弱监督大模型训练体系及联邦学习安全训练体系。
具体来看,特斯联科创中心致力于通过九章算法赋能平台向不具备AI能力或弱AI能力的用户提供AI算法孵化服务能力,因而弱化机器学习对标签数据的依赖、弱化人工参与算法训练为重中之重。目前针对计算机视觉、自然语言处理、推荐预测、知识图谱四个方向共十三个细分项,特斯联与学术生态及产业合作伙伴已展开深入合作,并打造了弱监督体系训练平台。其中,在计算机视觉领域,基于对比式自监督学习(Momentum Contrast,下称:MoCo)框架,特斯联构建了CV弱监督自训练引擎,包括图像分类、目标检测、实例分割三个领域。
据特斯联相关技术人员称,在计算机视觉现有的弱监督学习框架中,由于memory bank思路易于实现,其应用最广也最为成熟。然而这一思路也存在着明显的缺点:首先,每一轮训练需要对所有样本特征进行存储,其内存空间消耗巨大;此外,所有样本特征仅在每轮训练结束后方可更新,导致更新延迟,实验效果并不理想。
为此,特斯联研发团队选择采用MoCo系列自监督学习框架作为基础学习框架进行优化,研发出了自训练引擎及相关算法。
MoCo是一种在高维连续输入中建立离散字典的方法,字典是动态的,键值(keys)是随机采样得到的,编码器(key encoder)在训练中进行更新。假设好的特征可以从包含大量负样本的字典中学习而来,而编码器能够在更新中尽可能保持一致。在MoCo框架的训练过程中,每一步训练均会以“批次(batch)”为单位,将当前批次样本特征更新至队列,并将最旧的批次样本特征从队列剔除,实现动态存储,将memory bank的样本特征可存储数量与批次大小(batch size)分离,提升训练效率。
上述技术人员对记者表示,特斯联CV弱监督自训练引擎技术在传统的MoCo系列自监督学习框架上,做出了五个方面的创新:一是特斯联将MoCo中采用动量编码器的方式改为指数加权移动平均(EMA)算法更新,各数值的加权影响力随时间呈指数式递减,时间越靠近当前时刻的数据加权影响力越大,以此来提高当前和较早期键值之间表示的一致性。二是将BYOL(由Google DeepMind提出的算法)中的非对称编码器、非对称数据扩充、动量调度,与MoCo中的动量设计、键队列、对比损失相互结合。三是吸纳ReLIC自监督学习算法思想,将因果框架引入MoCo,通过因果不变性原理,在主流的InfoNCE损失函数上进行优化,显性约束模型的学习目标,鼓励模型学习到图像中的核心内容。四是引入sum-tree数据结构代替队列结构,实现高效的优先级存储,完善“样本特征淘汰机制”。五是将Transformer中的convolutional stem替换为patchify stem,在稳定训练的同时提高训练效率,降低超参数的影响。
其中,特斯联的CV弱监督自训练引擎在工业场景中的价值更加明显。
众所周知,在工业互联网实践中,大量工业算法的研发以缺陷检查为目标。然而坏件本身是个小样本事件,且坏件形态各异,因而在数据收集层面以及数据人工标注层面,使用标准的大量有标签的坏件数据对检测模型进行训练,在产业中的实现难度极高。
特斯联CV弱监督自训练引擎及优化后的MoCo框架则可帮助厂家将此产业难题分解成多个简单的子问题来解决。厂家可先从工业生产环境收集大量零件图像样本并对少量坏件数据进行标注,然后根据平台提供的评估指标选定模型,即可在无需标注的情况下直接使用零件图像样本开启训练。
在开启预训练流程后,CV弱监督自训练引擎首先会结合数据以及下游任务目标进行分析,为模型自构一个或多个自学习子任务,然后借助优化后的MoCo框架,帮助模型不断学习和挖掘零件图像样本中的有效信息,例如正常零件纹路,正常零件外观,正常零件隐性特征等等。完成预训练流程后,引擎将进入下游任务训练流程,配合半监督技术和少量坏件数据再次训练。待训练完成,即可得到最终的检测模型,帮助厂家完成大规模缺陷检查任务。
因此,CV弱监督自训练引擎的应用可以充分利用现有的沉默数据,降低数据标注的人力成本及时间成本,而优化后的MoCo框架不仅仅提高了精度,也在一定程度上降低了计算资源的消耗,提升了计算的效率。
在特斯联看来,降低机器学习过程中的人工参与,即可在一定程度上让更大范围的企业有机会参与到人工智能的研发当中,也推动AI向更为细分的领域渗透。
特斯联创始人兼CEO艾渝对此表示:“就像是AI产业发展的木桶原理,如果细分市场的发展相对较慢,那么整个AI产业的推进也会有困难。我们希望通过科创中心以及特斯联自身的技术专长,帮助中小微企业缓解AI研发中的问题,找到AI有效应用落地的路径,也带动整个AI产业,再向前走一步。”
关键词: MoCo
责任编辑:Rex_07