就在2020年,台湾催生出世界第一物件侦测模型YOLOv4,完胜当时各大科技巨头打造的物件侦测AI,也将台湾推向世界级电脑视觉技术研发重镇行列。2年後,YOLOv4原班团队中研院资讯所所长廖弘源与中研院资讯所助研究员王建尧推出另一物件侦测新作YOLOv7,去年7月正式登场,再次击败当时各大SOTA模型。
这一次,团队同样研发新技术和新策略,来设计这套模型。这包括更轻巧更有效率的网路架构ELAN、多任务模型YOLOR,以及特殊优化的训练策略Trainable bag-of-freebies。
这些新技术跳脱传统机器学习思维,各有突破,互相加成之下,使YOLOv7更轻、更快,也更准确,还能执行多种任务,如物件侦测、实例分割和关节点侦测,是少数兼具轻巧与多任务特色的电脑视觉模型,更与近来崛起的多模态多任务AI趋势不谋而合。
开发经验连点成线,从物件侦测到多任务
中研院团队过去的开发经验,催生出这些技术创新,而这些技术创新,也揭示下一步走向。
2017年,台湾开始推动AI产业化、产业AI化,当时的科技部(现国科会)提出「业界出题、学界解题」AI计画,来媒合产学双方,用AI解决产业问题。当时,中研院团队与义隆电子媒合,制定出2018年至2021年解题目标,要在4年计画中打造又轻又快又准确的物件侦测模型,好部署在道路监视器上,发展智慧交通应用。
身为解题核心成员的廖弘源与王建尧,先是在2018年以ResNet为基础,改良学习策略,发展出局部残差网路(PRN),来进行影像辨识。PRN虽比YOLOv3快两倍,但准确度略逊YOLOv3,为此,团队隔年打造出跨阶段局部网路(CSPNet),改善卷积网路梯度消失问题、解决学习效率不佳原因,并增加梯度组合、最大化梯度多元性,提高网路学习能力。
也因为CSPNet,YOLO Darknet框架维护者Alexey Bochkovskiy与中研院团队牵上线,共同改良CSPNet,於2020年发表YOLOv4,在同年MSCOCO物件侦测竞赛中,拿下全球第一。
那时起,中研院团队将目光从物件侦测转向另一领域,挑战难度更高的单一模型多任务方法,要通吃各大电脑视觉任务。於是,中研院团队往2方向同时前进,一是设计轻量网路架构,他们同样从梯度来改良,以梯度路径分析方法让模型更好地学习特徵,跳脱传统机器学习特徵工程思维,并在2020年11月开发出ELAN。另一方向则是多任务表徵学习方法,透过设计一个能保存所有输入资料特徵的统一网路,来实现一心多用,并在隔年5月发表成果模型YOLOR,一登场就在国际竞赛夺下实战成果。
这2大技术,再加上改良的模型训练策略,团队整合发展出YOLOv7,不论速度、准确度,都超越当时的主流网路架构,包括卷积网路(CNN)和Transformer类模型,以及热门物件侦测模型如YOLOR、YOLOX、Scaled-YOLOv4、YOLOv5,和Transformer类的DETR、Deformable DETR、DINO-5scale-R50、ViT-Adapter-B等。
可以说,第七代模型集结了中研院YOLO团队数年来的开发结晶,不仅有过往训练策略优化的影子,也有新颖的单一模型多任务方法。
这个多任务元素,更与时下AI圈发展趋势吻合,同时点出团队接下来的发展焦点。他们下一步将继续朝单一模型多任务领域前进,但也瞄准知识图谱和图神经网路,要来辅助模型执行多任务,并以此打造更安全的模型。因为,擅长处理关系网路的图神经网路和知识图谱,能帮助拆分AI黑盒子,将问题拆解为更细的子问题,协助开发者推导出问题所在,解释决策原因。
开发物件侦测模型YOLOv7的中研院团队以MSCOCO资料集测试YOLOv7与其他SOTA模型效能,发现不论是推论速度还是准确度,YOLOv7都比其他模型好,甚至比YOLOv5快上1.2倍。图片来源/王建尧
不只与YOLO系列模型比较,中研院团队也将YOLOv7与另一主流电脑视觉架构Transformer评比。结果显示,不论速度还是准确度,YOLOv7一样优於Transformer系列模型。图片来源/王建尧
兼顾研发和部署生态圈,推动AIoT发展
中研院团队开发的YOLOv7,不只有新技术的突破,发展策略也有很大的变革,更聚焦生态圈的布局,改用主流开发框架PyTorch开发,并自建转换器,同时支援Darknet框架版本,满足开发与部署需求。
以前,团队开发第四版时,仍旧沿用YOLO系列模型惯用的Darknet框架来开发。因为许多边缘装置的主要语言为C,所以,Darknet开发者也惯用C++和CUDA语言,方便将物件侦测模型部署到边缘装置上。但是以Python语言为主的PyTorch框架,使用者族群庞大,更是先进技术开发者优先使用的框架之一。
因此,中研院团队这次决定同时支援2种框架,不只因应不同生态,也因应未来的技术发展相容性。
甚至,第七代模型的精简架构改变,还能降低AIoT应用门槛,让物件侦测AIoT更普及,一如产学AI计画的初衷。这是因为,AI模型设计越精简、使用的运算单元越简单,对晶片设计的要求也就越简单。这意味着,运算资源有限的低阶设备或边缘装置,也可以部署轻巧精准的AI模型,企业不必砸重本客制化晶片,也能扩大AIoT的使用。这个架构简单的模型,不但不需大量硬体运算资源,还能成为节能的新选择,呼应净零排碳趋势。
在这次专题中,进一步分别从技术面和生态圈两大面向,来介绍台湾团队再一次打造出世界冠军物件侦测模型背後的成功关键。
冠军模型研发里程碑
2018年 中研院团队以ResNet为基础,改良学习策略,打造局部残差网路PRN
2019年 修正梯度消失问题,发表跨阶段局部网路CSPNet
2020年 以CSPNet为基础,发表物件侦测模型YOLOv4,拿下世界第一;同年打造高效率网路ELAN
2021年 发表多任务模型YOLOR
2022年 整合ELAN、YOLOR与新训练策略,发表YOLOv7
2023年 持续研究单一模型多任务方法,包括藉助知识图谱与图神经网路
资料来源:中研院,iThome整理,2023年3月
相关报导