误把光头当足球 AI视力差不仅仅因为训练少

2020年11月30日 15:37:09 来源：科技日报作者：代小佩

　　球赛结束后，球迷要求裁判戴帽子或假发，大概是史无前例了。

　　10月底，苏格兰球迷经历了一场“难忘”的足球赛。在因弗内斯对阵艾尔联的苏格兰足球冠军联赛上，无论球员传球还是带球进攻，场边的AI摄像机都视而不见，反而不离不弃跟着一名边裁，时不时来张“C位”特写。原来，AI摄像机误将这名裁判的光头识别成足球，所以疯狂追了一整场。

　　在家观看这场90分钟比赛的球迷，大部分时间不是看球，而是在围观光头。不少网友打趣：这场球赛实打实地“看了一个寂寞”。

　　为什么AI摄像机会把光头看成了足球？为避免AI犯类似失误，我们需要做些什么？出现“翻车”事件，能就此认为AI“弱爆”了吗？

　　来自光头裁判的无意识“挑衅”

　　从直接参与体育赛事到记录运动员表现，再到直播比赛现场、分析运动员健康状况，AI正成为体育界的宠儿。几个月前，巴塞罗那足球俱乐部(巴萨)还携手视频技术公司Pixellot，打造了人工智能教练解决方案。

　　没想到，在体育界一路高歌猛进的AI，这次出人意料地遭遇了一名光头边裁无意识的“挑衅”。由于这名边裁光头太亮，加之阳光照射，AI摄像机根本分不清哪个是球，哪个是头。此前，因弗内斯队表示，他们使用的AI跟踪技术，可以将直播画面清晰地传输到每一位季票购买者家中，让因新冠肺炎疫情而无法前往主场的球迷不错过任何一场比赛。

　　据悉，此次比赛直播使用的摄像机正是与巴萨合作的Pixellot所提供的多摄像机系统。该系统由英伟达的图形处理器(NVIDIA GPU)提供动力支持，捕获的视频分辨率可达8K。这些摄像机可以安装在固定位置，无需摄像机操作员进行操控。为捕获关键时刻画面，Pixellot收集了数十万个小时的体育视频，用于在本地工作站的NVIDIA GPU上训练其算法。

　　拥有海量的可用数据，使用了深度学习算法，加上高性能GPU计算加持，具备推动AI前行的三大动力，Pixellot的这款AI摄像机为何“翻车”呢？

　　活动结束后，相关俱乐部和制造摄像头的技术公司进行了反思，问题似乎非常清楚：足球的大小、形状与人的脑袋差不多，加上阳光直射，让AI摄像头陷入了“迷茫”。因弗内斯队回应称已知晓了问题，并且将为下一场比赛进行改进，给观众带来更好的体验，希望这种情况不会再发生。

　　Pixellot公司也表示解决这个问题并不难。现有的目标检测与追踪技术已比较成熟，Pixellot在设计阶段没考虑到光头的影响，需要收集一些足球和光头的数据对算法进行微调，以排除来自光头的干扰。

　　有技术人员表示，在训练直播球赛的AI摄像机时，需要的不仅“这是球”数据集，还需要一个“这不是球”数据集。光头、足够亮的白鞋、灯光、比赛场地旁训练场上的球、球员用来热身的球，都是训练AI时需要考虑的干扰因素。

　　AI“视力差”才是常态

　　尽管可以通过加大数据“投喂量”，加强训练和改进算法改善AI摄像机性能，但有专业人士认为，随着AI应用场景逐步拓展，此类“翻车”事件还将长期存在。

　　“AI‘翻车’是常态，不‘翻车’才奇怪。”北京大学信息科学技术学院教授、北京智源人工智能研究院院长黄铁军接受科技日报记者采访时直言。

　　黄铁军认为，表面上看，这次AI摄像机出现失误可能是因为前期训练不够，但最主要的原因是现在的计算机识别系统还只是用特定的数据训练出来的，例如在上述例子中，使用大量足球视频训练的神经网络在识别足球方面已超越人类，但却忽视了这个网络对光头更敏感，对

　　没见过的对象胡乱识别或“视而不见”，这种问题普遍存在。

　　机器视觉就是将视觉感知赋予机器，使机器具有和生物视觉系统类似的场景感知能力，涉及到光学成像、图像处理、分析与识别、执行等多个组成部分。

　　“把摄像机作为AI的‘眼睛’，在现实场景中，让AI像人眼一样去识别足球和光头，还有很长的路要走。”黄铁军表示。

　　什么时候能走完这条路，甚至实现AI之眼超越人眼？

　　这取决于机器视觉何时弥合与生物视觉的差距。“颅骨之中的大脑通过三百多万根神经纤维实时感知外部世界，其中每只眼睛后面就有一百多万根。”黄铁军表示，“发展至今天的机器视觉，与花费亿万年进化而来的生物视觉系统相比，还是小巫见大巫。”

　　人眼适应性很强，能在复杂及变化的环境中识别目标，具有高级智能，能运用逻辑分析、推理能力去识别变化中的目标，并总结规律。而反观机器视觉，虽然可以利用人工智能神经网络技术，但不能很好识别变化的目标，受硬件条件制约，目前一般的图像采集系统色彩分辨能力较差。

　　“与生物视觉神经网络相比，人工智能的视觉神经网络在结构、规模上相距甚远，所以功能也要差很多。”黄铁军表示，“在现实应用中，机器视觉‘翻车’不是偶然事件，把光头识别成足球，只是个案，类似问题其实大量存在。”

　　黄铁军说：“这一次，技术提供方可以把光头误认为足球的漏洞补上，但还有更多的漏洞，用对抗性图片训练骗过人脸识别系统只是揭开机器视觉不足的冰山一角。”

　　不同技术路线在赛跑

　　“基于深度学习的机器视觉在图像识别等方面取得重大进展，但并未真正解决感知问题。”黄铁军认为，深度学习远未抓住人类视觉系统的复杂性。

　　深度学习建立在图像和视频大数据的训练基础上，和主动感知动态世界的生物视觉相距甚远，而且仍未脱离算力需求。例如，如果把视频帧率从30提高到3万，深度学习的算力就需要提高1000倍。

　　而生物神经网络是脉冲神经网络，更适合完成视觉信息处理。黄铁军认为，借鉴生物视觉系统的神经网络结构和信息加工机理，建立一套新的类脑视觉信息处理理论和技术，是重启机器视觉的希望所在。

　　专家表示，发展人工机器视觉，目前有两条主要技术路线，一是通过收集更多数据、增加数据量，加大训练力度，构造出强大的智能系统；二是模仿生物神经系统，照葫芦画瓢，将生物神经系统的结构甚至机理搞清楚，以此为基础发展未来智能。

　　黄铁军认为，第二条路径要比第一条路径更有效。“短时间来看，第一条更易取得成果。但长远来看，从生物神经网络入手更为直接，实现目标也更有把握。”

　　目前，AI学界多数支持第一条路径，即通过“大数据+大算力”的方式，发展机器视觉在内的人工智能。黄铁军踏上少数人走的那条路，是因为他坚信生物视觉神经网络有巨大潜能可以挖掘。“生物大脑是亿万年进化的产物，是最好的先验结构。强大智能必须依托复杂结构，站在进化肩膀上，看似艰难，实则最快。”

　　“计算机科学之父”图灵早就表达过对生物大脑的推崇。1943年初，香农提议，可以把“文化的东西”灌输给电子大脑，图灵有一次在大庭广众之下反驳：“不，我对建造一颗强大的大脑不感兴趣，我想要的不过是一颗寻常的大脑，跟美国电报电话公司董事长的脑袋瓜差不多即可。”

　　发展机器视觉，抑或是人工智能，是重起炉灶，是模仿生物神经网络，还是另有他法？暂无定论。在不同的赛道上，人工智能都在加速前进。

　　尽管AI“翻车”案例不在少数，比如谷歌AI眼部疾病诊断系统的实用性在泰国大打折扣，腾讯AI翻译在2018年博鳌论坛上闹出笑话。但AI时代正加速到来，势不可挡。

　　“必须承认，AI确实解决了不少现实问题，它将逐步替代人的部分功能。但不能过分夸大，它距离我们想象中的智能还有很多不足，还需要更多突破。”黄铁军说，要保持开放的思维，跨越“实验模拟”与“真实世界”之间的鸿沟，AI技术发展任重而道远。

（代小佩）

[编辑: 王航飞]

(本文来源：科技日报)