估计运动员在现场体育赛事中的3D姿势

2020-07-17 02:11:58

计算机视觉的进步使我们比以往任何时候都能更深入地了解周围环境。对于记者来说，他们有可能解锁仅靠人类无法感知和告知新类型报道的数据。

在为2020年夏季奥运会做准备时，去年我们开始探索如何在现场直播的体育赛事中使用计算机视觉来更好地了解运动表现。我们的目标是帮助我们的记者以一种通常需要传感器的方式测量运动员的运动。传统的动作捕捉技术要求运动员佩戴物理标记。但在现场直播的体育赛事中，这是不可能的。取而代之的是，我们建立了一个解决方案，使用我们摄影师的相机、机器学习和计算机视觉在事件展开时捕捉这些数据。

这项工作是在以前“泰晤士报”体育报道的基础上扩展的。对于2019年美国体操锦标赛，泰晤士报使用爆裂摄影来分析西蒙妮·拜尔斯的地板套路，逐帧分析她历史性的三双(三个转体两个翻转)。如果我们能从这些照片中提取数据，让我们量化她在3D空间中瞬间的运动，我们还能从西蒙娜·拜尔斯的三双比赛中了解到什么呢？

西蒙妮·拜尔斯把体操运动带到了一个新的水平。“纽约时报”，2019年8月9日。

到目前为止，我们的工作主要集中在体操上，因为它们的姿势-它们在空间中关节的位置-是这项运动及其得分的重要组成部分。我们选择体操也是因为女子体操一直是夏季奥运会最受欢迎的项目之一。

今年早些时候，我们在罗格斯大学女子体操队的练习会上进行了实地测试，我们试验了用多个摄像头捕捉运动员，通过计算机视觉算法运行照片和视频，并将输出转化为有意义的数据。

通过这些现场测试和大量迭代，我们创建了一条管道，使我们能够从仅用三个相机拍摄的爆裂照片中提取现场体育赛事的3D姿势和性能指标。

使用爆裂摄影和专门的硬件，我们可以从多个角度捕捉运动员，并使相机之间的画面同步。

我们使用机器学习来估计每帧中所有可见人物的2D姿势。结合手动和自动工具，我们可以确定哪些姿势属于目标体操运动员。

根据相机可见的规定大小的运动设备和标记，我们确定相机的特性，如焦距、位置和旋转。

然后，我们使用同步的帧和每个帧中的已知摄像机属性将2D姿势三角化为3D。

通过这个3D姿势序列，我们可以确定峰值高度、旋转速度等指标。

下面，我们详细介绍了我们面临的一些挑战以及我们如何应对这些挑战。

如果我们可以从多个角度捕捉同步的照片，我们就可以将从所有图像中提取的姿势转换为3D骨架。实现这一点的现有技术要求摄像机物理连接。这在体育赛事中是不可能的，因为我们通常会有几个摄影师分散在竞技场周围。为了解决这一问题，我们的团队建造了使用GPS时钟和远程无线电触发器同步多个相机快门的硬件-允许从不同的优势同时拍摄每个相机的照片。

为什么我们要使用爆发式摄影而不是视频呢？首先，我们的摄影师已经在他们的体育报道中使用了爆发式摄影。此外，每帧产生的图像比视频更清晰、分辨率更高。更清晰的图像使机器学习模型能够更清晰地感知细节，并提供更准确的姿势。

一旦我们有了这些图像，我们就通过机器学习模型输入每一帧，来估计运动员的2D姿势。这给了我们身体每个关节在屏幕上的位置。我们在体操运动员的照片上评估了许多计算机视觉模型，但大多数都无法识别他们的姿势，因为大多数模型都是根据日常活动(如行走)的图像进行训练的。我们甚至开始在我们创建的过度适合体操姿势的数据集上训练我们自己的姿势估计模型。但最近我们发现了Wrnch的一个模型，它为体操运动员的图像提供了开箱即用的特殊效果，所以我们决定改用它。

姿势估计模型通常提取给定图像中所有人的姿势。为了知道将哪个姿势三角化为3D，我们需要知道在序列的每一帧中哪个姿势属于体操运动员。为了确定这一点，我们实现了一个解决方案，在该解决方案中，用户选择在第一帧中跟踪哪个姿势，然后算法为每个后续帧找到与前一个姿势最接近的姿势。

为了确定每个摄像机的位置和方向，现有系统需要将它们放置在固定位置，并且所有摄像机都可以看到物理校准板。但这种类型的校准在现场体育赛事中是不可能的，因为我们不能在球场或场地的中间放置校准板。此外，在整个活动过程中，我们的摄影师可能会出现在不同的位置。取而代之的是，我们依赖于华盛顿大学(University Of Washington)、Facebook和谷歌(Google)在2018年联合创建的一篇研究论文中详细介绍的一项技术。研究人员发现，人们可以使用规则大小的足球场上的已知几何图形来代替校准板。为了做到这一点，研究人员标记了屏幕上可见的足球场的点，并使用屏幕与现实世界的对应关系来校准相机。使用这种方法，我们可以类似地使用平衡木本身来校准平衡木程序的相机位置，梁的确切几何形状是基于设备的规则尺寸已知的。

当我们在体操中实现这个算法时，我们发现它很好地扩展到了其他运动项目，如网球和田径。

一旦我们知道每个摄像头的位置和方向，以及哪些姿势属于体操运动员，我们就可以使用传统的计算机视觉技术将这些来自所有摄像头的2D姿势三角化为3D。这为我们提供了运动员每个关节的x、y和z坐标，单位为英尺或米。为了在整个动作中获得体操运动员的3D姿势，我们对序列中的所有帧执行此操作。

为了确保数据的准确性，我们还建立了一个工具，允许编辑部的任何人在自动化管道中的任何步骤纠正不准确。这可能包括在整个序列中没有正确跟踪的姿势的二维点估计错误。

一旦我们有了体操运动员在整个动作中的3D姿势，我们就可以提取关于表现的有意义的指标，比如跳跃高度、身体加速度或旋转速度。

我们正在探索这种能力在未来的报道中可能会有什么用处，包括明年夏天的东京奥运会。除了体育，我们对计算机视觉的潜力感到兴奋，它可以帮助记者负责任地收集新类型的数据，为他们的报道提供信息。

如果您是对我们的工作感兴趣的研究人员，我们很乐意听到您的消息。

https://rd.nytimes.com/projects/estimating-3d-poses-of-athletes-at-live-sporting-events