Review Today

단안 카메라로 촬영된 비디오만으로 피겨 스케이팅 동작을 정확히 판별하는 것은 여러 한계가 존재한다. 특히 피겨 스케이팅의 복잡한 회전 동작과 점프의 3차원적 특성을 2D 영상만으로는 완전히 분석하기 어렵다. 기존 방법들은 깊이 정보의 부족으로 인해 정확한 동작 분류에 한계를 보였다. 이러한 문제를 해결하기 위해 3차원 자세 데이터를 활용한 접근법을 채택하였다. 2D 자세 추정 결과를 3D로 변환하고, 시계열 특성을 고려한 딥러닝 모델을 통해 점프 동작을 정확히 분석하고자 하였다. 이를 통해 단안 카메라의 한계를 극복하면서도 실용적인 시스템 구축을 목표로 하였다.

오늘은 현재 프로젝트에 참고된 논문을 간략하게 정리하고 사용된 주요 모델인 MotionAGFormer에 대해서 더 보충 설명을 한다.

Proposed method

본 논문의 contribution은 크게 두 가지로 나눌 수 있다. (논문에서는 3개로 나뉘었지만 사실상 이 두 가지로 요약해볼 수 있다.)

피겨스케이팅 점프 데이터셋 생성
Pose Estimation과 Temporal Action Segmentation로서 본 데이터셋은 유의미하다.

Figure Skating Jump Dataset

이 프로젝트에서 사용된 데이터셋은 12개 카메라로 동시 촬영된 비디오 데이터와 함께 3D 좌표 데이터(c3d), 메타데이터(json)로 구성되어 있다.

├─c3d
│  ├─Skater_A
│  │  ├─Axel, Comb, Flip, Loop, Lutz, Salchow, Toeloop
├─json
│  ├─Skater_A (동일 구조, 2D 기반)
├─skater_A
│  ├─cam_1 ~ cam_12 (촬영 영상)

점프 종류 분류: 액셀, 플립, 룹, 러츠, 살코, 토룹, 그리고 콤비네이션까지 총 7가지 점프 유형을 포함하고 있다. 각 점프는 서로 다른 도약 방식과 회전 특성을 가지므로, 이들을 정확히 구분하는 것이 이 프로젝트의 핵심 과제였다.

Figure Skating Jump TAS with 3D Poses

저자의 생각과 동의하는 부분으로, 단안카메라로 촬영된 비디오로 피겨스케이팅 동작을 관련하여 판별하는 것은 한계가 존재한다. 따라서 이러한 3차원 데이터는 판단에 있어서 유의미한 결과를 낼 것이라고 기대하고 있다. Estimation의 전반적인 구조는 아래와 같다.

DWpose → MotionAGFormer → Frame Action Cross Attention

Estimation 한해서 input output은 아래와 같다.

Method	Input	Ouput
DWpose	Monocular RGB Video	(nframes, 17 joints, pixel coord x, pixel coord y,confidence score)
MotionAGFormer	(nframes, 17 joints, pixel coord x, pixel coord y,confidence score)	(nframes, 17 joints, xyz world coord)
Frame Action Cross Attention	aligned 3d flatten pose, dummy labels	segments

여기서 별도의 훈련을 거친 모델은 MotionAGFormer와 Frame Action Cross Attention이다.

MotionAGFormer

MotionAGFormer의 구조의 전반적인 구조는 아래와 같다. 인체 동작의 공간적 특성과 시간적 특성을 동시에 모델링할 수 있도록 설계되었다. 전체 구조는 크게 두 개의 병렬 브랜치로 구성되어 있다.

이미지는 AGFormer와 그 흐름을 보여주는데, AGFormer 속 크게 두 가지로 나눌 수 있다. (b)는 spatial 즉, 관절의 위치 정보를 담당하는 spatial metaformer, 관절들 간의 공간적 관계를 모델링하는 역할을 담당한다. 각 관절이 인접한 관절들과 어떤 관계를 가지는지 학습하여, 자연스러운 인체 동작의 제약조건을 모델에 반영할 수 있다. (c)는 trajectory 정보를 담당하는 temporal metaformer구조로 이루어져 있다. 과거와 현재, 미래의 프레임들 사이의 관계를 학습한다.

이를 이해하기 위해서 Metaformer 구조를 이해해야하는데,

TokenMixer라고 적혀있지만, 본 논문의 코드를 스키밍해봤을 때 저 부분이 Attention이 들어가냐 아님 GCN이 들어가냐의 차이밖에 없어보인다. 저 두 개를 섞는 것도 아니고 논문에서도 parallel module이라고 표현하고 있다.

GCN 계산 과정에서 상당한 행렬 연산이 필요하므로, 이 부분이 전체 훈련 과정에서 주요 병목 지점이 될 수 있음을 확인하였다. 따라서 실제 시스템 구축 시에는 이 부분의 최적화가 중요한 고려사항이다.

Data preprocessing

Finetuning한 모델은 두 가지로 데이터 전처리 과정은 아래와 같다.

MotionAGFormer

아래 데이터셋은 이미 MotionAGFormer에 맞게 데이터가 준비되어있다.

AthletePose3D Dataset

만약 Custom으로 준비하고 싶다면 아래 정보가 들어가야한다.

dict_keys(['joint_2d', 'confidence', 'joint3d_image', 'joints_2.5d_image', '2.5d_factor', 'camera_name', 'action', 'source', 'frame', 'world_3d', 'cam_3d', 'cam_param'])

여기서 'joint3d_image'는 이미지 좌표계 (world → camera → image)로 변환된 값으로 z값은 depth 값이다. 원근감을 위해 적용된 값이다. 따라서: joint3d_image * 2.5d_factor = joint_2.5d_image와 같다.

2d와 confidence는 2d pose estimator을 통해서, 3d는 world frame 기준 3d pose estimator로 얻고, camera의 intrinsic, extrinsic값이 있다면 데이터셋을 만들기까지는 크게 어렵지 않다. 문제는 2.5d factor을 어떻게 얻느냐는건데,

lambda = (box[2] - box[0] + 1) / rectangle_3d_size

여기서 lambda는 world 좌표계에서 image 좌표계로의 변환 비율을 나타낸다. 반대로 2.5d factor는 image 좌표계에서 world 좌표계로의 역변환을 위한 팩터이므로, 다음과 같은 관계가 성립한다:

2.5d_factor = 1/lambda

joint3d_image는 3D 월드 좌표를 카메라 좌표계를 거쳐 이미지 좌표계로 변환한 결과이다. 이때 z값은 실제 깊이 정보를 담고 있으며, 원근감을 정확히 반영하기 위해 다음과 같은 계산이 수행된다:

joint3d_image * 2.5d_factor = joint_2.5d_image

Frame Action Cross Attention

Task Annotation Dataset

데이터 전처리에서는 17개 관절의 정렬된 local pose 정보와 함께 관련 오일러 각도를 추가한 형태를 특성으로 활용한다. 이를 통해 관절의 위치뿐만 아니라 방향 정보도 함께 고려할 수 있어, 보다 정확한 동작 분석이 가능하다.

데이터셋을 확인해본 결과 아래와 같았는데,

이전 3d로 추출한 데이터가 그닥 썩 좋지 않음을 보여준다.. 이 상태로 TAS를 진행한 것 같다.

Results

MotionAGFormer와 Frame Action Cross Attention의 각 순서대로의 evaluation은 아래와 같다.

MotionAGFormer Error
Protocol #1 Error (MPJPE): 68.64220575394518 mm
Acceleration error: 0.8875901212590517 mm/s^2
Protocol #2 Error (P-MPJPE): 10.61481703004164 mm

Metric	Value
Edit	88.12912075922682
AccB	97.32553214576997
Acc	97.32553214576997
F1@0.10	88.6706877013139
F1@0.25	88.46973316829319
F1@0.50	87.56543776970041

생각보다 인식에 있어서 실망스런 결과를 보여주었다. Annotation feature 데이터가 많이 손상된 것을 확인해서.. 그것을 감안하고 인식하는 것 같아보인다. 영상은 럿츠이나 룹으로 인식하는 오류를 범하고 있다..

Demo

Wrapup & Conclusion

이전 포스트에서도 언급이 되었듯, 일본에서는 이와 관련해서 연구가 상당히 이루어지고 있는 것 같은데, 기존에 체조 쪽에서 쓰이던 AI 채점 기술을 바탕으로 선수들 훈련 분석용 모델을 만들고 있는 중이다.

Article

결과는 비록 실패에 가까운 논문 구현이었지만 충분히 개선가능하다고 본다.

foot feature 추가: 도약과 착지가 중요한 판정 기준으로써 Annotation에 추가적인 부분들이 필요하다. 이 부분은 이전 프레임과 현재 프레임간의 속도로 계산해서 들어가면 발 자체를 추가하지 않아도 될 것 같아 보인다.
추가적인 Annotation 데이터 필요: 아직 착지와 도약에 관한 데이터셋은 현저히 부족하고 주관적인 요소들이 들어간다. 이와 관련해서 많은 사람들로부터 데이터 수집이 필요해보인다.

또한 논문에서는 DWposeEstimator를 사용하였지만.. coco 포맷으로 결과가 나와서 변환해서 h36m 포맷을 estimate을 했었다. 이미 내부에 hrnet이라고 2d pose estimator가 있었는데, 속도면에서 hrnet이 estimate하는데 더 빨랐어서 dwpose는 fallback용으로 넣어두기는 해놓았다. 아, 그리고.. coco 포맷이 두 가지(?)나 있다는 걸 이번 데이터를 뜯어보면서 알게되었다. 나름 얻어가는 부분이 많았던 프로젝트인 것 같다.

🛠 | 3D Pose-Based Temporal Action Segmentation for Figure Skating

Review Today

Proposed method

Figure Skating Jump Dataset

Figure Skating Jump TAS with 3D Poses

MotionAGFormer

Data preprocessing

MotionAGFormer

Frame Action Cross Attention

Results

Wrapup & Conclusion

Reference