Review Today

이번 시간에 다룰 논문은 모션 생성이라면 기본적으로 읽게 되는 내용에 대해 다룬다.
AI 모델을 통해 새로운 모션을 생성(Motion generation)을 하는 분야는 공통적으로 잠재변수(latent space) 혹은 다형체(manifold)로 저차원 공간을 통해 sampling하는 과정을 거치게 된다.
본 논문은 Auto-Encoder를 통해 비지도학습(Unsupervised Learning)으로 훈련하여 Motion denoise에 활용될 수 있음을 시사한다.

생각보다 내용이 적어서 시작하기에 좋은 논문이라고 생각된다.

* 코드는 후속 연구 코드만 존재하는데, 데이터 input 확인해보고 스스로 만드는 것도 크게 도움될 듯 싶다..!

Introduction

small subspace(=latent space, manifold)에서 타당(valid)한 모션을 찾는 것이 본 논문의 contribution이다. 더 나아가 Auto-encoder로 거친 모션은 Motion denoise에 활용될 수 있음을 시사한다.

Manifold로 모션 데이터를 활용한 건 이전부터 있어왔다. PCA, RBF, Gaussian Process, Gaussian Process Latent Variable Model 등등 통계학적으로 접근을 해왔으나, 논문에서 다루는 CNN이 2015년에 나온 것을 감안하여 Neural network 자체를 Motion에 적용한 것은 이 논문이 처음인 것으로 알고 있다. (본 논문은 2015년 publish 되었다.)

논문을 읽으면서 다양한 표현이 나오는데 low signal, motion field 등등 비슷한 맥략이라고 보면될 것 같다.
Neural network application 관련은 생략하였다. (모션에 관련한 내용은 아님 X)

Convolutional Autoencoder 관련하여 더 알아보실 분들은 여기 참고하면 좋을 것 같다.

Notations

input과 output은 아래와 같다. Tanh함수는 hyperbolic하기 때문에 -1에서 1 범위를 갖는다.
노란 부분은 encoder 파란 부분은 decoder라고 보면될 것 같다.

Data Preprocessing

CMU Mocap data 데이터 모두를 사용하였다. 2605개 10시간 가량 길이의 데이터를 30fps로 sub-sample 5초 가량의 길이의 160 frames(=n, number of frames)을 하나의 window로 전처리한 것으로 보여진다. 80 frame정도 겹치게 처리하여 9673개의 window를 만들어내었다.

m에 대해서는 구체적으로 적혀지 있진 않지만, global translation과 global rotation이 제거된 것으로 보아 local translation 혹은 velocity를 이용한 것 같다. Y축 중심으로(CMU는 Y-axis up 데이터) 회전 속도와 XZ plane에 표현된 translation velocity(혹은 linear velocity라고도 지칭)에 상대적인 forward direction 정보가 포함되었다고 한다.
내 생각엔 20개 중요 joint를 local translation velocity 한 정보( $20 \times 3 = 60$ ) 와 forward direction( $3$ ) 합해서 63개의 자유도 정보가 들어간 것이 아닐까 추측한다.

\begin{aligned} X \in R^{160 \times 63} \end{aligned}

Training

노란 부분은 encoder, 파란 부분은 decoder

Loss function은 전자는 mean square error로 표현된 reconstruction error와 후자는 sparsity를 강제하기 위한 penalty라고 보면된다. 이는 Hidden unit activation을 제한을 걸어 input data 그대로 나오는 것을 방지하고 조금 더 흥미로운 결과를 도출한다고 한다. 이 부분은 autoencoder loss function과 동일하니, 관련 내용을 찾아보는 것을 추천한다..!

Results

아래는 비디오 링크, 클릭하면 유튜브로 이어진다.

Conclusions

Motion denoise에 좋은 결과를 보여주었으나, 비디오에서 확인할 수 있듯, feet contact가 잘 이뤄지지 않는 모습이다. 후속 연구에서는 이 부분을 보완해서 나왔으며, 추후 관련 리뷰 포스팅도 적어볼 예정이다.