👩‍💻 | 바닥부터 도전하는 모션 생성: Autoencoder편

이번 포스팅에서 참고해서 모델을 만든 논문은 아래와 같다.

Learning Motion Manifolds with Convolutional Autoencoders

Data Acquisition & Preprocessing

본 논문에서 데이터는 모든 CMU mocap data를 사용하였다. 전반적인 전처리 과정은

120(cmu 기본 fps) -> 30fps로 sub-sample
80 frame을 겹쳐서 160 frame씩 잘라서 데이터를 만듦
joint length 정규화
joint들을 중요한 20개로 줄여서 사용
global에서 local position으로 transform 해서 사용
- local position = Global position - Root XZ position
- YRotation도 제거
Y축 기준 각속도는 캐릭터의 앞 방향 기준으로 계산
60개(= 20*3)의 정보 뒤에는 Root XZ 속도와 Y각속도 정보를 추가로 63개의 정보가 들어간다다

따라서 데이터의 형태는 $\begin{aligned} X \in R^{160 \times 63} \end{aligned}$ 와 같다.

각 데이터 별로 뼈의 길이가 제각기라 정규화 과정을 거쳤는데, 이 부분은 저자의 사이트에서 구할 수 있다.

motionsynth_data

그래서 위 과정에서 3번은 생략할 수 있었다.

사용한 전처리용 라이브러리로는 pymo를 사용했다.

안타깝게도 원저작자가 굉장히 오래 방치되어서 사람들이 fork해서 쓴 버전들이 많다. 본인은 아래 simon 버전에서 자체적으로 전처리에 맞게 파이프라인을 만들었다. 아래와 같이 전처리를 할 수 있었다..!

parser = BVHParser()
parsed_data = parser.parse(filepath)

data_pipe = Pipeline(
    [
        ("param", MocapParameterizer("position")),
        ("jtsel", JointSelector(JOINTS, include_root=False)),
        ("dwnsampl", DownSampler(tgt_fps=30, keep_all=False)),
        ("globrm", GlobalMotionRemover()), # Custom template
        ("np", Numpyfier()),
    ]
)
piped_data = data_pipe.fit_transform([parsed_data])
slicer = Slicer(window_size=160, overlap=0.5)
piped_data = slicer.fit_transform(piped_data)

최종적으로는 (9721, 160, 63)와 같은 shape을 가진다.

Convolutional Autoencoder

keras로 만들었고 모델의 summary는 아래와 같다. 아무래도 새로운 모션 자체 생성이라기 보다는 manifold 생성이 포커스라고 보면 되겠다. input과 output 동일하게 약 5초 가량의 window 정보가 들어가고 나온다.

┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━━━━┓
┃ Layer (type)                         ┃ Output Shape                ┃         Param # ┃
┡━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━━━━━┩
│ input_layer (InputLayer)             │ (None, 160, 63)             │               0 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ conv1d (Conv1D)                      │ (None, 160, 64)             │          60,544 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ max_pooling1d (MaxPooling1D)         │ (None, 80, 64)              │               0 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ activation (Activation)              │ (None, 80, 64)              │               0 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ conv1d_1 (Conv1D)                    │ (None, 80, 128)             │         123,008 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ max_pooling1d_1 (MaxPooling1D)       │ (None, 40, 128)             │               0 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ activation_1 (Activation)            │ (None, 40, 128)             │               0 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ conv1d_2 (Conv1D)                    │ (None, 40, 256)             │         491,776 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ max_pooling1d_2 (MaxPooling1D)       │ (None, 20, 256)             │               0 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ activation_2 (Activation)            │ (None, 20, 256)             │               0 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ functional_1 (Functional)            │ (None, 160, 63)             │         675,135 │
└──────────────────────────────────────┴─────────────────────────────┴─────────────────┘
 Total params: 1,350,463 (5.15 MB)
 Trainable params: 1,350,463 (5.15 MB)
 Non-trainable params: 0 (0.00 B)

Train

논문에 적힌 하이파라미터 몇 가지로 훈련했을 때 훈련이 진행이 안되고 터지는 문제가 있었다.

Learning decay에서 초깃값을 0.5에서 0.001로, decay 값을 0.9 에서 0.95로 수정하였다. 그리고 훈련하기 전에 z-score normalization으로 정규화를 거치고 훈련을 하였다. 그 외는 논문과 최대한 동일하게 구현하려고 노력했다. GeForce RTX 5060에서 훈련 시간은 약 6분이 소요되었으며 fitting 시간은 3분이 소요되었다. 논문에서 적힌 5시간의 훈련 시간을 생각하면 하드웨어의 발전이 근 10년동안 많이 있었다는 것도 체감할 수 있었다..

Learning rate	Total Loss

Result

Manifold가 학습되어서 주어진 데이터가 주어졌을 때 잘 수행하는 모습을 아래와 같이 알 수 있다

Sampled Index 1	Sampled Index 2

Code

코드는 최대한 정리해서 아래 리포지터리에 남겨놓았다.

motion generation from scratch: 01-autoencoder