Published on

πŸ“– STUDY λ§Œλ“€λ©΄μ„œ λ°°μš°λŠ” μƒμ„±ν˜• AI | μƒμ„±ν˜• AI & λ”₯λŸ¬λ‹

생성 λͺ¨λΈλ§

μ£Όμ–΄μ§„ 데이터셋과 μœ μ‚¬ν•œ μƒˆλ‘œμš΄ 데이터λ₯Ό μƒμ„±ν•˜λ„λ‘ λͺ¨λΈμ„ ν›ˆλ ¨ν•˜λŠ” λ¨Έμ‹ λŸ¬λ‹μ˜ ν•œ λΆ„μ•Ό 생성 λͺ¨λΈμ€ λ”°λΌμ„œ ν™•λ₯ λΆ„포 λͺ¨λΈλ§ν•˜λŠ” κ²ƒμœΌλ‘œ λ³Ό 수 μžˆλ‹€.

  • νŒλ³„ λͺ¨λΈ: p(y∣X)p(y|X)λ₯Ό μΆ”μ • ➑️ μƒ˜ν”Œ Xκ°€ μ£Όμ–΄μ‘Œμ„ λ•Œ λ ˆμ΄λΈ” y의 ν™•λ₯ μ„ λͺ¨λΈλ§
  • 생성 λͺ¨λΈ: p(x)p(x) ➑️ xλ₯Ό κ΄€μΈ‘ν•  ν™•λ₯ μ„ λͺ¨λΈλ§

생성 λͺ¨λΈμ€ μ΅œλŒ€ν•œ μœ μ‚¬ν•œ ν™•λ₯  뢄포λ₯Ό μ‰½κ²Œ μƒ˜ν”Œλ§ν•  수 μžˆμ–΄μ•Όν•˜κ³  μ–΄λ–»κ²Œ high dimension feature듀이 ν™•λ₯  λΆ„ν¬λ‘œ ν‘œν˜„ν•˜λŠ”μ§€ 이해할 수 μžˆμ–΄μ•Όν•¨. 이 ν‘œν˜„μ€ 보톡 잠재 곡간(latent space, manifold)둜 μ €μ°¨μ›μœΌλ‘œ 맡핑이 됨.

생성 λͺ¨λΈμ˜ λΆ„λ₯˜λŠ” 크게

  • λͺ…μ‹œμ  밀도인가? 암묡적 밀도인가
    • λͺ…μ‹œμ  밀도: 밀도 ν•¨μˆ˜λ₯Ό 생성
    • 암묡적 밀도: 데이터λ₯Ό 직접 μƒμ„±ν•˜λŠ” ν™•λ₯  κ³Όμ •μ—λ§Œ 집쀑 ex. GAN
  • λͺ…μ‹œμ  밀도 ➑️ 근사 밀도인가 닀루기 μ‰¬μš΄ 밀도인가
    • 닀루기 μ‰¬μš΄ 밀도: 밀도 ν•¨μˆ˜λ₯Ό 직접 μ΅œμ ν™”: Autoregression, Normalizing Flow
    • 근사 밀도: 밀도 ν•¨μˆ˜μ˜ κ·Όμ‚¬μΉ˜ μ΅œμ ν™”: VAE, Energy-based, Diffusion

λ”₯λŸ¬λ‹

데이터 처리 μœ λ‹›μ˜ 측을 μ—¬λŸ¬ 개 μŒ“μ•„ ꡬ쑰적이지 μ•Šμ€ λ°μ΄ν„°μ—μ„œ κ³ μˆ˜μ€€ ν‘œν˜„μ„ ν•™μŠ΅ν•¨. 이 λ•Œ λ°μ΄ν„°λŠ” λΉ„μ •ν˜• λ°μ΄ν„°λ‘œ 이미지와 같이 ν‘œλ‘œ ν‘œν˜„ λͺ»ν•˜λŠ” 데이터듀이닀.

λ”₯λŸ¬λ‹ κ΄€λ ¨ μžμ„Έν•œ λ‚΄μš©μ€ μ•„λž˜ ν¬μŠ€νŠΈμ— μ •λ¦¬ν–ˆλ‹€

  • πŸ“– STUDY λ°‘λ°”λ‹₯λΆ€ν„° μ‹œμž‘ν•˜λŠ” λ”₯λŸ¬λ‹ | 1ꢌ

  • loss function: μ˜ˆμΈ‘κ°’κ³Ό 정닡을 비ꡐ μ‹œμ— μ‚¬μš©

  • optimizer: μ†μ‹€ν•¨μˆ˜μ˜ κ·Έλ ˆλ””μ–ΈνŠΈλ₯Ό 기반으둜 신경망 κ°€μ€‘μΉ˜λ₯Ό μ—…λ°μ΄νŠΈν•  λ•Œ

  • batch normalization: κ°€μ€‘μΉ˜κ°€ κΈ°ν•˜κΈ‰μˆ˜μ μœΌλ‘œ 컀지면, gradient exploding λ¬Έμ œκ°€ λ°œμƒν•˜λŠ” κ²½μš°κ°€ 있음(μ†μ‹€ν•¨μˆ˜κ°€ nan). 이λ₯Ό μΌμ •ν•œ λ²”μœ„ λ‚΄μ—μ„œ 좜λ ₯ν•˜κΈ° μœ„ν•΄ μ •κ·œν™” 과정을 κ±°μΉ˜μ§€λ§Œ ν›ˆλ ¨λ  수둝 κ°€μ€‘μΉ˜ μ΄ˆκΉƒκ°’κ³Ό 멀어짐. 이λ₯Ό covariate shift라고 함. 이 λ•Œ 배치 μ •κ·œν™”κ°€ ν•΄κ²°μ±….

  • dropout: 과적합 ν•΄κ²°μ±…. μœ λ‹›μ„ λžœλ€ν•˜κ²Œ 골라 ν•΄λ‹Ή μœ λ‹›λ§Œ ν•™μŠ΅ν•˜μ—¬ μ˜μ‘΄μ„±μ„ μ€„μž„.

ν•΄λ‹Ή μ½”λ“œμ™€ torch migration은 μ•„λž˜ repository에 μ²¨λΆ€ν•˜μ˜€λ‹€.


Terminology

  • sample: 데이터 포인트 ν•˜λ‚˜
  • manifold: 잠재 곡간
  • sample space: μƒ˜ν”Œ ν•˜λ‚˜κ°€ κ°€μ§ˆ 수 μžˆλŠ” λͺ¨λ“  κ°’μ˜ μ§‘ν•©
  • probability density function: 0~1 μ‚¬μ΄μ˜ 숫자둜 λ§€ν•‘λ˜λŠ” ν•¨μˆ˜
  • parametric modeling: λͺ¨μˆ˜ λͺ¨λΈλ§, μ•ˆμ •μ μΈ ν™•λ₯ μ„ μ°ΎλŠ”λ° μ‚¬μš©
  • likelihood: L(θ∣x)L(\theta | x) c.f. log-likelihood
  • maximum likelihood estimation: κ΄€μΈ‘λœ 데이터λ₯Ό κ°€μž₯ μ„€λͺ…ν•˜λŠ” 밀도 ν•¨μˆ˜μ˜ νŒŒλΌλ―Έν„° μ§‘ν•©.
Authors