๋ ผ๋ฌธ ๋งํฌ
https://share.google/23LvUEkOosef6zq68
01. ๊ธฐ์กด์ ํ์ ํํฐ๋ง ๊ธฐ๋ฐ ๋ชจ๋ธ
a. ๋ชฉํ : ๊ฐ์ธํ๋ ์ถ์ฒ ์ ๊ณต์ ๋ชฉ์ ์ผ๋ก ์ฌ์ฉ์ ์ ํธ ์ ๋ณด๋ฅผ ํ์ฉํ์
b. ๋ฐฉ๋ฒ
- matrix factorization (ํ๋ ฌ ๋ถํด) ๋ฐฉ๋ฒ
- neighbourhood models
- Rating-based Collaborative Filtering
- ์ฌ์ฉ์ ๋ฒกํฐ : r(u)=(Ru1โ,Ru2โ,…,Runโ)∈Rn ( u∈U={1,…,m} )
- ์์ดํ : r(i)=(R1iโ,R2iโ,…,Rmiโ)∈Rm ( i∈I={1,…,n}i \in I = \{1, \dots, n\}
02. Autoencoder
: ์ ๋ ฅ์ ์ฌ๊ตฌ์ฑํ h๋ฅผ ํตํด ์ต์ ํ๋ฅผ ์งํํ๋ ๋จ์ผ ์๋์ธต์ ๊ฐ์ง auto-associative ์ ๊ฒฝ๋ง ๊ตฌ์กฐ
- ์ ๋ ฅ ์งํฉ : $$ S⊆Rd$$
- ์ฐจ์ : $$ k∈N+k \in \mathbb{N}^+
- parameter ํ์ต : ์ญ์ ํ๋ก ํ์ต๋จ
03. AutoRec model
: autoencoder ๊ตฌ์กฐ๋ฅผ ์ด์ฉํ ์๋ก์ด CF ๋ชจ๋ธ
a. ๊ฐ์ : ์๊ฐ, ์์ฑ ์์ ์์์ deep neural network ๋ชจ๋ธ์ ์ฑ๊ณต์์ ๋น๋กฏ๋จ
b. ๊ณผ์
: item-based or user-based autoencoder ์ค๊ณ
→ r(i) or r(u)๋ฅผ ์ ๋ ฅ์ผ๋ก, ์ ์ฐจ์ latent splace ํฌ์ฌ
→ ๋๋ฝ๋ ํ์ ์์ธก์ ์ํด, ์ถ๋ ฅ ๊ณต๊ฐ์์ ํฌ์ฌํ ๊ฒ ์ฌ๊ตฌ์ฑ
c. item-based AutoRec model
: ๋ชจ๋ธ์ด ๊ฐ item ๋ฒกํฐ์ autoencoder๋ฅผ ์ ์ฉํ ๋ฐฉ๋ฒ

- ํน์ง
- ์ ๋ ฅ ์ผ๋ถ๋ง ๊ด์ธก๋๋ฏ๋ก, ์ญ์ ํ ์ ๊ด์ธก ํญ๋ชฉ์ ๋์ํ๋ ๊ฐ์ค์น๋ง ์ ๋ฐ์ดํธ
- ๊ณผ์ ํฉ ๋ฐฉ์ง๋ฅผ ์ํด ํ๋ผ๋ฏธํฐ์ ์ ๊ทํ ์ ์ฉ
- ๋ชฉํ ํจ์ :
$$L=i=1∑nโโฅO(r(i)−h(r(i);θ))โฅ2+λโฅθโฅ2$$
- ๊ฐ์ : ์ ๊ทํ ๊ฐ๋($$\lambda$$) > 0
- ํ๋ผ๋ฏธํฐ ๊ฐ์ : 2mk + m + k ๊ฐ
- ์์ธก ํ๋ ๊ฐ : ํ์ต๋ ํ๋ผ๋ฏธํฐ๋ก ๋ถํฐ ์ฌ์ฉ์๊ฐ ์์ดํ ์๊ฒ ์ค ํ์
d. user-based AutoRec model
: ๋ชจ๋ธ์ด ๊ฐ user ๋ฒกํฐ์ autoencoder๋ฅผ ์ ์ฉํ ๋ฐฉ๋ฒ
<๋ชฉํํจ์๋ item-based์ r(i) → r(u) ๋ก ๋ฐ๊พธ๋ฉด ๋์ผํ๊ฒ ์ ์๋จ>
e. ์ฅ์
- ๊ธฐ์กด CF์ ์ ๊ฒฝ๋ง ์ ๊ทผ ๋ฐฉ์ ๋ณด๋ค ํํ, ๊ณ์ฐ ์ธก๋ฉด์์ ์ด์ ์ด ์กด์ฌ
04. RBM-CF model vs AutoRec model
| RBM-CF model | AutoRec model | |
| ํ์ต ํจ๋ฌ๋ค์ | ์์ฑ์ ํ๋ฅ ๋ชจ๋ธ | ํ๋ณ์ ๋ชจ๋ธ |
| ํ์ต ์ด์ | log likelihood ์ต๋ํ | RMSE ์ต์ํ |
| ํ์ต ๋ฐฉ์ | ๋์กฐ ๋ฐ์ฐ | ๋จ์ํ ๊ฒฝ์ฌํ๊ฐ ๊ธฐ๋ฐ ์ญ์ ํ |
| ํน์ง | - ์ด์ฐ ํ์ ์๋ง ์ ์ฉ๋์ด, ํ์ ๋ง๋ค ๋ณ๋์ ํ๋ผ๋ฏธํฐ๋ฅผ ํ์ต |
- ํ์ ์ค์ผ์ผ์ ๋
๋ฆฝ์ - ์ ์ ํ๋ผ๋ฏธํฐ๋ก ๊ฐ๋ฅํ ๋ชจ๋ธ - overfitting ์ํ ↓ - ํ์ฑํ ํจ์๋ฅผ ํตํ ๋น์ ํ ํํ ํ์ต๊ฐ๋ฅ |
05. Matrix Factorization (MF) vs AutoRec model
| RBM-CF model | AutoRec model | |
| user embedding | shared latent space์ ๋งคํ | X |
| item embedding | shared latent space์ ๋งคํ | latent space์ ์๋ฒ ๋ฉ |
| linear ํํ ํ์ต ์ฌ๋ถ | O | X |
| non-linear ํํ ํ์ต ์ฌ๋ถ | O | O (ํ์ฑํ ํจ์๋ฅผ ํตํด, ํ์ต ๊ฐ๋ฅ) |
06. ์คํ
a. dataset : MovieLens 1M, 10M, ๋ทํ๋ฆญ์ค
b. ๋น๊ต ๋์ ๋ชจ๋ธ : RBM-CF, MF, LLORMA
c. ์คํ ์ธํ
- train, test split : 90%(10%๋ hyper parameter tuning์ ์ฌ์ฉ) 10%
- epoch : 5
- ํ๊ฐ ๊ธฐ์ค : average RMSE
- 95% ์ ๋ขฐ ๊ตฌ๊ฐ : ±0.003 ์ดํ
- ํ๋ ๋์ : λ(์ ๊ทํ ๊ฐ๋), k(์ ์ฌ ์ฐจ์) ∈{10,20,40,80,100,200,300,400,500}
- ํ์ต ์์ ํ : RProp ์ฌ์ฉ
d. ๊ฒฐ๊ณผ
- ์ฑ๋ฅ ๋น๊ต

: item ๊ธฐ๋ฐ ๋ชจ๋ธ > user ๊ธฐ๋ฐ ๋ชจ๋ธ
- ์ด์ : item ๋น ํ์ ์ ๊ฐ์ > user ๋น ํ์ ์ ๊ฐ์
- ์ ํ ๋ฐ ๋น์ ํ ํ์ฑํ ํจ์ ์ฌ์ฉ ์, ์ฑ๋ฅ ๋น๊ต

- hidden layer์ ๋น์ ํ ํ์ฑํ ํจ์๋ฅผ ์ ์ฉ ์, ์ฑ๋ฅ ํฅ์์ ๊ฒฐ์ ์ → MF๋ณด๋ค ์ฐ์ํ ๋น์ ํ ํํ๋ ฅ์ ๊ฐ์ง์ ์๋ฏธํจ
- ํ์ฑํํจ์๋ก sigmoid ๋์ ReLU ์ฌ์ฉ ์, ์ฑ๋ฅ์ด ๋ฎ์์ง (→ ์ดํ, ๋ชจ๋ ์คํ์์ sigmoid ํจ์๋ฅผ ์ฌ์ฉ)
- hidden unit ์์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋น๊ต

: ์ฆ๊ฐํ ์๋ก ์ฑ๋ฅ์ด ํฅ์๋์์ง๋ง, ์ ์ฐจ ๊ทธ ํจ๊ณผ๊ฐ ๊ฐ์ํจ
- ๊ธฐ์กด ๋ชจ๋ธ๊ณผ์ ์ฑ๋ฅ ๋น๊ต

- ๋๋ถ๋ถ ์ฐ์ํ RMSE๋ฅผ ๋ณด์
- LLORMA ์์ ๋น๊ต : ์ฑ๋ฅ์ ๋น์ทํ๋, AutoRec์ ๋จ์ผ autoencoder ๊ธฐ๋ฐ์ด๋ผ๋ ์ ์์ ์ค์ํจ
- ๊น๊ฒ ํ์ฅ์, ํจ๊ณผ
- ๊ตฌ์ฑ : 3๊ฐ์ ์๋์ธต (500, 250, 500 ์ ๋)์ผ๋ก ๊ตฌ์ฑ + sigmoid ํ์ฑํ ํจ์
- dataset : MovieLens 1M
- ํ์ต : ์ฌ์ ํ์ต ํ, fine tuning ์งํ
- ๊ฒฐ๊ณผ : 0.831 -> 0.827๋ก ๊ฐ์
'AI > ๋ ผ๋ฌธ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
| [๋ ผ๋ฌธ ์ ๋ฆฌ] Implementation of DNN-based real-time voice conversion and itsimprovements by audio data augmentation and mask-shaped device (0) | 2025.09.02 |
|---|