๋ ผ๋ฌธ ๋งํฌ
https://www.semanticscholar.org/paper/Implementation-of-DNN-based-real-time-voice-and-its-Arakawa-Takamichi/fd5d3be9e8e293cce5b56f55de37af3d9734e0f4
www.semanticscholar.org
DNN ๊ธฐ๋ฐ์ voice conversion system
: 3๊ฐ์ง ๋จ๊ณ (Analysis → Conversion → Synthesis)๋ฅผ ๊ฑฐ์ณ ์์คํ ๊ตฌํ
[ ์์ธํ ์์คํ ๊ตฌ์กฐ ]

1. Analysis
- ์ ๋ ฅ ์์ฑ์์ Mel-Cepstral Coefficients, ์๋ ฅ, ์ ๋ ฅ, ์ถ์ถ
- FFT Mel-Cepstral Coefficients ๋ถ์ ⇒ ๊ณ ์ฑ๋ฅ ์คํํธ๋ผ ๋ถ์๊ธฐ ์ฌ์ฉ์ผ๋ก ์ธํ ๋์ ๊ณ์ฐ๋, ์ฒ๋ฆฌ ์ง์ฐ ํด๊ฒฐ
- Trajectory Smoothing ์ ์ฉ : ๊ณ ์ฃผํ ์ฑ๋ถ ์ ๊ฑฐ + ์์ฑ ์์ธก ์ ํ๋ ํฅ์
2. Conversion
- ๋ชฉํ : ์์ค ์์ฑ ํน์ง์ ํ๊ฒ ์์ฑ์ ํน์ง์ผ๋ก ๋ณํ
- ๊ณผ์
- ์์ค์ FFT Mel-Cepstral Coefficients ⇒ ํ๊ฒ์ WORLD Mel-Cepstral Coefficients๋ก ๋ณํ (DNN ์ฌ์ฉ)
- ์์ค์ FFT Mel-Cepstral Coefficients ⇒ ํ๊ฒ์ ๋์ญ ํ๊ท ๋น์ฃผ๊ธฐ์ฑ์ผ๋ก ๋ณํ (DNN ์ฌ์ฉ)
- ์์ค์ ๋ก๊ทธ ์ค์ผ์ผ F0 ⇒ ํ๊ฒ์ log scale F0๋ก ๋ณํ
- ์์ค์ ์ ๋ ฅ ⇒ ํ๊ฒ์ ์ ๋ ฅ์ผ๋ก ๋ณํ
- ์์คํจ์ : MSE
- ํฅํ ํ์ง ํฅ์ ๊ณํ : GAN ๊ธฐ๋ฐ ํ์ต ๋ฐฉ๋ฒ ์ ์ฉ
3. Synthesis step
- ๋ชฉํ : ๋ณํ๋ ์์ฑ ํน์ง ๊ธฐ๋ฐ ์์ฑ ํฉ์ฑ
- ์์ฑ ์ ํธ ์์ฑ ์๊ณ ๋ฆฌ์ฆ : recursive maximum likelihood parameter generation (R-MLPG)
- ์ต์ข ์์ฑ ์ถ๋ ฅ ์๊ณ ๋ฆฌ์ฆ : WORLD’s recursive waveform generation algorithm
Audio data augmentation
: 3๊ฐ์ง์ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ ์ฌ์ฉ (pitch shift → time stretch → time shift)
[ ์์ธํ ์์คํ ๊ตฌ์กฐ ]

- Pitch Shift
- ์์ฑ ํผ์น๋ฅผ ์ฝ๊ฐ์ฉ ๋ณํ
- ์ฌ์ฉ ์๊ณ ๋ฆฌ์ฆ : WSOLA ์๊ณ ๋ฆฌ์ฆ + waveform resampling
- Time Stretch
- ์์ฑ ์ ํธ๋ฅผ ๋์ด๊ณ , ์ค์
- ์ฌ์ฉ ์๊ณ ๋ฆฌ์ฆ : WSOLA algorithm
- ํจ๊ณผ : ์์ฑ ์๋ ๋ณํ๋ฅผ ์ ์ฒ๋ฆฌํ๋๋ก ํจ
- Time Shift
- FFT Mel-Cepstral Coefficients ๋ถ์์ ์์ ์๊ฐ์ ํ๋ ์ ์ด๋ ๊ธธ์ด ๋ด์์ ๋ฌด์์๋ก ๋ณ๊ฒฝ
- ํจ๊ณผ : ์์ฑ ํน์ง ์ถ์ถ ๊ณผ์ ์ด ์์ ์๊ฐ์ ์์กดํ์ง ์๋๋ก
- FFT Mel-Cepstral Coefficients ๋จ์ ๋ณด์์ ์ํจ
์คํ ์ค์
- dataset : 2๊ฐ์ ์ผ๋ณธ์ด ๋ฐํ 100๊ฐ (์ด 12๋ถ) → training 0.9 / test 0.1
- ํ๋ ์ ๊ธธ์ด: 25ms, FFT ํฌ๊ธฐ: 512
- FFT Mel-Cepstral Coefficients ⇒ WORLD Mel-Cepstral Coefficients ๋ชจ๋ธ
- ๋ชจ๋ธ ๊ตฌ์ฑ
- MLP
- input layer : 195 unit (39*5)
- hidden layer : 2๊ฐ (๊ฐ 500 unit, activation function : Leaky ReLU)
- output layer : 78 unit (39*2)
- ๋ชจ๋ธ ๊ตฌ์ฑ
- FFT Mel-Cepstral Coefficients → Band-Aperiodicity ๋ณํ
- ๋ชจ๋ธ ๊ตฌ์ฑ
- Single-layer Perceptron
- input layer : 195 unit
- output layer : 1 unit (activation function : sigmoid)
- ๋ชจ๋ธ ๊ตฌ์ฑ
- Mel-Cepstral Coefficients ์ ๊ทํ : ํ๊ท 0, ๋ถ์ฐ 1
- ์ต์ ํ ๋ฐฉ๋ฒ: Adam
'AI > ๋ ผ๋ฌธ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
| [๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] AutoRec: Autoencoders Meet Collaborative Filtering (0) | 2025.10.17 |
|---|