[논문리뷰] wav2vec 2.0: A Framework for Self-SupervisedLearning of Speech Representations

해당 논문의 목표는 라벨이 없는 음성 데이터만으로 좋은 음성 인식 모델을 만들고자 함에 있다.

자기지도학습 + 마스킹 + 대조를통한 학습을 통해

적은 라벨로도 높은 성능을 낼 수 있음을 입증하고자 한다.

- 배경

기존 음성인식 모델은 수천 시간의 라벨링 된 양의 음성데이터가 필요했다.

하지만 해당 데이터는 7000개의 언어 중 대부분이 구하기 어려운 상황이다

- 모델 흐름

1. input 원시음성 (waveform) 이 입력되면 CNN(Convolutional Neural Network) 으로 음성을 백터로 바꾼다

Input: “Hello, how are you?” -> raw_audio = [0.01, 0.03, -0.02, ..., 0.00]

2. 그중 일부를 마스킹한다

[벡터1] [벡터2] [MASKED] [벡터4] [MASKED] ...

3. 마스킹 된 부분이 무엇인지 맞추게 한다 -> 비슷한것 끼리 가깝고다른건 멀게 학습한다. (contrative learning)

[MASKED] → 후보: [진짜정답, 가짜1, 가짜2, 가짜3, ...]

4. 이 때 정답후보는 양자화(연속 백터를 고정된 코드북 벡터들 중 하나로 변환) 된 음성 벡터들을 사용한다.

5. 이과정에서 문맥을 잘 이해하는 백터를 학습한다(Transformer)

(가려진 부분을 문맥 보고 예측하려고 뇌처럼 생각함)

6. 학습이 끝나면, 실제 음석인식 작업에 라벨된 데이터로 파인튜닝 한다.

입력: "he smelt the nutty aroma of the spirit" (소리) 출력: 텍스트 → “he smelt the nutty aroma of the spirit”

- 성능

단 10분의 라벨 데이터로도 이전 모델보다 성능이 더 좋은걸 알 수 있다

WER (단어 오류율) 4.8%(clean) / 8.2%(noisy)

->전체라벨 데이터 사용시 성능이더 좋아짐(1.8% / 3.3%)

- 장점

연속 표현(context vector) + 고정된 양자화 표현(discrete code) 둘 다 학습 -> 일반화 잘 됨

마스킹은 모델이 문백을 더 잘 이해하게 한다.

양자는 모델이 너무 쉽게 정답을 맞추는걸 방지하여 더 어렵고 강한 훈련을 하여 표현역이 좋아진다

728x90

자연어처리(NLP) (0)	2025.04.14
KICS 한국통신학회 동계종합학술발표회 참관후기 (0)	2025.02.07

lovethedata