본문 바로가기

인공지능 대학원/논문스터디

[논문리뷰] wav2vec 2.0: A Framework for Self-SupervisedLearning of Speech Representations

 

해당 논문의 목표는 라벨이 없는 음성 데이터만으로 좋은 음성 인식 모델을 만들고자 함에 있다.

 

자기지도학습 + 마스킹 + 대조를통한 학습을 통해

 

적은 라벨로도 높은 성능을 낼 수 있음을 입증하고자 한다.

 

- 배경

기존 음성인식 모델은 수천 시간의 라벨링 된 양의 음성데이터가 필요했다.

하지만 해당 데이터는 7000개의 언어 중 대부분이 구하기 어려운 상황이다

 

- 모델 흐름

 

1.  input 원시음성 (waveform) 이 입력되면 CNN(Convolutional Neural Network) 으로 음성을 백터로 바꾼다

 

Input: “Hello, how are you?”  -> raw_audio = [0.01, 0.03, -0.02, ..., 0.00]

 

2. 그중 일부를 마스킹한다

 

[벡터1] [벡터2] [MASKED] [벡터4] [MASKED] ...

 

3. 마스킹 된 부분이 무엇인지 맞추게 한다 -> 비슷한것 끼리 가깝고다른건 멀게 학습한다. (contrative learning)

 

[MASKED] → 후보: [진짜정답, 가짜1, 가짜2, 가짜3, ...]

 

4. 이 때 정답후보는 양자화(연속 백터를 고정된 코드북 벡터들 중 하나로 변환) 된 음성 벡터들을 사용한다.

 

5. 이과정에서 문맥을 잘 이해하는 백터를 학습한다(Transformer)

 

(가려진 부분을 문맥 보고 예측하려고 뇌처럼 생각함)

 

6. 학습이 끝나면, 실제 음석인식 작업에 라벨된 데이터로 파인튜닝 한다.

 

입력: "he smelt the nutty aroma of the spirit" (소리) 출력: 텍스트 → “he smelt the nutty aroma of the spirit”

 

- 성능

 

 

단 10분의 라벨 데이터로도 이전 모델보다 성능이 더 좋은걸 알 수 있다

WER (단어 오류율) 4.8%(clean) / 8.2%(noisy)

->전체라벨 데이터 사용시 성능이더 좋아짐(1.8% / 3.3%)

 

- 장점

 

연속 표현(context vector) + 고정된 양자화 표현(discrete code) 둘 다 학습 -> 일반화 잘 됨

마스킹은 모델이 문백을 더 잘 이해하게 한다.

양자는 모델이 너무 쉽게 정답을 맞추는걸 방지하여 더 어렵고 강한 훈련을 하여 표현역이 좋아진다

 

출처 : https://arxiv.org/pdf/2006.11477

 

728x90