2022 - Self-Supervised Speech Representation Learning_ A Review
- Speech is a sequence
- Speech is a long sequence without segment boundaries
- 文字和語音都可以視為是序列,但同樣一句話的語音序列通常比文字序列要長很多。這讓 Transformer 之類的架構也不太容易處理(self-attention的 O(n2))
- 就算可以把相近的幾個 frame downsample 在一起,我們也很難知道實際的 segmentation
- Speech is continuous
- 文字可以很容易的拆分成有限的離散 unit(如:character, sub-word 等等)
- 語音序列是連續的,沒有所謂的「speech vocabulary」
- Speech processing tasks are diverse
- 對通用的自監督語音模型來說,要同時學會「所有」下游任務是很難的,因為不同的語音任務有著非常不同的特性
- Speech recognition: 去除語者訊息、專心辨識內容
- Speaker recognition: 去除內容的資訊、專心辨認語者