語音和文字、影像的不同

Speech is a sequence
- 影像通常可以是固定的大小，而語音是長短不一的序列
Speech is a long sequence without segment boundaries
- 文字和語音都可以視為是序列，但同樣一句話的語音序列通常比文字序列要長很多。這讓 Transformer 之類的架構也不太容易處理(self-attention的 $O(n^2)$ )
- 就算可以把相近的幾個 frame downsample 在一起，我們也很難知道實際的 segmentation
Speech is continuous
- 文字可以很容易的拆分成有限的離散 unit（如：character, sub-word 等等）
- 語音序列是連續的，沒有所謂的「speech vocabulary」
Speech processing tasks are diverse
- 對通用的自監督語音模型來說，要同時學會「所有」下游任務是很難的，因為不同的語音任務有著非常不同的特性
- Speech recognition: 去除語者訊息、專心辨識內容
- Speaker recognition: 去除內容的資訊、專心辨認語者