Skip to main content

語音和文字、影像的不同

2022 - Self-Supervised Speech Representation Learning_ A Review
  • Speech is a sequence
    • 影像通常可以是固定的大小,而語音是長短不一的序列
  • Speech is a long sequence without segment boundaries
    • 文字和語音都可以視為是序列,但同樣一句話的語音序列通常比文字序列要長很多。這讓 Transformer 之類的架構也不太容易處理(self-attention的 O(n2)O(n^2))
    • 就算可以把相近的幾個 frame downsample 在一起,我們也很難知道實際的 segmentation
  • Speech is continuous
    • 文字可以很容易的拆分成有限的離散 unit(如:character, sub-word 等等)
    • 語音序列是連續的,沒有所謂的「speech vocabulary」
  • Speech processing tasks are diverse
    • 對通用的自監督語音模型來說,要同時學會「所有」下游任務是很難的,因為不同的語音任務有著非常不同的特性
    • Speech recognition: 去除語者訊息、專心辨識內容
    • Speaker recognition: 去除內容的資訊、專心辨認語者