<看觀念> DSP 在音頻領域的應用

撰文/阿昌哥

     數位訊號處理(Digital Signal Processing,DSP),也就是使用數位運算來處理問題的方法。

     DSP 一詞對現代人而言,未必知其所以然,卻也不陌生。 舉凡語音辨識、通訊工程、氣象分析、影像處理……等等。 生活中運用到 DSP 技術的應用實在是不勝枚舉。

 

     數位訊號處理(Digital Signal Processing,DSP),就是使用數位運算來處 理問題的方法。DSP 一詞對現代人而言,未必知其所以然,卻不陌生。舉凡語 音辨識、通訊工程、氣象分析、影像處理 …… 等等。生活中運用到 DSP 技術 的應用實在不勝枚舉。時至今日,DSP 的發展包羅萬象,絕非三言兩語能夠 說完。本文將就 DSP 的概念與在音頻領域中常見的 DSP 技術做一個基本的介 紹。

 

取樣 + 量化 = 數位化

     僅僅以「數位訊號處理」這樣直譯式的說明 DSP,恐怕很多人是無法明瞭。 首先我們必須界定何謂「數位訊號」?與數位訊號相對應的就是類比訊號。維 基百科對數位訊號的解釋為:數位化的離散時間訊號。

     亦即在特定的時間下將類比訊號作「數位化」(Digitalize)處理之後所得到 的資訊。詳細一點說就是在特定的時間下進行「取樣」(Sampling),再將欲 處裡的取樣後離散訊號作「量化」(Quantize)處理,轉換成對應的數字,從 而完成數位化的工作。(《音響入門誌:DAC & 耳擴篇》中〈知識家〉單元會詳細解說數位原理。)

     這裡有二個對於數位化至關重要的動作:「取樣」與「量化」,之後段落我 們將進一步討論。在取得數位資訊後,就可以進行適當的運算,達成我們對於 音頻訊號處理的要求。

升級套件的重低音放大模組,就是利用 DSP 數位處理技術讓聲音的分頻得以實現。

 

專門任務的好幫手― DSP

     常見到技術文章中,提到「DSP 元件」一詞,與我們所熟知的 CPU (中央處理器,Central Processing Unit)又有什麼區別?其實,CPU 在整個資料處理流程中擔任的是「中樞」的角色,這些處理工作包含數學計 算、判斷處理、資料搬移等,可是 CPU 並不是任何任務的最佳選擇。一方面考慮到 CPU 工作的負載,另一方面 CPU 的數學運算功耗相對較高, 所以工程師們設計了一個輔助幫手,針對數學運算提供一個最佳架構的 電路,也是數位訊號處理「器」─ DSP(Digital Signal Processor)。

     例如,手機 CPU 在需要作音頻訊號處理、語音處理或降噪等音頻相 關工作時,便將這些任務分派給音頻 DSP。藉此 CPU 便能減少一些工 作,而獲得額外的處理能力。同時利用「異構計算」(Heterogeneous computing),CPU 與 DSP 能夠同時各自執行不同的任務,大幅提昇運 行效率。正是因為 DSP 有著多種好處,如今 DSP 在音頻處理中的應用極 為廣泛,成為不可或缺的處理器元件。

 

從類比走向必然的數位化

     但是 DSP 只是一個搭配 CPU 做資料處理上的配角嗎?讓我們回顧一下電子工程的發展。從 19 世紀電機電子工程萌芽,到了 20 世紀開始, 類比電路蓬勃發展。伴隨著真空管的發明,數位電路慢慢成形。緊接著半導體發明、積體電路進步,數位處理電路變得不再遙不可及。在此同時,類比電路的發展也面臨到瓶頸,耗能、高精度難以達成、小型化困難等諸多問題接踵而至。其中還有一個關鍵問題:成本─更是像五指山一樣的壓在傳統類比電子的發展上。所以工程師們轉而尋求使用數位電路,另闢蹊徑,打破僵局,最具代表的就是數位音源的推廣。

  異構計算 Heterogeneous computing   

     

     又譯為「異質運算」,主要是指使用不同類型指令集與體系架構的計算 單元組成系統的計算方式。 常見的計算單元類別包括 CPU、GPU 等協處理 器、DSP、ASIC、FPGA 等。為了減輕 CPU 的工作負擔,所以將部分工作分 派給 GPU 或 DSP 等晶片,大家同時工作,達到更高的效能。簡單的說,就 是一種多工的作業方式。

     自從 20 世紀後期 CD 問世,同時宣告了音源數位化的開始。對於這重大的變革,起初市場是不買帳的。反對派提出一個萬世惡名來排擠數位音頻–「數碼聲」。姑且不論是否因為當時技術尚未成熟,或是人們的使用習慣難以改變之故,數位音源相關的銷售始終好不起來,最為主要的原因還是「昂貴」。

 

DAC 的發達助長了 DSP 的發展

     以台灣來說,1980 年代一張黑膠唱片或卡帶約 120-150 元,但是 CD 則為 500 元上下。到了 1990 年左右 CD 價格稍降,也還是要 300 元起跳。再者,CD 唱盤的價格居高不下,也是一大障礙。讓我們把關注的焦點放到其關鍵零件 DAC 上。

     早期 DAC 屬於 multi-level 架構(也就是 R-2R Ladder 架構),其原理可視為一連串的電阻加上一堆開關所形成的電阻分壓電路。經由開關的導通或是斷開,改變等效電阻阻值,也就改變了輸出電壓,產生出每一筆數位內容所對應的電壓。這個架構非常直觀,卻存在著明顯的缺點。第一個問題即是精度不足,就以電阻分壓架構來討論,各個電阻的精準度勢必極為重要。

     但是製造工藝畢竟有其極限,儘管只是 16bit,在 1980 年代還是無法 要求量產晶片上的每一個電阻都是匹配良好的佳作。所以才會有將產品逐 一量測,依其品質區分等級。最有名的就是 Philips TDA1541,分成一般 品、單皇冠以及雙皇冠等不同級別的產品。因為如此,16bit 乃至 18bit 的 DAC 幾乎已是生產工藝的極限,很難再突破。

   再者,因為需要濾除「頻帶外噪訊」(out-of-band noise),故必須 在 DAC 輸出端搭配一個類比 LPF(Low Pass Filter,低通濾波器),這又 是一個問題所在。以取樣率 44.1kHz 而言,一般 LPF 頻率響應的 -3dB 便 設定在 20kHz,因為太接近音頻,一不注意很 容易就成為音質劣化的幫兇。不過隨著半導體 製程技術進步,數位電路突飛猛進,單位面積 內能容納更多的電晶體,運算速度也更快。是工程師們把腦筋動到 DSP 上面,簡言之,就是一個加入 DSP 的新型態 DAC。 

經典的 R-2R 架構 DAC 晶片:Philips TDA1541。

 

 

強大的 DSP 讓 DAC 變得更簡單

     試想一個 DAC 內部不再是由許多電阻構成,而是只有一個電阻,那麼電阻 精度便不再重要。同時配合「噪訊銳化」(Noise Shaping),將頻帶外噪訊移至人耳較不敏感的極高頻處。如此一來,原本令人煩惱的 LPF 設計也就簡單不少。甚至在一些低價機種,只需一個電阻加上一個電容組成的 RC 被動濾波器就可達成相當的音質目標。要達成此一目標,就需要 DSP 進行數位調變、Over-sampling(超取樣)、Interpolation(插補)等運算。最後只需再搭配一個大幅簡化過的類比電路,就可以達成既提高精度又降低成本的重大 目標。

     這也就是所謂的「混合訊號電路」(Mixed-signal integrated circuit)的經典應用範例。時間來到上世紀末,最後由於軟體與硬體同步降價,數位音源才 慢慢普及,成為市場主流。時至今日,絕大多數的 Audio DAC 都採用 delta- sigma 架構,配合日益精進的製程技術,IC 的數位運算能力更加強大,更有 DAC 已經可達 32bit/768kHz,其他如 SNR(訊噪比)、THD(總諧波失真)等 重要技術指標都達到極為優異的地步,這不僅僅是類比電路的進步而已。各家 廠商針對數位濾波器(即 DSP 的應用)的進步也是極為重要的一部分。

     以上我們僅就 DSP 應用在單一音頻零組件做粗淺的介紹。接下來我們再回 頭說到日常生活還有哪些我們經常使用卻忽略的音頻 DSP 技術。

 

數位音量控制(Digital Volume Control)

     音量控制是音響器材一定會使用到的功能,在類比電路中,不外乎使用可變電阻或是級進式電位器,調整輸入電壓,或是改變放大增益達成音量控制。其原理為轉動「電刷」(wiper),改變電刷與電阻層的接觸點,來改變其電阻值,再根據分壓定理調整輸出電壓,達到音量控制的目的。一個可變電阻,從台幣數元至萬元都有,其品質有著天壤之別。 一個好的可變電阻,從基板材質、碳膜或金屬膜電阻層的製作,到電刷是否為貴金屬合金,甚至電刷的造型,與電阻層接觸的電氣特性、耐磨性、會不會刮傷電阻層等,處處是學問。所以一個看似簡單的東西,卻是音響製作者最頭痛的元件之一。

     好的可變電阻,可信賴度尤為重要,電刷接點必須耐磨、不易氧化,當然一定得好聽才行。不過這裡有個常見的問題:音量一般都是左右聲道一起控制,大多數的音響設計是使用雙連式的可變電阻。 但是可變電阻絕非想像中的規律變化(一般使用對數型,故不以是否線性論之),轉動同樣的角度, 有時電阻值變得快一點,有時變得慢一些。尤其是雙連式可變電阻,要左右聲道在轉動到每一個角度下,其電阻值都是一致的,可以說是完全不可能。越好的可變電阻左右聲道差異越小,變化量越平順罷了。

傳統類比音控使用的可變電阻採用「轉動電刷」 方式很難達到理想的精確度,雙連式可變電阻更 難以精確控制左右聲道的一致,故會造成很多問題。

 

 

     那麼不好的可變電阻會出什麼問題呢?產品壽命短、故障率高、沒過 幾年就發生接點氧化或接觸不良的現象。以及左右聲道的平衡度問題。 部分廠商為了解決這個問題,便在左右聲道加入了補償可變電阻,或乾 脆各自獨立控制。因此就有人想到使用級進式電位器來解決這些問題。 每個檔位的電阻都是預先篩選過,嚴格管控誤差。可惜價格不斐、檔位有限,很難做到像可變電阻一樣可以連續性的調整音量,況且還是一樣有接點老化的問題。小小一個零件卻牽扯出那麼多的麻煩,音量控制迴 路是聲音訊號的必經之路,也是影響音質好壞的關鍵元素。

     講了一大堆類比式的音量控制,也談到了元件選用與設計上的困難,工程師們又把 DSP 搬出來救火。因應現下大多數都是數位音源,要在數位端動手腳,直接放大或縮小每一筆音樂數位內容(RAW data),經由DAC 做數位類比轉換產生對應的電流或電壓,這不就做到音量控制了嗎?又不用擔心隨著時間流逝,零件老化,也不用再煩惱左右聲道不匹配的問題。

     況且利用 DSP 的運算,就算要做微小刻度的調整也不成問題。與音量相關的 控制運算還有自動音量控制「動態範圍壓縮」(Dynamic Range Compression, DRC),或是避免過大音量造成削峰失真的 Soft-clipping (軟性切削)都可以利用 DSP 完成。當然並不是類比電路無法完成這些功能,而是需要許多額外的電子迴路才能實現。在講求「Simple is best」的現代,複雜的電路對音質造成的弊可能遠大於所來的利。

     說了一大堆數位音量控制的好處,也要來談談它的限制。先前我們說到 了訊號在數位化過程中的一個重要步驟─ 量化。若是量化時所使用的解析度(bit數)太低,再經過數位音量運算,便容易造成動態範圍壓縮。相較之下,傳統的類比式音量控制,在這一點上就有絕對性的優勢。不過厲害的 DSP 工程師還是有對策。

     首先,將音源資料預做擴展位元深度(bit-depth),再進行運算。試想一 個 0dB 的 16bit 音樂內容,經過 -60dB 的衰減,動態範圍大幅縮減到 96 – 60 = 36dB(約為 6bit 的解析度)。不過要是先將音樂內容做位元擴展成 24bit, 那麼在同樣的條件下便還有 144-60 = 84dB 的動態範圍,在實用上就接近了 類比式音量控制能夠保有的動態範圍。要是更進一步擴展成 32bit,那麼動態 範圍這個問題便不再是數位音量控制的軟肋。

 

取樣率轉換(Sample Rate Convert,SRC)

     在數位化的過程中還有另一個重要步驟-取樣。取樣的頻率即為取樣率 (Fs)。根據「奈奎斯特取樣定理」(Nyquist Sampling Theorem),簡要說明如下:數位訊號可還原出頻率小於二分之一取樣率的類比訊號。但是在訊號重建(還原)時,會出現「混疊」(aliasing)干擾。所以為了消除此一干擾, 工程師必須在還原過程中加入「抗混疊濾波器」(Anti-aliasing filter)。也就 是佈建在 DAC 之後的 LPF(低通濾波),用以濾除高於 1/2Fs 的訊號。

      但是這裡存在一個問題:在 21 世紀的今天,有著各種不同取樣率的音源 檔,也就意味著要有不同濾波頻率的 LPF 置於 DAC 迴路當中。可惜的是,在 訊號途徑中過了 DAC 之後便屬於類比領域,當然這個 LPF 也屬於類比濾波器 的範疇。類比濾波器靠著不同的電阻、電容來調整濾波截止頻率,也就是說 一旦設定好電阻/電容值,濾波器的截止頻率便被固定下來,無法更改。

     所以要是濾波截止頻率設高了,對於播放高取樣率檔案固然再好也不過,可要是換成播放低取樣率檔案時,有著較高濾波截止頻率的 LPF 便不能有效 地對於混疊訊號進行抑制,反之,較低濾波截止頻率的 LPF 對於重播高取樣 率檔案時,便會將原本你所在意的高頻訊號予以濾除,而失去播放高取樣率 檔案的目的。面對這樣進退兩難的情況,DSP 就派上用場。利用取樣率轉換 運算,將取樣率轉換至較高的頻率,例如把輸入 DAC 的取樣率一律轉換至 192kHz,取樣率統一了,LPF 的設計也就可以固定下來。那麼上述的問題便可迎刃而解。

     除此之外,還有一些常見的用途。就像是使用電腦系統播放音樂。可能播放的是 48kHz 的音樂內容,一個系統提示音「叮咚」響起。此時作業系統的後台可要忙壞了。因為這個系統提示音多半是 44.1kHz 所錄製的。兩個不同取樣率的音源是無法直接進行混音,所以作業系統需要作取樣率轉換,將取樣率統一,再把音樂與系統提示音進行混音後播放。也因此常聽到某個電腦作業系統播放品質優於其他系統的原因也就不言而喻了。因為同樣是 SRC,品質好壞各有高低。轉換品質好的需要較多的運算,消耗 CPU 資源也就比較 高。取捨之間,就看設計者偏重何者了。

     音樂編輯與後製時用的就更多了。針對不同取樣率的音源檔進行編輯混 音,勢必要作取樣率轉換。然而在後製完成,準備發行前還是要再作一次取 樣率轉換。因為現下大多數的錄音多採用 48kHz 或 96kHz 取樣率,但發行量 最大的格式還是以 CD 的 44.1kHz 為主。所以最終還是會利用取樣率轉換產生 出一個 CD 格式檔案做商業發表的最終版本。

 

降噪(Noise-cancelling)

DSP 還有一個常見的應用就是降噪,現在的手機或平板電腦,大多使用多 麥克風收音。使用多麥克風收音,目的並非要收錄立體聲效果,主要還是為 了能夠利用不同麥克風收集到的聲音資訊交由 DSP 進行信號處理,去除掉語 音裡面的噪音,得到清晰的通話。

 奈奎斯特取樣定理 Nyquist Sampling Theorem

數位訊號取樣的基本原理就是「奈奎斯特取樣定理」,由瑞典裔美國物理學家哈里奈奎斯特 (Harry Nyquist,1889-1976)於 1928 年提出,簡單的說就是在訊號取樣時,取樣的頻率必須 要為原始訊號頻率的二倍以上。以 CD 為例,它的取樣頻率 44.1kHz,就只能還原 22.05kHz 的頻 率,也就是「理論上」人耳聽覺的上限。

         另外這些年所流行的降噪耳機,也有用到 DSP 技術。最早在二次大戰期間,空戰成為影響戰爭的利器。不過當時飛行器的設計水準不如現在, 飛行員在吵雜的機艙中如何清楚地與其他機組人員溝通,乃至於與地面塔台的聯繫,都是至關重要的事。因此降噪耳機對於飛行員來說,是不可或缺的法寶。

     早期降噪耳機設計使用類比電路設計,雖然達 到一定的效果,但現今使用 DSP 數位方式進行 降噪運算的結果,更可以做到針對特定聲音或特 定頻率,做不同程度上的噪音抑制,效果更為自然。尤其在戶外使用時,適度地保留特定的環境聲,有助於保護消費者迴避危險。這些都是過去類比技術難以達成的。

 

音效(Sound Effects)

     千變萬化的音效是消費者最直接有感的調整項目。包含 EQ、響度調 整、高低音調整、殘響控制。還有在卡拉 OK 常見的升降 Key 等功能,都是 DSP 發揮的空間。

     多聲道環繞擴大機內建的模擬環繞音場效果,也是 DSP 運算能力下的強項。現在最新的 DSP 技術,還可以透過 AI 分析不同的場景,即時強調人物對白,或優化環繞聲的效果,配合畫面給予消費者最佳的聲光體驗。

   

     還有這幾年常見的藍牙喇叭,小小的單體在有限的空間裡,硬是擠出不可思議的低音出來,靠的也是 DSP 的增強低頻。更有人利用 DSP 運算,提高重低音的諧波成分,形成心理聲學上的「虛擬」重低音。雖然音質上不盡真實,但也稍稍彌補了小尺寸單體無法現重低音的窘境。

     此外,近年來蓬勃發展的虛擬實境 VR。在音頻項目上也有 DSP 發揮的空間。當操作者轉身,顯示器跟著轉動眼前的景物,如果此時聲音訊號沒有做 相對應的改變,豈不是大大降低了操作者的感官體 驗。所以靠著音頻 DSP 的即時運算,使得 VR 在整體表現上更可以讓人有身歷其境的感受。

 

編碼與解碼(Codec)

 無線藍牙傳輸技術就是DSP技術最經典的應用之一。

     1990 年代後期,MP3 有著高壓縮比,音質又能被大眾所接受。在當年儲存媒體價格不斐的年代,壓縮資料變成一種顯學。緊接著,網路時代來臨,初期有限的網路頻寬,更加依賴位元率相對較小的壓縮格式資料。日後也發展出各式各樣的壓縮格式,這裡又區分成有損壓 縮與無損壓縮,既然有壓縮格式的存在也就需要編碼與解碼等運算。無疑的,DSP 是此類運算的最佳執行者。

     另外如杜比實驗室 Dolby 與 dts 等,也開發出電影相關的多聲道聲音壓縮技術。在家用領域,DVD、BD、UHD BD,以及數位電視廣播(DAB)等,都可以見到多聲道壓縮技術的應用。顯然這也需要 DSP 加以解碼, 還原出多聲道的音頻資訊供多聲道環繞擴大機使用。

     近年來藍牙音響幾乎成為音響設備的標準配備,為了降低通訊的位元率,便使用了壓縮與解壓縮的技術。在藍牙音響中常見的壓縮格式有 SBC、AAC 及高通的 aptX。當然也有支援較高位元率的 aptX HD、 LDAC、LHDC 等。要注意的是,壓縮與解壓縮必須對應存在才可以。舉例來說,消費者要是購買了支援可解碼 aptX 的藍牙喇叭,也要確認充當 發射端的手機是否有支援相對應編碼的功能,或是該編碼功能的選項是 否開啟。如此,才能有所發揮。

     當然 DSP 還有許許多多在音頻上的應用,礙於篇幅,我們僅對較為消費者常見的功能做粗淺的論述,希望幫助讀者對於現在的數位音頻技術能有初步的認識。

杜比實驗室 Dolby Laboratories Inc.  

 杜比實驗室是一家專精於降噪與聲音壓縮編碼等技術的公司,1965 年由雷杜比(Ray Dolby, 1933-2013)在英國創立,1976 年公司總部遷至美國加州。雷杜比畢業於史丹福大學與英國劍 橋大學,大學期間曾在 Ampex 打工,在 1965 年推出用於磁帶播放的抑噪系統 Dolby NR。廣泛 被應用於 DVD 上的 Dolby Digital(又稱為 AC-3)是該公司於 1995 年所推出之數位音訊編碼系 統,之後一路進化到現今藍光 BD 使用 Dolby TrueHD 與 UHD 使用的 Dolby Atmos。