大腦非常神奇。只需要兩只耳朵和一些腦部周圍的軟骨,就可以僅通過聲音線索準(zhǔn)確地在 3D 空間中定位一個(gè)物體?梢月犅牽粗車穆曇。認(rèn)真的,停下來聽聽周圍的聲音。即使那些音源完全不在我們的視線內(nèi),應(yīng)該也可以大概知道音源的位置吧?這就是聲音的定位效果。這是一個(gè)非常厲害的能力,盡管大多數(shù)人都認(rèn)為這是理所當(dāng)然的,然而正是這種能力在生活的各個(gè)方面中幫助我們完成一系列活動(dòng),比如安全地過馬路,不被兇狠的狗傷害,當(dāng)然也包括創(chuàng)造游戲的沉浸效果。
讓我們來理一理
在現(xiàn)實(shí)生活中我們擁有五感。這五感分別是觸覺、味覺、嗅覺、視覺和聽覺;但是呢,在 VR 的游戲世界里,只有兩種感覺能被我們自由利用,這兩感就是視覺和聽覺。
從某些角度說呢,這樣反而比較好,既然現(xiàn)在只有兩種感覺可以被利用,那制作一個(gè)真正的沉浸式游戲就意味著將這兩感運(yùn)用到極致。簡單來說就是需要高質(zhì)量的 3D 圖像和 3D 音效。
盡管圖形領(lǐng)域近幾年一直在持續(xù)發(fā)展提升,PC 端音效的發(fā)展史看上去似乎就顯得特別混亂,有層出不窮的新發(fā)明,也有停滯不前的時(shí)期,甚至也有徹徹底底的退步。然而,隨著 VR 產(chǎn)品的問世和不斷發(fā)展,真正的 3D 音效似乎再一次崛起了。這一次他們從過去層出不窮的新發(fā)明中吸取了教訓(xùn),VR 要將沉浸式音效體驗(yàn)推向一個(gè)前所未有的巔峰。
音效急需復(fù)蘇
3D 音效病了。正確執(zhí)行的 3D 音效還是非常炫酷的,但是在近幾十年里,3D 音效的整體質(zhì)量都不容樂觀。毫不夸張地說,想要明白為什么 VR 能夠復(fù)興 3D 音效,必須了解 3D 音效究竟為什么需要復(fù)蘇。
3D 音效利用的是空間坐標(biāo)軸內(nèi)每個(gè)聲音和聽者的坐標(biāo)位置,然而大多數(shù)現(xiàn)代游戲都將聲音界定為水平上擴(kuò)展,但是縱向上幾乎沒有高度和距離感。這就意味著我們界定的聲音對于聽者而言就像是一個(gè)靜止的呼啦圈,僅僅能提供一種極弱的偽 3D 效果。
音頻發(fā)展史
從某些角度來看,音效已經(jīng)在過去幾十年中有了突飛猛進(jìn)的變化,尤其是從保真度和信噪比的角度來看。從托馬斯·愛迪生在1800 年代末期第一次通過留聲機(jī)回放了一段聲音以來,我們已經(jīng)在音頻領(lǐng)域發(fā)展了很多。然而,盡管在保真度和預(yù)錄方面一直在持續(xù)進(jìn)步,3D 界的實(shí)時(shí)音效建模卻有些差強(qiáng)人意。

那么,在游戲之中創(chuàng)造出優(yōu)秀的 3D 音效到底有多難呢?為什么我的游戲里沒有 3D 音效呢?高保真音效的重現(xiàn)其實(shí)并不難,但是要重現(xiàn)一個(gè) 3D 空間中的動(dòng)態(tài)行為確實(shí)是一件很難的事情。
空間障礙
首先,我們先預(yù)錄一個(gè)音效作為樣本。它可以是僵尸的呻吟,可以是開槍的聲音,也可以是你朋友在雪地里的腳步聲。無論這個(gè)音效是什么,它肯定具備一個(gè)音源和一個(gè)聽者。
無論是音源還是聽者,都需要在 3D 空間中占有一個(gè)位置,這個(gè)過程被稱之為空間定位。本質(zhì)上來說呢,這就意味著音源和聽者都有一個(gè)完整、動(dòng)態(tài)的 xyz軸坐標(biāo),從左到右,從上到下,從前到后。隨著他們位置的變化,預(yù)錄聲音樣本也必須隨著位置變化而變化。也有專門的術(shù)語來形容從左到右,從前到后的關(guān)系,叫方位角,而從上到下的關(guān)系則稱為海拔,此外還有距離。盡管空間定位對于聲音的沉浸效果而言非常重要,這也僅僅只是冰山一角。在聲音到達(dá)聽者的位置之前,它需要在空間里沿著彎曲復(fù)雜的路徑里行進(jìn)一段距離才行。
就像光一樣,聲音實(shí)際上很少沿直線從點(diǎn) A 到點(diǎn) B,取決于周邊環(huán)境,它們在穿梭的過程中可能經(jīng)歷成千上萬的路徑變化。光可以被反射,聲音也可以被反射,反射又可細(xì)分為早反射和遲反射;也可以被吸收;甚至可以被完全隔絕,如聲音封閉。在一個(gè)空間內(nèi)的聲音也可以產(chǎn)生回聲,這些都取決于聲音在傳播過程中的路徑。將這些環(huán)境因素合在一起,就是人們常說的聲音氛圍。
由于這些環(huán)境因素對音波在傳播過程中的影響,也大大加強(qiáng)了計(jì)算機(jī)處理這種影響的難度。舉個(gè)不恰當(dāng)?shù)睦,這大概就像是在你的游戲中加入另外一個(gè)物理引擎,比如聲波追蹤系統(tǒng)之類的,這也是硬件加速音效常用且實(shí)用的一個(gè)借口。所以時(shí)至今日,大多數(shù)游戲仍然沒有將空間定位或者聲音氛圍開發(fā)到極致。
Aureal
想要把這一切環(huán)境因素都放到你的腦邊實(shí)在有點(diǎn)難,所以不妨現(xiàn)在戴上一副耳機(jī)然后聽聽看這個(gè)。這是一個(gè)在 1990 年代末誕生的即時(shí) 3D 音效科技。沒錯(cuò),大概 20 年前的科技就已經(jīng)能創(chuàng)造出富有沉浸感、栩栩如生、有方位感的 3D 音效。這項(xiàng)技術(shù)被稱為A3D 2.0,它可以實(shí)時(shí)實(shí)現(xiàn)以上提到的大多數(shù)的聲音效果。而這項(xiàng)技術(shù)的擁有者正是 Aureal。

這項(xiàng)技術(shù)很大程度上依賴于頭部相關(guān)傳遞函數(shù)以及用來計(jì)算 3D 音源如何進(jìn)入人腦數(shù)學(xué)算法,這種算法還需要考慮耳朵和上半身身形。這能在本質(zhì)上幫助我們復(fù)制聲音線索,以便我們準(zhǔn)確定位音源,或者將音源局限在某塊區(qū)域。我需要再一次提醒大家,這項(xiàng)技術(shù)在上世紀(jì) 90 年代末期就已經(jīng)實(shí)現(xiàn)了。
說了這么多,如果你聽了上述那個(gè)鏈接,覺得自己的耳朵被欺騙了,可以理解!這是非常正常的感受?墒侨绻@項(xiàng)技術(shù)那么多年以前就已經(jīng)存在了,為什么如今游戲的音效很多都還沒這個(gè)強(qiáng)呢?原因歸納起來就兩個(gè)字,競爭。
競爭
理論上來講競爭是一件好事,可以讓產(chǎn)品質(zhì)量越來越高,就好比跑步比賽中別人就快追上你了,你就決定加速一樣。然而不幸的是,競爭也可能產(chǎn)生“劣幣驅(qū)逐良幣”的負(fù)面效果,比如跑步比賽中你就快追上別人了,結(jié)果他把你推倒了。有時(shí)候市場競爭真的就是這個(gè)樣子。
Aureal 是史上最早開拓 3D 音效領(lǐng)域的公司之一。即使很保守地評價(jià),他們家的音效科技也是非常出色的,尤其是考慮到他們在上世紀(jì) 90 年代末就已經(jīng)達(dá)到那種水平。可是就在隨后,Aureal 的最大競爭者 Creative起訴 Aureal 侵犯專利權(quán)。盡管人們普遍認(rèn)為 Aureal 的音頻技術(shù)比 Creative 的要更加優(yōu)秀一些,這場官司卻耗費(fèi)了 Aureal 大量財(cái)力,以至于無法繼續(xù)運(yùn)作下去。
總而言之,這兩家公司并沒有友好競爭,而音頻技術(shù)也只能成為這場惡性競爭中的陪葬品。可以說這場惡性競爭不僅僅阻礙了 3D 音效的發(fā)展,更增加了消費(fèi)者們的開銷,最可惡的是價(jià)格高了產(chǎn)品質(zhì)量反而變得比以前更糟糕。
在被稱為 3D 音效的黃金年代的那段日子里,Creative 也繼續(xù)創(chuàng)新,然而它們的創(chuàng)新大部分是基于 Microsoft 的核心技術(shù)DirectSound和 DirectSound3D。
前任
首先呢,我們先來弄明白一個(gè)常用的俗名,你肯定經(jīng)常聽到DirectX這名字,一般都是在描述某些很酷炫的圖形特征時(shí)會(huì)被用到。盡管 DirectX 經(jīng)常被人們與 3D 圖形聯(lián)系在一起,但實(shí)際上它是由大量多媒體應(yīng)用程序編程接口構(gòu)成的,簡單地說就是相當(dāng)于有好幾級軟件,將功能強(qiáng)大的軟件與不那么強(qiáng)大的連接在一起運(yùn)轉(zhuǎn)。
而 DirectX 的圖形 API 正是 Direct3D。大部分人在說 DirectX 的時(shí)候其實(shí)指的是 Direct3D。而 DirectSound 呢,就相當(dāng)于是對應(yīng)的音效 API。DirectSound 也有擴(kuò)展部分,名為 DirectSound3D。
DirectSound有兩個(gè)核心功能。一是它能夠創(chuàng)建一個(gè)標(biāo)準(zhǔn),統(tǒng)一化的環(huán)境供 3D 音效發(fā)展,并能讓軟件開發(fā)者輕松利用。第二個(gè)功能則是它能讓硬件為 3D 音效加速,這是一項(xiàng)非常復(fù)雜的計(jì)算任務(wù)。一直到 2006 年,DirectSound 和 DirectSound3D 一直是很多音頻應(yīng)用的主心骨。隨后Vista誕生了。
隕落
隨著 Windows Vista 系統(tǒng)的發(fā)布,微軟隨即將 DirectSound3D 斬于馬下,將幾年來 Creative 音頻發(fā)展的基石化為烏有。無論是標(biāo)準(zhǔn)音效 API 還是硬件加速都瞬間失去了活力。想明白這究竟造成了多大的混亂,不妨想象一下哪天微軟突然決定也停止使用 Direct3D。
當(dāng)然了,圖形行業(yè)能夠很快自我復(fù)原的幾率很高,但是這么做,對于圖形界的影響一定會(huì)是巨大的。移除 DirectSound 和 DirectSound3D 從某些角度來說是有利的,但對于當(dāng)時(shí)音頻的狀況而言是個(gè)非常巨大的打擊。這段歷史就像是 Creative 把 Aureal 的輪胎放了氣,而當(dāng) Creative 準(zhǔn)備上路的時(shí)候,微軟直接把 Creative 的輪胎卸掉了。
在 DirectSound3D 被喚醒的初期,很多人說硬件加速是多余的,完全不需要。這么說有那么點(diǎn)道理,但是撇開道理不談,這么多年來的游戲中軟件執(zhí)行這塊似乎一直很單薄,而背后原因正是因?yàn)樗麄儫o法計(jì)算足夠的運(yùn)算組,以至于無法創(chuàng)建真正的 3D 音效。從樂觀的角度來看這最近一個(gè)世紀(jì),3D 音效在退步,但在代替軟件填補(bǔ)空白的幫助下,至少也在跌跌撞撞地找回自己的步伐。
余波
盡管從 Vista 開始的代替產(chǎn)品基本都是基于軟件制造的,也有少部分硬件加速的解決方案,比如 AMD 的TrueAudio技術(shù),它們利用 GPU 進(jìn)行運(yùn)算,從而創(chuàng)造精準(zhǔn)的 3D 音效。當(dāng)我們想起聲音是一種物理現(xiàn)象,再想想 GPU 在物理渲染中日益遞增的作用,說 GPU 也能夠計(jì)算出精準(zhǔn)的沉浸式 3D 音效似乎也不那么牽強(qiáng)。然而,如今的 3D 音效領(lǐng)域依然支離破碎。
事到如今,我們再回過頭來看,究竟解決方案是軟件還是硬件已經(jīng)不那么重要了。重要的是能實(shí)現(xiàn)真正的空間定位,創(chuàng)造環(huán)境氛圍?梢哉f近十年來,這些過程常常是敷衍了事。隨著 VR 的到來,對真正的 3D 音效的需求總算到頭了。

歡迎光臨
VR 的一切都是關(guān)于沉浸感。Oculus Rift 特別強(qiáng)調(diào)了臨場感的概念,或是肉體上感覺自己正身處于某一環(huán)境中。視覺和聽覺都能使這種感覺更加逼真。
在 VR 中,能實(shí)現(xiàn)沉浸感和臨場感畫面的主要方式就是通過低延遲的頭部追蹤,當(dāng)你轉(zhuǎn)頭,在地上匍匐前進(jìn)時(shí),顯示屏能以幾乎無法察覺的延遲匹配你的實(shí)時(shí)視野。有趣的是,頭部追蹤系統(tǒng)也恰好是為什么真正的 3D 音效至關(guān)重要的原因。
在現(xiàn)實(shí)生活中,我們常常會(huì)微微轉(zhuǎn)動(dòng),或者抬高頭部以確定某個(gè)聲音的確切來源,我們的大腦會(huì)記錄下這些聲音的差異。鼠標(biāo)視角某種程度上能模仿這樣的行為,因此對于鼠標(biāo)游戲來說 3D 音效是個(gè)不錯(cuò)的選擇,但是頭部追蹤系統(tǒng)對于 3D 音效的需求幾乎是強(qiáng)制的。
3D音效:VR的必需品
VR 中的音效可以成為臨場感的點(diǎn)睛之筆,也能成為敗筆。正確執(zhí)行的 3D 音效能加強(qiáng)一個(gè)場景的臨場感,給玩家們傳遞各種物體的位置信息,以及環(huán)境信息。能夠通過頭部運(yùn)動(dòng)追蹤一個(gè)運(yùn)動(dòng)中的物體固然很重要,能夠聽見與這個(gè)物體實(shí)時(shí)位置所匹配的聲音也同樣重要。視覺和聽覺可以相互加強(qiáng),一旦這兩種感覺互相沖突,沉浸感就消失了。
想象一下你看見一個(gè)物體在你的身體上方,但聽上去卻像是在邊上;或者是你在聽一個(gè)角色講話,但是無論你的頭轉(zhuǎn)向何方,聲音似乎總是從正前方傳來。如果真的這樣,沉浸感就成了一個(gè)笑話,那也就更不用談什么臨場感了。
3D 音效非常重要,因?yàn)楫?dāng)我們聽到那些可以感覺到的聲音時(shí),聽覺幾乎可以替代我們無法實(shí)現(xiàn)的觸覺,比如我們聽到了風(fēng)從臉上吹過的聲音,或者雨落在身邊的聲音。來看看這個(gè)Oculus Connect 大會(huì)上的視頻,你可以對 3D 音效對于 VR 的重要性有更進(jìn)一步的了解。
但這并不是說沒有優(yōu)秀的 3D 音效,沉浸感就沒有了,而是真正的 3D 音效能將這種感覺放大至無限。這就是為什么 VR 如此堅(jiān)決地推崇整合了空間定位和環(huán)境氛圍的真正 3D 音效。
然而有點(diǎn)反常的就是,由于耳朵對于聲音的連續(xù)性判斷和準(zhǔn)確定位,利用 HRTF 的耳機(jī)似乎總比揚(yáng)聲器傳遞更逼真的 3D 音效。
音頻復(fù)蘇
在 2014 年,Oculus 授權(quán) VisiSonic 的音頻技術(shù),并最終將其融入 Oculus Audio SDK 中。這項(xiàng)技術(shù)非常依賴定制的 HRTF,通過耳機(jī)來再現(xiàn)精準(zhǔn)的空間定位,這其實(shí)也是 Aureal 在 20 年前就推出的技術(shù)。
最棒的部分不僅僅是 Oculus 將這項(xiàng)技術(shù)整合進(jìn)了他們的 Audio ADK 中,而且他們還免費(fèi)供應(yīng),甚至不僅僅在 VR 平臺(tái)上免費(fèi),其他任何平臺(tái)上也是免費(fèi),包括傳統(tǒng) PC 平臺(tái)也是。盡管市面上也有很多各種各樣的三方音頻解決方案,但 Oculus 這么做也是為大家提供了一個(gè)高質(zhì)量,并容易上手的 3D 音效基準(zhǔn),甚至為游戲內(nèi)真正的 3D 音效定了起跑線,這條起跑線在快十年前 DirectSound3D 隕落時(shí)就不見了蹤影。
一段時(shí)間以來 3D 音效都處于一個(gè)“奄奄一息”的狀態(tài),或者你也可以樂觀地說,它需要被復(fù)蘇。多虧了 VR 的到來,人們終于證實(shí)了 3D 音效復(fù)蘇的重要性。3D 音效再也不是備選的調(diào)味料了,它是一個(gè)非常重要的原材料,是可以放大、倍增整個(gè) VR 體驗(yàn),可以將臨場感和沉浸感提升到圖形永遠(yuǎn)無法企及高度的重要元素。