近期,iPhone 6s 的 A9 晶片,因台積電以及三星版本差異,吵得不可開交。從現行的跑分軟體來看,可以明確地發現兩者在相同的情況下,有著明顯的電池續航力差距。蘋果也針對此事進行回應。但是網路上已經有相當多以 Geekbench 做電池續航力測試的影片,證據就在眼前,為何蘋果會故我的如此說明?在本篇中,將不考慮換機所造成的成本負擔,以工程的角度來看一下現行跑分軟體的測試方式與問題。跑分軟體(Benchmarks),是用來衡量硬體效能的標準之一。目前手機上常見的軟體有 Antutu、Geekbench 等軟體,各自皆有其測量的方法以及依據。因此,不同廠牌的手機在使用不同的跑分軟體時,會有不同的優劣差異。
Benchmarks 測試基準有別
Benchmarks 可以分成 4 種不同的類型,第一種是開發者內部測試用的,簡單但大致只有 100 行左右的程式碼。第二種是將部份程式的核心功能取出,做為測試的樣本。第三種則是模擬真實的應用程式,藉由統計應用程式會使用的功能,盡可能的逼近使用習慣。最後一種則是以實際程式做為測試。
目前,最準確的跑分方式是以使用者常用的軟體做測試,因為這種機制可以最貼近使用者的使用行為,像是直接以播放 YouTube 和使用通訊軟體做測試依據。然而,要逐項檢測相當耗費時間,而且在背景執行的程式多寡也會影響實際結果。背景運行的程式主要有像 Line 這類需要定期確認新訊息的通訊軟體等。此外,在使用者行為測試上也相當困難,畢竟目前沒有一個公開的使用者習慣,缺乏測量依據。
因此,主流的測試軟體是第二種以及第三種類型。以 Antutu 為例,Antutu 算是第二種 Benchmarks,因為它是評估幾項會大幅影響效能的核心程式,在 Antutu 中主要有 5 個不同的測試,分別為使用者體驗、CPU、RAM、GPU、IO 這 5 項測試,後面 4 項是個別測試,以檢測不同元件間的效能差異,至於使用者體驗則是總和檢測,它會測試多工處理的能力以及應用程式運行的順暢度。
然而,這幾項檢測組合起來,只是提供各類別效能上限的依據,無法完整的模擬使用者的使用情形,畢竟每一個應用程式對硬體的負擔都不同,同時使用某幾種程式,加起來有可能超出一些硬體的效能上限,形成瓶頸,但其他的單元卻靜止不動。因此,Antutu 跑分出來的結果只能說明個別硬體的效能,無法保證整體運作的流暢度。
至於本次出盡風頭的 Geekbench 呢?在其官網上無法得知其相關細節,他們只說該測試可以模擬真實世界,並提供多平台的測試。而且,在測試時,我們只會看到一整面白的螢幕,沒有其他畫面。測試結束後,就直接得到一串數字,究竟以何做評量標準我們完全無法得知,整項測試都是黑箱作業。
然後測試結束後就給你數字,說 A>;B,這也就是為何 Apple 會出來反駁這樣的跑分測試,無法真實的反映手機效能,宣稱他們用了錯誤的測試方法,單純把 CPU 效能調到最高來量測電池使用時間,完全不符合現實狀況,並聲明兩個處理器版本的 iPhone 在續航力的能力上只有 2~3% 的差異。
測試項目未能印證使用現實
在其他更新的測試中,也可以發現台積電版的 A9 晶片在續航力方面確實優於三星版,但是沒有到 20% 那樣巨大的差異。比較準確的測量,或許是以實際消費者的使用行為去模擬,像是以 YouTube 播放影片 2 小時左右,或其他使用行為,評估電量的消耗。
至於 Apple 的 2~3% 差異是如何獲得的?合理推測是 Apple 以內部的使用者行為進行分析。在開始使用 Apple 商品時,都會有使用者條款中就有一項可寄送相關使訊息給  ;Apple,以供協助改善產品。藉由這個方法就能合法獲得使用者使用習慣。因此,Apple 所公布的差距有其可信性。但是這個差距只會符合普通使用者的行為,不考慮極端情況。
最後,整個事件下來,或許該不單討論台積電和三星的製程的優劣,畢竟 Apple 也已經公布兩者約有 2~3% 的差異,承認兩者的差異。反而跑分軟體的適用性才是最該討論的卻無人提及,Geekbench 和 YouTube 影片播放的結果落差,顯現出目前跑分軟體根本無法做公正性的評估,我們只能藉由跑分軟體知道硬體的使用極限而非實際情形。以現行的跑分軟體測量軟體,就像是以百米短跑篩選馬拉松選手,和現實脫節。
▲ 在 Geekbench 的官網上,沒有任何資訊,只有幾行簡單的描述,嚴重缺乏詳細的工程細節。(Source:Geekbench)
至於這次事件會如何結束,就看 Apple 的危機處理能力如何了。做為一般的消費者,是該買杯珍奶、吃雞排,看戲啦。
(本文由科技新報授權轉載,首圖來源:Flickr/TechStage ;CC BY 2.0)