Hacking at 0xlab

Android/Beagle 效能改善簡記

以圖表展現前文「在 Android/OMAP 展現硬體加速的 OpenGL|ES 與影片播放」與「針對 ARMv7 優化的 Android」所提到的效能改善，可參見以下：

分析若干繪圖操作：

302700 bytes memcpy
512x512 unmodified texture, 512x512 blit
512x512 unmodified texture, 512x512 blit (x2)
512x512 modified texture, 512x512 blit

baseline 是原本 Android on Beagle 的移植，而 hardware-opt 則是運用 ARM NEON 指令集與硬體 OpenGL|ES 加速，基準 baseline 302700 bytes memcpy 時間為 1373 us，整體時間越短越佳。

read on

Posted 張貼者： jserv 於上午11:13 on 2009年7月13日星期一 | 0 意見
Filed under: android, arm, opengl, simd

針對 ARMv7 改進的 Android

前文「升級 Android 內建 GNU Toolchain 到 gcc 4.4」提及使用更新的編譯器平台，現在追蹤的是 gcc 4.4/4.5，不排除引入 LLVM，這些準備都是為了允許施加更多優化、展現平台的特性，而在 Android 的 build system 也需要作一些更動，至少涵蓋以下：

針對硬體平台的編譯參數
Dalvik machine-dependent interpreter implementation (mterp)
針對硬體特徵優化的關鍵軟體，如 BlueZ 中處理音訊 Bluetooth low-complexity, subband codec (SBC) 的實做

當然優化是無止盡的，我們只求在合理的工程資源，能解決夠多的技術議題即可。筆者的參考修改可見 android-armv7.patch，其中做了以下調整：

設定 gcc 編譯參數為 "-march=armv7-a -mtune=cortex-a8 -mfpu=neon"，適用於 BeagleBoard (TI OMAP 353x) 平台
額外啟動 gcc 的 Auto-vectorization 優化策略
以 ARM NEON 指令集優化 SBC 的執行效能

前期我們還是著重於泛 ARMv7 平台的優化技術，再來就是針對 SoC 平台的 DSP 與特性去作進一步處理。為了證明以上的修改發揮作用，可檢視 libjpeg 是否自動的做了 vectorized，也就是看看有無 ARM NEON 指令集的生成：

# ./prebuilt/linux-x86/toolchain/arm-eabi-4.4.0/bin/arm-eabi-objdump -d \
out/target/product/generic/obj/STATIC_LIBRARIES/libjpeg_intermediates/jdmerge.o | egrep "v[add|mov]"
1d4:   f2c09012        vmov.i32        d25, #2 ; 0x00000002
1d8:   f3c01210        vmov.i32        d17, #32768     ; 0x00008000
200:   f26048a9        vadd.i32        d20, d16, d25
204:   f22069b8        vmul.i32        d6, d16, d24
208:   f26438a9        vadd.i32        d19, d20, d25
20c:   f2266821        vadd.i32        d6, d6, d17

至於 ARM NEON 指令集，這裡不贅述，可參考 ARM 官方文獻 NEON Technology。

read on

Posted 張貼者： jserv 於上午10:41 on 2009年7月1日星期三 | 1 意見
Filed under: android, arm, neon, simd

在 Android 內部實做中，有許多細節涉及大量的 memcpy() 操作，比方說將一塊使用者定義的繪圖區域傳遞給 SurfaceFlinger 管理的過程，由於得先轉換成 texture，再對應為 Surface，之間至少需要三次 memcpy。由於 BeagleBoard (TI OMAP3) 透過 HDMI 輸出 (max: 1280x1024)，居中涉及大量的繪圖操作，意味著 memcpy() 頻繁被呼叫著，對整體效能有顯著的影響，於是筆者花了一些時間分析。

Android 的 libc 實做 -- bionic -- 已包含針對 ARMv5 優化過的 memcpy()，詳情可參考 libc/arch-arm/bionic/memcpy.S，而 GNU Toolchain (glibc) 中，其實也有一份針對 ARMv5 優化過的 memcpy() 實做，也利用到 ARMv5 的 data prefetch 指令。既然我們採用 ARMv7 架構的 BeagleBoard，何不使用其引入的 NEON SIMD 加速指令集呢？以下就是在 BeagleBoard 所作的 benchmark：

數據如下：

glibc-armv5 : 181884276 B/s
bionic-armv5 : 225881095 B/s
armv7 : 269294302 B/s

參考的 ARM NEON 優化 memcpy() 實做如下： (arm-neon-memcpy.S from Måns Rullgård )

        .fpu neon                                                                          
        .text
 

        .global memcpy_neon
 

        .func   memcpy_neon
memcpy_neon:
        push            {r4-r11}
        mov             r3, r0
1:      subs            r2, r2, #128
        pld             [r1, #64]
        pld             [r1, #256]
        pld             [r1, #320]
        ldm             r1!, {r4-r11}
        vld1.64         {d0-d3},   [r1,:128]!
        vld1.64         {d4-d7},   [r1,:128]!
        vld1.64         {d16-d19}, [r1,:128]!
        stm             r3!, {r4-r11}
        vst1.64         {d0-d3},   [r3,:128]!
        vst1.64         {d4-d7},   [r3,:128]!
        vst1.64         {d16-d19}, [r3,:128]!
        bgt             1b
        pop             {r4-r11}
        bx              lr
        .endfunc

至於 SurfaceFlinger 的操作仍有優化的空間，稍後再討論。

read on

Posted 張貼者： jserv 於下午2:34 on 2009年6月18日星期四 | 1 意見
Filed under: android, arm, neon, simd

Hacking at 0xlab

Android/Beagle 效能改善簡記

針對 ARMv7 改進的 Android

改善 Android 中 memcpy 效能

About Me

Labels

Archives