Efinix TinyML Accelerator加速方案整理

MAPLELEAF36593/19/25...About 1 min

本文整理了在官方 TinyML repo中的tools\tinyml_generator.py用到的一些常見加速方案

卷積並行計算 Convolution Parallelism

modify_in_out_parallel_param()

多維卷積運算需要大量乘法計算，以2D圖像為例：

𝑦(𝑖,𝑗)=\sum_{m=0}^{M}\sum_{n=0}^{N}(𝑥(𝑖−𝑚,𝑗−𝑛)\cdot 𝑊(𝑚,𝑛))

參數CONV_DEPTHW_STD_IN_PARALLEL, CONV_DEPTHW_STD_OUT_PARALLEL可分別調整STANDARD模式的IN/OUT的並行數
因為需要獨立的adder, multipier，DSP block, RAM等資源消耗會顯著增加
最大的並行數設定不可超過AXI_DW/8 (Ti60設定AXI_DW為128)

modify_cache_param()

將model常用的input feature, weight等直接放在FPGA BRAM(Block RAM)，減少從NVM (ex. flash)搬運的時間

parse_model(), dump_model()

將.tflite模型預先轉換為.c hex array，以供FPGA在底層直接使用(aka. 減少開機載入時間)