标签: 推理加速
所有带有此标签的文章 "推理加速".
-
AsyncT vllm适配、加速笔记(二)
更新于:加速第二篇,主要是在CUDA Kernel上做更多的优化,反思之前的Benchmarking问题等。
-
AsyncT vllm适配、加速笔记(一)
更新于:笔记的第一部分,主要覆盖了一些preliminaries,基础的vllm接入流程,以及简单的triton算子实现和最基础版本的CUDA算子实现。
-
Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity
更新于:VLDB2024,阿里的工作,看起来工程特别扎实。LLM任务上只通过对weight做sparse load就能在decode阶段获得3-4倍的提速。
-
GPU上的SNN稀疏加速
更新于:把最近做的关于GPU上SNN稀疏加速的东西做一下总结,虽然不太成功。
-
T-MAC: CPU Renaissance via Table Lookup for Low-Bit LLM Deployment on Edge
更新于:T-MAC, 用LUT加速BitNet系列的工作,在CPU上跑,后续还有一个工作叫T-MAN是在移动端的高通CPU里面的NPU上跑LUT加速。
-
HYTE: Flexible Tiling for Sparse Accelerators via Hybrid Static-Dynamic Approaches
更新于:ISCA2025,做稀疏数据流分块的,后半截没什么精力看了,现在的工作还没做稀疏编码。
-
SNN on GPU
更新于:接下来要开始着手做这个SNN在GPU上的推理加速了,写一些笔记整理思路。
-
Prosperity: Accelerating Spiking Neural Networks via Product Sparsity
更新于:HPCA在投的一篇SNN加速器文章,里面的“Product Sparsity”本质是减少相同内容的重复计算,和一般讨论的稀疏是两种不同的概念。
-
Recurrent Residual Module for Fast Inference in Videos
更新于:CVPR2018, DiffEncode + 稀疏加速,但感觉太老了。
-
Efficient Spatially Sparse Inference for Conditional GANs and Diffusion Models
更新于:NIPS2022上一篇比较有影响力的论文,对GAN和扩散模型做推理加速的工作,提出了Spatially Sparse Inference,仅在被编辑区域上稀疏地应用卷积滤波器,同时对未编辑区域复用缓存的特征