标签: 推理加速

所有带有此标签的文章 "推理加速".

AsyncT vllm适配、加速笔记（三）

更新于: 24 Jun, 2026

最后一篇，主要囊括了AsyncT算子最终的Hopper Specilized版本算子介绍、一些最终效果的breakdown，以及对接下来可以做的工作的一些分析。下一步要对训练做些优化了。
AsyncT vllm适配、加速笔记（二）

更新于: 26 May, 2026

加速第二篇，主要是在CUDA Kernel上做更多的优化，反思之前的Benchmarking问题等。
AsyncT vllm适配、加速笔记（一）

更新于: 25 May, 2026

笔记的第一部分，主要覆盖了一些preliminaries，基础的vllm接入流程，以及简单的triton算子实现和最基础版本的CUDA算子实现。
Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity

更新于: 24 Sep, 2025

VLDB2024，阿里的工作，看起来工程特别扎实。LLM任务上只通过对weight做sparse load就能在decode阶段获得3-4倍的提速。
GPU上的SNN稀疏加速

更新于: 14 Jul, 2025

把最近做的关于GPU上SNN稀疏加速的东西做一下总结，虽然不太成功。
T-MAC: CPU Renaissance via Table Lookup for Low-Bit LLM Deployment on Edge

更新于: 7 Jul, 2025

T-MAC, 用LUT加速BitNet系列的工作，在CPU上跑，后续还有一个工作叫T-MAN是在移动端的高通CPU里面的NPU上跑LUT加速。
HYTE: Flexible Tiling for Sparse Accelerators via Hybrid Static-Dynamic Approaches

更新于: 25 Jun, 2025

ISCA2025，做稀疏数据流分块的，后半截没什么精力看了，现在的工作还没做稀疏编码。
SNN on GPU

更新于: 24 Jun, 2025

接下来要开始着手做这个SNN在GPU上的推理加速了，写一些笔记整理思路。
Prosperity: Accelerating Spiking Neural Networks via Product Sparsity

更新于: 11 Jun, 2025

HPCA在投的一篇SNN加速器文章，里面的“Product Sparsity”本质是减少相同内容的重复计算，和一般讨论的稀疏是两种不同的概念。
Recurrent Residual Module for Fast Inference in Videos

更新于: 9 Jun, 2025

CVPR2018， DiffEncode + 稀疏加速，但感觉太老了。

标签: 推理加速

AsyncT vllm适配、加速笔记（三）

AsyncT vllm适配、加速笔记（二）

AsyncT vllm适配、加速笔记（一）

Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity

GPU上的SNN稀疏加速

T-MAC: CPU Renaissance via Table Lookup for Low-Bit LLM Deployment on Edge

HYTE: Flexible Tiling for Sparse Accelerators via Hybrid Static-Dynamic Approaches

SNN on GPU

Prosperity: Accelerating Spiking Neural Networks via Product Sparsity

Recurrent Residual Module for Fast Inference in Videos