赤兔马资讯网赤兔马资讯网

赤兔马AIGC资讯网
互联网aigc应用大全
文章91浏览9796本站已运行8428

2080 Ti就能跑70B大模型,上交大新框架让LLM推理增速11倍

上海交通大学IPADS实验室发布了一款名为PowerInfer的开源推理框架,旨在显著提升大模型推理速度。原本使用昂贵的80GB A100显卡才能完成的任务,现在使用不到24GB的24GB 4090显卡就能实现,且无需量化,仅使用FP16精度即可在个人电脑上运行40B模型,量化后甚至能让2080 Ti运行70B模型。PowerInfer通过混合CPU和GPU计算,利用大模型的稀疏激活特性,将计算集中在显存有限的设备上,从而实现了高效推理。

与llama.cpp框架相比,PowerInfer在高端PC上平均提升了7.23倍的速度,最高在Falcon 40B模型上达到11.69倍。对于INT4量化模型,PowerInfer在高端和中低端PC上分别实现了平均2.89-4.28倍和5.01-8.00倍的速度提升,使得大模型在消费级硬件上运行更为流畅。

PowerInfer通过离线分析预测模型的稀疏激活,结合CPU和GPU的特性,设计了混合推理引擎,将热神经元加载到GPU显存,冷神经元则在CPU内存中计算,从而实现了高效的数据处理。这一框架不仅降低了对硬件的要求,还促进了人工智能技术在个人电脑和云端的广泛应用。

论文链接:,更多关于PowerInfer的细节和实证结果可以在论文中找到。

赞一下
赤兔马资讯网
上一篇: 2024年人工智能从业者必备!工信部AIGC证书含金量几何?
下一篇: 2080Ti 涡轮300A 跑Stable Difussion AI 绘图,原版Bios性能表现如何?
隐藏边栏