大模型近无损量化并提升推理吞吐 清华开源混合精度推理系统MixQ 一键部署LLM混合精度推理,端到端吞吐比AWQ最大提升6倍!清华大学计算机系PACMAN实验室发布开源混合精度推理系统——,MixQ支持8比特和4比特混合精度推理,可实现近无损的量化部署并提升推理的吞...