<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>VLLM on WY 的技术博客</title><link>https://zhouwy.top/tags/vllm/</link><description>Recent content in VLLM on WY 的技术博客</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Fri, 22 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://zhouwy.top/tags/vllm/index.xml" rel="self" type="application/rss+xml"/><item><title>系列01：内存管理——当你在管理 ByteBuf 时，你已经在管理 KV Cache 了</title><link>https://zhouwy.top/posts/java-to-ai-infra/01-%E5%86%85%E5%AD%98%E7%AE%A1%E7%90%86-bytebuf-kvcache-%E6%98%BE%E5%AD%98%E6%B1%A0/</link><pubDate>Fri, 22 May 2026 00:00:00 +0000</pubDate><guid>https://zhouwy.top/posts/java-to-ai-infra/01-%E5%86%85%E5%AD%98%E7%AE%A1%E7%90%86-bytebuf-kvcache-%E6%98%BE%E5%AD%98%E6%B1%A0/</guid><description>从 Netty ByteBuf 池化、JVM 堆管理到 vLLM PagedAttention 与 GPU 显存管理，同一个问题在三个世界的不同解法。附带 4 个可运行的代码实验。</description></item></channel></rss>