Java NIO为何导致堆外内存OOM了？ - 博客

[{"createTime":1735734952000,"id":1,"img":"bandupan_350_218.jpg","link":"https://pan.baidu.com/s/1T03izdWtRSeMqOXoT9HCug?pwd=draw","name":"百度网盘下载","status":9,"txt":"百度网盘下载","type":1,"updateTime":1735747411000,"userId":3},{"createTime":1736173885000,"id":2,"img":"txy_480_300.png","link":"https://cloud.tencent.com/act/cps/redirect?redirect=1077&cps_key=edb15096bfff75effaaa8c8bb66138bd&from=console","name":"腾讯云秒杀","status":9,"txt":"腾讯云限量秒杀","type":1,"updateTime":1736173885000,"userId":3},{"createTime":1736177492000,"id":3,"img":"aly_251_140.png","link":"https://www.aliyun.com/minisite/goods?userCode=pwp8kmv3","memo":"","name":"阿里云","status":9,"txt":"阿里云2折起","type":1,"updateTime":1736177492000,"userId":3},{"createTime":1735660800000,"id":4,"img":"vultr_560_300.png","link":"https://www.vultr.com/?ref=9603742-8H","name":"Vultr","status":9,"txt":"Vultr送$100","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":5,"img":"jdy_663_320.jpg","link":"https://3.cn/2ay1-e5t","name":"京东云","status":9,"txt":"京东云特惠专区","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":6,"img":"qk_443_300.png","link":"https://pan.quark.cn/s/6229b93c70d0","name":"夸克网盘","status":9,"txt":"夸克网盘","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":7,"img":"yun_910_50.png","link":"https://activity.huaweicloud.com/discount_area_v5/index.html?fromacct=261f35b6-af54-4511-a2ca-910fa15905d1&utm_source=aXhpYW95YW5nOA===&utm_medium=cps&utm_campaign=201905","name":"底部","status":9,"txt":"高性能云服务器2折起","type":2,"updateTime":1735660800000,"userId":3}]

某天报警：某台机器部署的一个服务突然无法访问。谨记第一反应登录机器查看日志，因为服务挂掉，很可能因OOM。这个时候在机器的日志中发现了如下的一些信息：
nio handle failed java.lang.OutOfMemoryError: Direct buffer memory at
org.eclipse.jetty.io.nio.xxxx at org.eclipse.jetty.io.nio.xxxx at
org.eclipse.jetty.io.nio.xxxx
表明确实为OOM，问题是哪个区导致的呢？可以看到是：Direct buffer memory
，还看到一大堆jetty相关方法调用栈，仅凭这些日志，就能分析OOM原因。

<>Direct buffer memory

堆外内存，JVM堆内存之外的一块内存，不是由JVM管理，但Java代码却能在JVM堆外使用一些内存空间。这些空间就是Direct buffer
memory，即直接内存，这块内存由os直接管理。但称其为直接内存有些奇怪，我没更爱称其为“堆外内存”。

Jetty作为JVM进程运行我们写好的系统的流程：

这次OOM是Jetty在使用堆外内存时导致。可推算得，Jetty可能在不停使用堆外内存，然后堆外内存空间不足，没法使用更多堆外内存，就OOM了。

Jetty不停使用堆外内存：

<>解决OOM的底层技术

Jetty既然是用Java写的，那他是如何通过Java代码申请堆外内存的？然后这个堆外内存空间又如何释放呢？这涉及Java的NIO底层。

JVM的性能优化相对还是较为容易一些的，但若是解决OOM，除了一些弱智和简单的，如有人在代码里不停创建对象。其他很多生产的OOM问题，都有点技术难度，需要扎实技术。

<>堆外内存是如何申请的，又是如何释放的？

如在Java代码里要申请使用一块堆外内存空间，是使用DirectByteBuffer这个类，你可以通过这个类构建一个DirectByteBuffer的对象，这个对象本身是在JVM堆内存里的。

但是你在构建这个对象的同时，就会在堆外内存中划出来一块内存空间跟这个对象关联起来，我们看看下面的图，你就对他们俩的关系很清楚了。

因此在分配堆外内存时，基本就这思路。

<>如何释放堆外内存

当你的DirectByteBuffer对象无人引用，成垃圾后，就会在某次YGC或Full GC时被回收。

只要回收一个DirectByteBuffer对象，就会释放其关联的堆外内存：

<>那为何还出现堆外内存溢出？

若你创建很多DirectByteBuffer对象，占了大量堆外内存，然后这些DirectByteBuffer对象还无GC线程来回收，那就不会释放呀！

当堆外内存都被大量DirectByteBuffer对象关联使用，若你再要使用额外堆外内存，就报内存溢出！何时会出现大量DirectByteBuffer对象一直存活，导致大量堆外内存无法释放？

还可能是系统高并发，创建过多DirectByteBuffer，占用大量堆外内存，此时再继续想要使用堆外内存，就会OOM！但该系统显然不是这种情况。

<>真正的堆外内存溢出原因

可以用jstat观察线上系统运行情况，同时根据日志看看一些请求的处理耗时，分析过往gc日志，还看了一下系统各个接口的调用耗时后，分析思路如下。

首先看接口调用耗时，系统并发量不高，但他每个请求处理较耗时，平均每个请求需1s。

然后jstat发现，随系统不停被调用，会一直创建各种对象，包括Jetty本身不停创建DirectByteBuffer对象去申请堆外内存空间，接着直到Eden满，就会触发YGC：

但往往在进行GC的一瞬间，可能有的请求还没处理完，此时就有不少DirectByteBuffer对象处于存活状态，还没被回收，当然之前不少DirectByteBuffer对象对应的请求可能处理完毕了，他们就可以被回收了。

此时肯定会有一些DirectByteBuffer对象以及一些其他的对象是处于存活状态的，就需转入Survivor区。记得该系统上线时，内存分配极不合理，就给了年轻代一两百M，老年代却给七八百M，导致年轻代中的Survivor只有10M。因此往往在YGC后，一些存活下的对象（包括了一些DirectByteBuffer）会超过10M，没法放入Survivor，直接进入Old：

于是反复的执行这样的过程，导致一些DirectByteBuffer对象慢慢进入Old，Old的DirectByteBuffer
对象越来越多，而且这些DirectByteBuffer都关联很多堆外内存：

这些老年代里的DirectByteBuffer其实很多都是可以回收的状态了，但是因为老年代一直没塞满，所以没触发full
gc，也就自然不会回收老年代里的这些DirectByteBuffer了！当然老年代里这些没有被回收的DirectByteBuffer就一直关联占据了大量的堆外内存空间了！

直到最后，当你要继续使用堆外内存时，所有堆外内存都被老年代里大量的DirectByteBuffer给占用了，虽然他们可以被回收，但是无奈因为始终没有触发老年代的full
gc，所以堆外内存也始终无法被回收掉。最后导致OOM！

<>这Java NIO怎么看起来这么沙雕？

Java NIO没考虑过会发生这种事吗？

考虑了！他知道可能很多DirectByteBuffer对象也许没人用了，但因未触发gc就导致他们一直占据堆外内存。Java
NIO做了如下处理，每次分配新的堆外内存时，都调用System.gc()，提醒JVM主动执行以下GC，去回收掉一些垃圾没人引用的DirectByteBuffer对象，释放堆外内存空间。

只要能触发GC去回收掉一些没人引用的DirectByteBuffer，就会释放一些堆外内存，自然就可以分配更多对象到堆外内存。但因为我们又在JVM设置了：
-XX:+DisableExplicitGC
导致这System.gc()不生效，因此导致OOM。

<>终极优化

项目有如下问题：

* 内存设置不合理，导致DirectByteBuffer对象一直慢慢进入老年代，堆外内存一直无法释放
* 设置了-XX:+DisableExplicitGC，导致Java
NIO无法主动提醒去回收掉一些垃圾DIrectByteBuffer对象，也导致了无法释放堆外内存
对此就该：

* 合理分配内存，给年轻代更多内存，让Survivor区域有更大的空间
* 放开-XX:+DisableExplicitGC这个限制，让System.gc()生效
优化后，DirectByteBuffer一般就不会不断进入老年代了。只要他停留在年轻代，随着young gc就会正常回收释放堆外内存了。

只要放开-XX:+DisableExplicitGC限制，Java
NIO发现堆外内存不足了，自然会通过System.gc()提醒JVM去主动垃圾回收，回收掉一些DirectByteBuffer，进而释放堆外内存。

技术

Java1212 篇
Python927 篇
开发语言608 篇
c语言463 篇
算法461 篇
MySQL438 篇
数据库394 篇
前端387 篇
更多...