Java 内存泄漏详解

Java 内存泄漏 (Memory Leak) 是指程序中已不再需要使用的对象，仍然被“根对象”链所引用，导致垃圾回收器无法对其进行回收，从而占用宝贵的堆内存。随着程序的运行，内存泄漏会不断累积，最终可能导致应用程序运行缓慢、响应迟钝，直至抛出 OutOfMemoryError (OOM) 错误而崩溃。

核心思想：内存泄漏的本质是“应该被回收但未被回收的对象”。理解 Java 垃圾回收机制和对象生命周期是诊断和避免内存泄漏的关键。

一、什么是内存泄漏？

在 Java 中，我们通常不直接管理内存，而是依赖 JVM 的垃圾回收器 (GC) 自动回收不再使用的对象。一个对象是否“不再需要”，GC 通过可达性分析算法来判断：如果从 GC Roots 无法到达某个对象，则认为该对象是“垃圾”，可以被回收。

内存泄漏的定义：当一个对象实际上已经不再需要（即业务逻辑上它已经“死亡”），但从 GC Roots 到它仍然存在一条强引用链 (Strong Reference Chain)，导致 GC 无法回收它所占用的内存。

这种情况下，JVM 误认为该对象仍然“存活”，从而阻止了它的回收。随着时间的推移，这些“泄露”的对象会不断堆积，消耗大量内存，最终可能耗尽 JVM 堆内存，导致 OutOfMemoryError。

内存泄漏的后果：

性能下降：GC 需要花费更多时间来扫描和清理堆，导致应用程序响应变慢。
系统不稳定：内存耗尽导致 OOM，程序崩溃。
用户体验差：卡顿、响应延迟。

二、常见的 Java 内存泄漏场景

了解常见的内存泄漏场景有助于我们在编码时规避这些问题，并在排查时有迹可循。

2.1 静态集合类引用对象

静态变量的生命周期与应用程序相同，直到应用程序结束。如果一个静态集合类 (如 HashMap, ArrayList) 持有大量对象的引用，即使这些对象在业务逻辑上已经不再需要，它们也不会被 GC 回收。

场景：缓存系统、事件监听器注册。

示例：

import java.util.ArrayList;
import java.util.List;

public class StaticCollectionLeak {
    // 静态 List 引用着大量不再需要的对象
    private static List<LargeObject> cache = new ArrayList<>();

    static class LargeObject {
        private byte[] data = new byte[1024 * 1024]; // 1MB
        // ... 其他属性
    }

    public void addAndForget(LargeObject obj) {
        cache.add(obj); // 对象被添加到静态 List
        // ... 业务逻辑执行完毕，obj 在当前方法作用域外应该被回收，但它仍被 cache 引用
    }

    public static void main(String[] args) throws InterruptedException {
        StaticCollectionLeak leak = new StaticCollectionLeak();
        for (int i = 0; i < 100; i++) {
            leak.addAndForget(new LargeObject());
            System.out.println("Added " + (i + 1) + " objects. Cache size: " + cache.size());
            // 如果不清理，cache 会越来越大，最终导致 OOM
            // Thread.sleep(100); // 模拟业务运行
        }
        System.out.println("Program finished. Cache still holds " + cache.size() + " objects.");
        // cache.clear(); // 需要手动清理
    }
}

解决方案：

对于缓存，使用弱引用 (WeakReference) 或软引用 (SoftReference)，或者使用 WeakHashMap。
定期清理不再需要的元素。
对于事件监听器，确保在不再需要时取消注册。

2.2 内部类和匿名内部类持有外部类引用

非静态内部类和匿名内部类会隐式持有其外部类的引用。如果内部类实例的生命周期比外部类长，那么即使外部类应该被回收，也会因为内部类的引用而无法回收。

场景：Android 开发中 Handler 引起的内存泄漏、线程池任务持有外部类引用。

示例：

import java.util.concurrent.Executors;
import java.util.concurrent.ScheduledExecutorService;
import java.util.concurrent.TimeUnit;

public class InnerClassLeak {
    private String largeData = new String(new char[1024 * 1024 * 10]); // 10MB 大对象

    public void startTask() {
        // 创建一个匿名内部类 Runnable 任务
        // 这个 Runnable 实例会隐式持有 OuterClassLeak 实例的引用 (this)
        ScheduledExecutorService scheduler = Executors.newScheduledThreadPool(1);
        scheduler.scheduleAtFixedRate(new Runnable() {
            @Override
            public void run() {
                // 即使只是访问外部类的成员，也会导致外部类实例被引用
                System.out.println("Task running. Data length: " + largeData.length());
            }
        }, 1, 1, TimeUnit.SECONDS);

        // scheduler.shutdown(); // 如果不关闭调度器，任务会一直运行
        // 外部类实例在方法结束后，本应被回收，但因为它被 Runnable 引用，而 Runnable 又被 scheduler 引用，所以外部类实例无法回收。
    }

    public static void main(String[] args) throws InterruptedException {
        new InnerClassLeak().startTask();
        System.out.println("Outer class instance is 'finished' from main method's perspective.");
        Thread.sleep(5000); // 等待一段时间，观察内存使用
        // 这里的 OuterClassLeak 实例应该被回收，但由于匿名内部类 Runnable 持有其引用，导致无法回收。
        // 如果 scheduler 一直运行，那么这个 OuterClassLeak 实例及其 10MB largeData 也会一直存活。
    }
}

解决方案：

使用静态内部类，如果需要访问外部类成员，通过构造函数显式传递弱引用或必要的参数。
在适当的时机手动解除内部类对外部类的引用（例如，取消注册监听器、停止线程）。

2.3 自定义 ClassLoader 加载的类未被卸载

当使用自定义 ClassLoader 加载了类和资源后，如果 ClassLoader 实例本身及其加载的类没有被正确卸载，它们所持有的对象和类信息（在方法区/元空间）将无法被回收。这在热部署、插件化应用中较为常见。

解决方案：

确保 ClassLoader 及其加载的所有类在不再需要时能够被 GC 回收。
避免在父 ClassLoader 加载的类中引用子 ClassLoader 加载的类。

2.4 资源未关闭

各种流 (I/O Streams)、数据库连接 (Connections)、文件句柄 (File Handles) 等资源，如果在 finally 块中没有正确关闭，或者忘记关闭，可能导致资源泄漏，虽然不直接是堆内存泄漏，但它们通常会关联着内存对象，并且可能导致其他系统资源耗尽。

示例：

import java.io.FileInputStream;
import java.io.IOException;

public class ResourceLeak {
    public void readFile(String filePath) {
        FileInputStream fis = null;
        try {
            fis = new FileInputStream(filePath);
            // ... 读取文件内容
            System.out.println("File read successfully.");
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            // 没有关闭 fis，如果这里发生异常，或者忘记关闭，资源就不会被释放
            // if (fis != null) {
            //     try {
            //         fis.close();
            //     } catch (IOException e) {
            //         e.printStackTrace();
            //     }
            // }
        }
    }

    public static void main(String[] args) {
        // 创建一个临时文件
        // 创建一个临时文件
        try {
            java.nio.file.Files.write(java.nio.file.Paths.get("temp.txt"), "Hello, Leak!".getBytes());
        } catch (IOException e) {
            e.printStackTrace();
        }

        ResourceLeak leak = new ResourceLeak();
        for (int i = 0; i < 1000; i++) {
            leak.readFile("temp.txt");
            // 如果不关闭文件流，可能导致文件句柄耗尽
        }
        System.out.println("Done reading files.");
    }
}

解决方案：

始终使用 try-with-resources 语句 (Java 7+)，它可以自动关闭实现了 AutoCloseable 接口的资源。
在 finally 块中手动关闭资源，并处理关闭过程可能抛出的异常。

2.5 `String` 字符串常量池问题 (`substring()` 导致) (JDK 6 及以前)

在 JDK 6 及以前，String.substring() 方法会共享原字符串的底层字符数组。如果原字符串很大，但 substring() 只截取了一小部分，那么这个大的字符数组仍然会因为被小字符串引用而无法回收，造成内存浪费。

示例 (JDK 6 及以前的原理)：

1
2
3

// String bigString = new String(new char[1024 * 1024]); // 1MB
// String subString = bigString.substring(0, 10);
// bigString 的底层 char 数组仍然被 subString 引用，无法被 GC

解决方案：

JDK 7 及以后：substring() 方法已经被优化，它会创建一个新的字符数组，不再共享原字符串的底层数组，因此此问题已解决。
如果确实需要截取字符串，并且担心旧版本 JDK 的问题，可以手动创建一个新的 String 对象：new String(subString)。

2.6 `ThreadLocal` 导致的内存泄漏

ThreadLocal 变量在每个线程中都有独立的副本。ThreadLocalMap 是一个 Entry 数组，Entry 继承自 WeakReference，它的 key 是 ThreadLocal 对象的弱引用，value 是实际存储的对象（强引用）。

当 ThreadLocal 对象本身（作为 key）在外部没有其他强引用时，GC 发生后 ThreadLocal 对象会被回收，但 ThreadLocalMap 中对应的 Entry 仍然存在，其 value（存储的对象）可能因为强引用而无法被回收，导致内存泄漏。

示例：

import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;

public class ThreadLocalLeak {
    private static final ThreadLocal<LargeObject> threadLocal = new ThreadLocal<>();

    static class LargeObject {
        private byte[] data = new byte[1024 * 1024]; // 1MB
        // ...
    }

    public void setAndForget() {
        threadLocal.set(new LargeObject()); // 设置一个大对象到当前线程的 ThreadLocal
        // 假定方法结束后，threadLocal 对象本身在外部可能不再被强引用
    }

    public static void main(String[] args) throws InterruptedException {
        ExecutorService executor = Executors.newFixedThreadPool(2);
        for (int i = 0; i < 5; i++) {
            executor.execute(() -> {
                new ThreadLocalLeak().setAndForget();
                System.out.println(Thread.currentThread().getName() + " set LargeObject.");
                // 模拟业务操作
                // threadLocal.remove(); // 如果不调用 remove()，LargeObject 将一直存活
            });
        }

        Thread.sleep(1000); // 等待任务执行
        executor.shutdown();
        executor.awaitTermination(1, TimeUnit.MINUTES);

        // 如果线程池中的线程被复用，但是每次执行完任务后没有调用 threadLocal.remove()
        // 那么每个线程的 ThreadLocalMap 中会堆积 LargeObject 实例，导致内存泄漏。
        // 因为线程池中的线程通常生命周期很长。
        System.out.println("Executor shutdown.");
    }
}

解决方案：

在 finally 块中始终调用 ThreadLocal.remove()，这是最推荐的做法，以确保在线程结束或任务完成后，清理掉 ThreadLocal 关联的资源。
理解 ThreadLocalMap 的弱引用机制，它只能自动回收 ThreadLocal 键，但 value 的强引用需要手动 remove()。

三、如何检测和诊断内存泄漏

诊断内存泄漏是一个复杂但至关重要的过程，主要依赖于 JVM 提供的工具。

3.1 监控 JVM 内存使用

JVisualVM：JDK 自带的图形化工具，可以实时监控 JVM 的堆内存使用、GC 活动、线程状态等。通过观察堆内存曲线是否持续上涨且不回落，初步判断是否存在内存泄漏。
JConsole：与 JVisualVM 类似，也是 JDK 自带的监控工具。
Arthas：阿里巴巴开源的 Java 诊断工具，提供 dashboard 实时监控内存、heapdump 堆转储等功能。

3.2 生成和分析堆转储文件 (Heap Dump)

当怀疑存在内存泄漏时，最有效的手段是生成堆转储文件 (通常是 .hprof 格式)，然后使用专业工具进行分析。

生成 Heap Dump：
- 自动生成：启动 JVM 时添加参数 -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/path/to/dump.hprof，当 OOM 发生时自动生成。
- 手动生成：
  - 使用 jmap 命令：jmap -dump:format=b,file=/path/to/dump.hprof <pid>。
  - 使用 JVisualVM 或 JConsole 工具，在连接到目标 JVM 后，可以手动触发 Heap Dump。
  - 使用 Arthas 命令：heapdump /path/to/dump.hprof。
分析 Heap Dump：
- Eclipse Memory Analyzer (MAT)：最常用的 Heap Dump 分析工具。
  - 主要功能：
    - 内存泄漏嫌疑报告 (Leak Suspects Report)：自动分析并给出潜在的内存泄漏点。
    - 支配树 (Dominator Tree)：显示哪些对象支配了其他对象的内存。
    - 路径到 GC Roots (Path to GC Roots)：找出哪些引用链阻止了对象的回收。这是定位内存泄漏的关键。
    - 直方图 (Histogram)：列出内存中所有类的实例数量和总大小。
- JVisualVM：也自带了简单的 Heap Dump 分析功能。

MAT 分析流程简述：

打开 MAT，加载 .hprof 文件。
查看 Leak Suspects 报告，尝试理解它提供的潜在泄漏点。
如果自动报告不够明确，可以从 Histogram 开始，按大小排序，找到占用内存最大的那些类。
右键点击可疑类，选择 Path to GC Roots -> exclude weak/soft references (排除弱/软引用，因为这些引用不会阻止 GC)。
分析得到的引用链，找出为什么这些对象没有被回收。通常泄漏点就在这条引用链的某个强引用上。

3.3 结合代码审查

结合 Heap Dump 分析结果，回溯到源代码中，查找导致引用链无法断开的具体代码逻辑。这通常涉及到：

检查静态集合是否被正确清理。
检查内部类、匿名内部类是否持有不当的外部类引用。
检查资源是否被正确关闭。
检查 ThreadLocal 是否在任务结束时被移除。

四、如何避免内存泄漏

预防胜于治疗。在编码阶段就注意避免内存泄漏，是最佳实践。

及时清理静态集合：对于用作缓存或存储的静态集合，确保在对象不再需要时，手动将其从集合中移除，或者使用 WeakHashMap/WeakReference/SoftReference 等。
避免内部类不当引用外部类：
- 尽可能使用静态内部类。
- 如果非静态内部类或匿名内部类必须持有外部类引用，确保其生命周期不会超过外部类。如果内部类生命周期长，考虑通过构造函数传递外部类的 WeakReference。
正确关闭资源：使用 try-with-resources 语句 (Java 7+)，或在 finally 块中确保所有 AutoCloseable 资源被关闭。
正确使用 ThreadLocal：始终在 finally 块中调用 ThreadLocal.remove() 来清理线程局部变量。尤其是在线程池环境中，线程会被复用，如果忘记清理，会导致泄漏。
解除事件监听器注册：在组件销毁或不再需要时，解除对事件监听器的注册，防止被事件源持有引用。
合理使用缓存：使用带有过期策略或最大容量限制的缓存，如 Guava Cache、Caffeine。
警惕长生命周期的对象引用短生命周期的对象：确保长生命周期的对象不会无限制地持有短生命周期对象的强引用。
代码审查与测试：在开发过程中进行代码审查，并编写单元测试和集成测试来模拟长时间运行的场景，观察内存使用情况。

五、总结

Java 内存泄漏是并发编程和长期运行应用程序中常见的性能陷阱。它的根本原因在于不必要的强引用阻止了垃圾回收器对已“死亡”对象的回收。理解 JVM 的垃圾回收机制、对象生命周期以及强/软/弱/虚引用的区别，是预防和诊断内存泄漏的基础。通过遵循最佳实践（如及时清理集合、正确关闭资源、规范使用 ThreadLocal 和内部类），并善用 JVisualVM、MAT 等分析工具，我们可以有效地识别、定位并解决内存泄漏问题，从而构建出更健壮、更高效的 Java 应用程序。