未央一梦
1.21GB · 2025-09-15
最近线上服务出现了一个**“假死”状态的问题。服务没有崩溃,但响应变得极其缓慢,甚至部分任务长时间无响应**。问题没有明显的错误提示,唯一的异常只有一句:
Caused by: java.lang.OutOfMemoryError: GC overhead limit exceeded
作为一个已经在 Java 开发路上走了 8 年的程序员,我知道,这句看似“熟悉”的报错,背后往往意味着灾难级的性能问题。
时间:2025-09-09 18:42:06
服务接口:/jd-car-monitor/schedule/carRangeGatherAlarm
耗时:126秒
报错堆栈中核心异常如下:
java.sql.SQLException: Error
...
Caused by: java.lang.OutOfMemoryError: GC overhead limit exceeded
一开始我以为是数据库问题。但堆栈中 SQL 执行语句并不复杂,关键在于:
carRangeGatherAlarm
方法耗时超过 2 分钟我们来看一下这个定时任务的主干逻辑(已简化):
List<CarStayHistoryForTask> stayHistoryList = carStayHistoryDao.selectAlarmByRangeGather();
for (CarStayHistoryForTask cshTask: stayHistoryList) {
Long stayEndTime = cshTask.getStayEndTime();
if (stayEndTime == null) {
stayEndTime = System.currentTimeMillis();
}
List<CarStayHistory> stayHistoryOtherList = carStayHistoryDao.selectAlarmByRangeGatherOther(...);
// 逻辑判断、地理位置计算、去重、告警处理
...
}
看似没问题,但问题的关键在于:
stayHistoryList
里的记录,都要再查一次数据库。stayHistoryList
的数量可能是成百上千。这就导致了:内存迅速膨胀,大量对象无法释放,最终触发 GC overhead limit exceeded。
这是 JVM 的一种“自我保护机制”,意思是:
也就是说,堆内存已经快炸了,JVM 不得不频繁 GC,但就是没法释放空间。这种情况下一般表现为:
这个方法一次性查出所有满足条件的驻车数据,如果数据量大,内存直接爆炸。
每个 cshTask
都要再查一次附近的车辆记录,数据库压力大,JVM 压力更大。
还要判断每辆车是否在某个范围内(圆形区域),涉及数学计算,非常耗时。
数据全部一次性加载到内存,GC 无法跟上,自然就 OOM 了。
给 selectAlarmByRangeGather
增加分页限制,比如每次处理 100 条数据。
SELECT * FROM car_stay_history WHERE ... LIMIT 100
减少一次性加载到内存的数据量,配合 MyBatis 的 ResultHandler
或者 Spring Batch。
预加载其他车辆数据,或将逻辑合并为一个大 SQL。
调高堆内存、调整 GC 策略(如 G1GC),避免频繁 Full GC。
-Xms512m -Xmx2048m -XX:+UseG1GC
优化后:
carRangeGatherAlarm
执行时间从 2 分钟降到 5 秒这次“假死”问题给了我几个深刻的启示:
作为一个工作八年的 Java 开发者,我越来越相信:
如果你也遇到过类似的 GC 问题,欢迎评论区交流你的解决思路。下一次,我们聊聊如何用 G1GC 实战优化线上服务性能。
别让你的服务“无辜地死在 GC 手里”。