故障:收到服务器报警,内存使用率超过80%

1.查看

使用dstat和top查看内存使用最高的应用

使用dstat

查到内存占用最高的是java应用,使用2253m内存,但是这台服务器跑了好几个java,具体哪个进程使用top看下资源情况

使用top

可以看到java应用整体内存使用率超过了70%,其中pid为16494的进程 一个应用占了28.7的内存

2.定位线程问题

使用ps查看16494的线程情况

命令:ps p 16494 -l -o pcpu,pmem,pid,tid,time,tname,cmd

看到16494这个pid的应用产生了很多线程。

3.查看内存使用的堆栈

使用jstack查看

我们挑选了tid=17417的线程进行分析

在分析前需要将17417这个id转换为16进制,方便查找信息

[root@localhost ~]# printf "%x\n" 17417
4409

16进制为4409

将pid为16494的应用打印到日志中

[root@localhost ~]# jstack -l 16494 > jstack.log

4.查看内存堆栈信息

[root@localhost ~]# vim jstack.log

在日志信息中查找刚刚转换的4409

可以看到这个线程状态为waiting

通过查看日志发现有大量的 waiting on condition

parking to wait for <0x0000000085dce510>

存在大量线程等待被唤醒,占用大量内存

5.代码优化

将相应日志发送给相应开发,优化线程

补充:分析java线程占用cpu或者内存高的代码

1、通过top查看占用cpu或者内存高的进程截图如下【备注输入大写p以cpu从大到小排序,大写m以内存大小排序】

2、通过对应的cpu找到pid也就是进程对应的pid,然后找到java进程106854这个进程id

3、通过命令top -hp pid 例如top -hp 106854

就可以列出该进程下的所有线程id

4、通过输出大写的p查看线程占用cpu最高的或者通过大写m查看内存占用最高的

然后找到109391这个线程id

5、使用命令printf “%x\n” 109391 输出对应的十六进制码,1ab4f这个码是为了过滤线程id查到对应的代码

6、使用命令jstack pid|grep 1ab4f 【备注pid是进程的id,1ab4f是这个进程下的一个线程占用最高的cpu十六进制码】

7、通过上面的输出发现kafka,所以会联想到,kafka一直监听消息,所以消耗cpu,正常现象

8、如果出现自己写的类,说明需要修改代码逻辑了

以上为个人经验,希望能给大家一个参考,也希望大家多多支持www.887551.com。如有错误或未考虑完全的地方,望不吝赐教。