JVM性能监控与调优概述
# JVM性能监控与调优概述
# 大厂面试题
监控工具相关:
你使用过Java虚拟机性能监控和故障处理工具吗?(美图)
怎么打出线程栈信息。(字节跳动)
JVM诊断调优工具用过哪些? (京东)
怎么获取 Java 程序使用的内存?堆使用的百分比?(国美)
几种常用的内存调试工具你知道哪些?(搜狐)
JVM诊断调优工具用过哪些?(蚂蚁金服)
调优相关:
常用的性能优化方式有哪些?(百度金融)
内存调优怎么调?有几种方式?(顺丰)
栈溢出导致的原因?如何解决?(搜狐)
JVM调优策略 (杭州鲁尔物联科技有限公司、燕梭金融、汇博云通)
如何优化减少Full GC?(阿里-闲鱼)
JVM性能调优都做了什么?(支付宝)
有做过JVM内存优化吗?从SQL、JVM、架构、数据库四个方面讲讲优化思路?(小米)
JVM的编译优化?JVM性能调优都做了什么?JVM诊断调优工具用过哪些?(蚂蚁金服)
JVM怎样调优,堆内存、栈空间设置多少合适?JVM相关的分析工具使用过的有哪些?具体的性能调优步骤如何?(蚂蚁金服二、三面)
如何进行JVM调优?有哪些方法?如何理解内存泄漏问题?有哪些情况会导致内存泄漏?如何解决?(阿里)
内存泄漏是怎么造成的?JVM如何调优、参数怎么调?(字节跳动三面)
从SQL、JVM、架构、数据库四个方面讲讲优化思路?说到内存泄漏,问有没有碰到,内存泄漏怎么解决?(拼多多)
JVM诊断调优工具用过哪些?每秒几十万并发的秒杀系统为什么会频繁发生GC?(京东)
日均百万级交易系统如何优化JVM?(京东)
线上生产系统OOM如何监控及定位与解决?(京东)
高并发系统如何基于G1垃圾回收器优化性能?(京东)
当出现了内存溢出,你怎么排错。 (京东)
# 基本问题
# 生产环境中的问题
- 生产环境发生了内存溢出该如何处理?
- 生产环境应该给服务器分配多少内存合适?
- 如何对垃圾回收器的性能进行调优?
- 生产环境CPU负载飙高该如何处理?
- 生产环境应该给应用分配多少线程合适?
- 不加log,如何确定请求是否执行了某一行代码?
- 不加log,如何实时查看某个方法的入参与返回值?
# 为什么要调优?
- 防止出现OOM,需要进行JVM规划和预调优
- 解决程序运行中各种OOM
- 减少Full GC出现的频率,解决运行慢、卡顿问题
# 不同阶段的考虑
- 上线前
- 项目运行阶段
- 线上出现OOM
# 监控调优概述
调优,首先需要从业务场景开始,没有业务场景的调优都是耍流氓!此外,无监控,不调优!
# 监控的依据
- 运行日志
- 异常堆栈
- GC日志
- 线程快照
- 堆转储快照
# 调优的大方向
- 合理地编写代码
- 充分并合理的使用硬件资源
- 合理地进行JVM调优
# 性能优化的步骤
# 第0步:熟悉业务场景
从业务场景开始,没有业务场景的调优都是耍流氓。
# 第1步:性能监控(发现问题)
一种以非强行或者入侵方式收集或查看应用运营性能数据的活动。
监控通常是指一种在生产、质量评估或者开发环境下实施的带有预防或主动性的活动。
当应用相关干系人提出性能问题却没有提供足够多的线索时,首先我们需要进行性能监控,随后是性能分析。通常对于性能监控有以下几点需要关注:
- GC频繁
- CPU Load过高
- OOM
- 内存泄漏
- 死锁
- 程序响应时间较长
# 第2步:性能分析(排查问题)
一种以入侵方式收集运行性能数据的活动。它会影响应用的吞吐量或响应性。
性能分析是针对性能问题的答复结果,关注的范围通常比性能监控更加集中。
性能分析很少在生产环境下进行,通常是在质量评估、系统测试或者开发环境下进行,是性能监控之后的步骤。通常有以下几种分析方式:
- 打印GC日志,通过GCviewer或者GCEasy (opens new window)来分析异常信息
- 灵活运用命令行工具:jstack、jmap、jinfo等
- dump出堆文件,使用内存分析工具分析文件
- 使用阿里Arthas、jconsole、JVisualVM来实时查看JVM状态
- jstack查看堆栈信息
# 第3步:性能调优(解决问题)
性能调优指一种为改善应用响应性或吞吐量而更改参数、源代码、属性配置的活动,性能调优是在性能监控、性能分析之后的活动。
性能调优通常有以下方案切入点:
- 适当增加内存,根据业务背景选择垃圾回收器
- 优化代码,控制内存使用
- 增加机器,分散节点压力
- 合理设置线程池线程数量
- 使用中间件提高程序效率,比如缓存、消息队列等
- 其他.......
# 性能评价/测试指标
对于应用性能的衡量指标主要有以下几点:
- 停顿时间(或响应时间)
- 吞吐量
- 并发数
- 内存占用
通常情况下,响应时间以及吞吐量是我们需要重点关注的对象。
# 停顿时间(或响应时间)
停顿时间:一般指提交请求和返回该请求的响应之间使用的时间,一般比较关注平均响应时间。常用操作的响应时间列表:
操作 | 响应时间 |
---|---|
打开一个站点 | 几秒 |
数据库查询一条记录(有索引) | 十几毫秒 |
机械磁盘一次寻址定位 | 4毫秒 |
从机械磁盘顺序读取1M数据 | 2毫秒 |
从SSD磁盘顺序读取1M数据 | 0.3毫秒 |
从远程分布式换成Redis 读取一个数据 | 0.5毫秒 |
从内存读取 1M数据 | 十几微妙 |
Java程序本地方法调用 | 几微妙 |
网络传输2Kb数据 | 1 微妙 |
在垃圾回收环节中:
- 暂停时间:执行垃圾收集时,程序的工作线程被暂停的时间。
-XX:MaxGCPauseMillis
: 设置垃圾收集器最大停顿时间(即STW的时间),单位是毫秒。(G1、Parallel)
# 吞吐量
吞吐量一般指对单位时间内完成的工作量(请求)的量度
在GC中:运行用户代码的事件占总运行时间的比例(总运行时间:程序的运行时间+内存回收的时间)
吞吐量为1-1/(1+n),
-XX::GCTimeRatio=n
:垃圾收集时间占总时间的比例,用于衡量吞吐量的大小。(Parallel)
# 并发数
- 同一时刻,对服务器有实际交互的请求数。例如,1000个人同时在线,估计并发数在5%~15%之间,也就是同时并发量在50~150之间。
# 内存占用
- Java堆区所占的内存大小
# 吞吐量、并发数、响应时间三者相互间的关系
以高速公路通行状况为例
- 吞吐量:每天通过高速公路收费站的车辆的数据
- 并发数:高速公路上正在行驶的车辆的数目
- 响应时间:车速
上次更新: 5/28/2023, 10:57:53 PM