🚑 502 / 503：网关报错与线上排障

Question

1. 502 / 503 / 504 的区别是什么？简单

Answer 1

502 Bad Gateway：网关作为反向代理，向上游请求失败（连接被拒绝、上游返回非法响应、TLS/协议问题等）。
503 Service Unavailable：上游明确不可用/被熔断/无可用实例（也可能是网关侧限流/熔断）。
504 Gateway Timeout：网关等上游超时（上游卡住、慢 SQL、线程池耗尽、下游超时）。

⚠️ 面试加分点：强调“状态码只是现象”，一定要结合网关 error log、upstream 状态、RT、错误率定位根因。

Answer 2

确认影响范围：是否全量？是否某一条链路/接口？是否仅某地域/某机房？
确认是否持续：是瞬时抖动还是持续 5+ 分钟？
快速止血：
- 回滚最近发布（若和变更强相关）。
- 从 LB 摘除异常实例、重启异常实例（如果明显挂了）。
- 开启降级/限流/熔断，保证核心链路可用。

💡 面试表达：我会先让错误率下降、服务可用，再去做深入定位，避免“边查边炸”。

Answer 3

看网关错误日志：出现的是 connect refused、no live upstream、upstream timed out，还是 upstream sent invalid header。
直连上游：在网关机器上 curl 上游实例/端口（或从同网段跳板机 curl）。
对比实例维度：是否集中在某几台实例？如果是，通常是应用实例问题/资源问题。

# 在网关/同网段机器上：直连验证上游是否可达
curl -v http://UPSTREAM_IP:PORT/actuator/health

# 看网关 error log（示例路径）
tail -n 200 /var/log/nginx/error.log

Answer 4

端口是否监听：应用进程是否还在？端口是否在 LISTEN？
是否被防火墙/安全组拦截：近期是否变更了安全策略？
是否误发布到错误端口：应用配置端口与网关 upstream 配置不一致。

# 在上游机器上查看端口
lsof -i :8080
netstat -anp | grep 8080

# systemd 服务状态（如使用 systemd）
systemctl status your-service
journalctl -u your-service -n 200 --no-pager

Answer 5

先看应用 RT 分布：P50/P95/P99 是否飙升；是否仅某接口。
看线程池/连接池：Tomcat/Netty 线程、DB 连接池、HTTP client pool 是否耗尽。
看下游耗时：DB 慢查询、Redis 阻塞、MQ 堆积、第三方接口超时。
用链路追踪/日志埋点：把总耗时拆成 DB、RPC、业务计算等分段耗时。

⚠️ 常见坑：应用看起来没报错，但线程池排队导致整体超时，网关会表现为 504/timeout。

Answer 6

版本差异：是否灰度导致版本不一致？
配置差异：环境变量、配置中心、JVM 参数、连接串、DNS 解析结果。
资源差异：CPU/内存/磁盘、FD 上限、是否发生 OOM 重启。
网络差异：是否跨可用区，是否有丢包/ACL。

Answer 7

澄清现象：502 是否全量、持续多久、影响哪些接口、是否最近发布。
快速止血：摘除异常实例/回滚/限流降级，让错误率下降。
分层定位：网关日志 → 上游可达性（curl/端口）→ 应用状态（线程/GC/连接池）→ 下游（DB/Redis/MQ）。
根因与修复：例如连接池耗尽/慢 SQL/配置错误/证书过期。
长期治理：SLO/告警、灰度发布、容量评估、熔断降级、复盘机制。

🚑 502 / 503：网关报错与线上排障

🧩 场景题题干（面试官常用表述）

📚 学习正文：如何系统排查 502 / 503？

1) 现象与状态码含义（先把“现象”说清）

2) 总体排查路线（从入口逐跳推进）

3) 先止血：让系统先“可用”再深挖

4) 常见根因速查表（看到日志就能快速归类）

5) 定位方法：最常用的“命令 + 证据链”

5.1 先用 Nginx Access Log 定位到“具体接口 + 具体 upstream”

5.2 再用 Nginx Error Log 判断“属于哪类失败”

5.3 追到“具体上游实例”后，怎么定位到“具体问题点”？

5.4 进一步下钻：判断是不是“下游把上游拖慢”

6) 解决策略：短期修复与长期治理

🎯 面试题（建议学完上面正文再做）