通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  新兵

注册:2019-5-27
跳转到指定楼层
1#
发表于 2026-4-2 13:19:05 |只看该作者 |倒序浏览
网络排障详细指南

一、故障现象收集与初步分析1. 故障类型确认
  • 连通性问题:无法 ping 通、应用(网页、邮件、SSH)无法访问。
  • 性能问题:延迟高(ping 值大)、丢包(ping 丢包率)、带宽不足(应用卡顿)。
  • 特定服务故障:仅 DNS、HTTP、数据库等服务不可用。
2. 影响范围确定
  • 单终端/用户:仅某台设备或用户受影响(如办公电脑断网)。
  • 单部门/VLAN:某一 VLAN 内所有设备故障(如研发部网络中断)。
  • 局部区域:某栋楼、楼层网络故障(如 3 楼无线 AP 全部离线)。
  • 全网:所有用户、服务均受影响(如出口路由器故障导致全公司断网)。
3. 故障时间记录
  • 突发故障:无规律突然出现(如交换机光模块损坏)。
  • 周期性故障:固定时间出现(如凌晨备份任务导致带宽拥塞)。
  • 关联操作:与设备升级、配置修改、外接设备插入等操作强相关。
二、分层排障法(OSI/TCP/IP 模型)(一)物理层排查(线缆、接口、硬件)1. 终端侧检查
  • 网卡状态:Windows 执行 ipconfig /all,Linux 执行 ip link,确认网卡“已连接”且无错误。
  • 网线检测:更换网线测试,观察网卡指示灯(橙色/绿色常亮/闪烁是否正常)。
  • 电源检查:终端设备(电脑、IP 电话)供电正常;POE 设备检查 POE 交换机供电。
2. 接入层设备(交换机/无线 AP)检查
  • 端口状态:登录交换机,执行 display interface GigabitEthernet x/x(华为)或 show interfaces status(思科),确认端口 up 且无错误(如 CRC 错误、碰撞)。
  • 光模块/电口模块:更换模块测试,确认型号匹配(千兆/万兆、单模/多模)。
  • POE 供电:POE 交换机确认为 AP/终端供电的端口开启 POE,且功率充足。
3. 物理链路检查
  • 光纤链路:用酒精棉清洁光纤接头,光功率计测试收发光功率(需在设备规格范围内)。
  • 网线链路:用测线仪测试 8 根线全通,排除线序错误(T568A/B)。
(二)数据链路层排查(VLAN、MAC、ARP、STP)1. VLAN 与端口配置
  • 检查接入交换机端口 VLAN 归属:华为执行 display port vlan x/x,思科执行 show running-config interface x/x,确认终端 VLAN 与端口 VLAN 一致。
  • 检查 Trunk 端口:华为执行 display port vlan trunk,思科执行 show interfaces trunk,确认允许通过的 VLAN 放行。
2. MAC 地址与 ARP
  • MAC 地址表:华为执行 display mac-address,思科执行 show mac address-table,确认终端 MAC 与接入端口绑定正确(无漂移)。
  • ARP 缓存:终端执行 arp -a(Windows)或 arp -n(Linux),确认网关 MAC 正确(无 00:00:00:00:00:00 等错误条目)。
  • ARP 欺骗排查:清除 ARP 缓存(Windows:arp -d *;Linux:arp -d <网关IP>),重新获取;部署 ARP 防火墙或静态 ARP 绑定。
3. STP/RSTP/MSTP(生成树协议)
  • 检查 STP 状态:华为执行 display stp brief,思科执行 show spanning-tree vlan x root,确认根桥选举正常、无环路(端口状态 forwarding/blocking 合理)。
  • 环路处理:若存在环路,检查拓扑(网线误连、设备重复上线),关闭冗余链路或调整 STP 优先级。
(三)网络层排查(IP、路由、ACL、ICMP)1. IP 地址与子网配置
  • 终端侧检查:Windows 执行 ipconfig,Linux 执行 ip addr,确认 IP、子网掩码、网关正确(无重复 IP,可通过 arp -a 或 nmap 扫描网段验证)。
  • 设备侧检查:三层交换机/VLANIF 接口、路由器物理接口 IP 配置与终端网关一致。
2. 路由配置与连通性
  • 路由表检查:Windows 执行 route print,Linux 执行 ip route,路由器执行 display ip routing-table(华为)或 show ip route(思科),确认默认路由、静态/动态路由(OSPF、BGP 等)存在且正确。
  • 跨网段测试:终端执行 ping <网关外IP>(如网关 192.168.1.1,ping 192.168.2.1),不通则检查路由下一跳;执行 tracert/traceroute 跟踪路径,定位故障节点(超时/错误节点)。
3. ACL 与 NAT
  • ACL 规则:华为执行 display acl all,思科执行 show access-lists,确认 ACL 未错误拦截流量(源/目的 IP、端口匹配错误)。
  • NAT 配置:华为执行 display nat session,思科执行 show ip nat translations,确认内部地址到公网地址转换正常(无地址池耗尽)。
4. ICMP 与 ping 测试
  • 终端 ping 网关:ping 192.168.1.1,不通则排查物理/数据链路层;通则 ping 外网 IP(如 8.8.8.8),不通则检查网关路由/ISP 链路;通则 ping 域名(如 www.baidu.com),不通则检查 DNS。
(四)传输层排查(TCP/UDP、端口、拥塞)1. TCP/UDP 端口与服务
  • 服务监听:Windows 执行 netstat -ano | findstr "端口",Linux 执行 netstat -tuln | grep "端口" 或 ss -tuln,确认服务(如 Web 80/443、SSH 22)正常监听。
  • 端口连通性:终端执行 telnet <目标IP> <端口>(如 telnet 1.1.1.1 80)或 nc -zv <目标IP> <端口>,连接失败则检查防火墙(终端/网关)或服务未启动。
2. 连接状态与拥塞
  • TCP 连接:终端执行 netstat -ano(Windows)查看 ESTABLISHED/TIME_WAIT 等状态,大量 TIME_WAIT 则调整系统参数(如 Windows TcpTimedWaitDelay)。
  • 带宽利用率:通过 SNMP 工具(Zabbix、PRTG)或设备命令(display interface)确认带宽是否拥塞(利用率持续 90%+),启用 QoS 限制大流量应用(P2P、视频)。
(五)应用层排查(协议、服务、中间件)1. 应用协议与服务
  • HTTP/HTTPS:检查 Web 服务器日志(Apache error_log、Nginx access.log),浏览器开发者工具(F12)查看请求/响应状态码(404、500),排查应用代码/配置。
  • DNS:终端执行 nslookup www.baidu.com 或 dig www.baidu.com,检查解析结果;登录 DNS 服务器,检查区域配置、解析记录(A/CNAME/MX),确认转发器(ISP DNS)正常。
  • DHCP:终端执行 ipconfig /renew(Windows)或 dhclient -r && dhclient(Linux)重新获取 IP;检查 DHCP 服务器日志(/var/log/messages),确认地址池有可用 IP、中继代理配置正确。
2. 中间件与应用服务器
  • Web 服务器:检查进程状态(systemctl status httpd/nginx)、配置文件语法(apachectl configtest/nginx -t)、端口监听。
  • 数据库服务器:检查服务状态、监听端口(MySQL 3306、Oracle 1521)、连接数(show processlist),权限配置。
三、常用排障工具与命令汇总工具/命令功能适用场景
ping测试连通性与丢包率物理层、网络层连通性
tracert/traceroute跟踪路由路径定位跨网段故障节点
arp -a查看 ARP 缓存数据链路层 ARP 问题
ipconfig/ifconfig查看 IP 配置终端网络层配置
netstat/ss查看端口与连接状态传输层服务监听与连接
tcpdump/Wireshark抓包分析应用层协议、数据包错误
nslookup/digDNS 解析测试应用层 DNS 故障
telnet/nc端口连通性测试传输层端口与服务
display/ip 命令(华为/思科)设备配置与状态查询网络设备(交换机、路由器)排障四、常见故障场景处理示例场景 1:单终端无法上网
  • 检查终端网卡:ipconfig 看 IP 是否获取,网卡灯是否正常。
  • 检查接入交换机端口:display interface 看状态,更换端口测试。
  • 检查 VLAN 与 ARP:确认 VLAN 归属,清除 ARP 缓存后重新获取。
  • 测试 ping 网关:通则检查路由;不通则排查物理层/数据链路层。
场景 2:全网断网(仅内网)
  • 检查核心交换机/路由器:登录设备,查看 CPU、内存利用率(display cpu-usage/show processes cpu),过高则排查环路/攻击。
  • 检查出口路由器:查看广域网接口状态(display interface GigabitEthernet 0/0/1),ping ISP 网关。
  • 检查 DNS:终端 nslookup 测试,内网 DNS 故障则切换备用 DNS 或修复服务器。
场景 3:部分网段无法通信
  • 检查路由配置:确认网段路由(静态/动态)存在,下一跳正确。
  • 检查 ACL:查看是否有 ACL 拦截该网段流量,调整规则。
  • 检查三层交换机 VLAN 间路由:确认 VLANIF 接口 IP 正确,SVI 状态 up。
五、预防与优化建议
  • 定期巡检:监控设备 CPU、内存、带宽利用率,审计日志(登录、攻击日志)。
  • 配置备份:定期备份网络设备配置(如 copy running-config tftp),避免配置丢失。
  • 冗余设计:关键链路(核心-汇聚、出口)部署冗余,启用 STP/RSTP 防环路,VRRP/HSRP 实现网关冗余。
  • 安全加固:部署防火墙、IPS/IDS,关闭不必要端口,启用端口安全(限制 MAC 数量),防范 ARP 欺骗、DDoS 攻击。
  • 文档更新:维护网络拓扑图、IP 地址表、设备配置手册,变更后及时更新。
通过分层排查、工具辅助、场景化处理,可高效定位并解决多数网络故障。实际排障需结合拓扑、设备类型、业务需求灵活调整,优先排查影响范围大、可能性高的环节(如物理层、网关、DNS)。
(注:若脑图包含特定模块划分,可根据脑图结构调整章节,核心逻辑一致。)






举报本楼

本帖有 1 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2026-5-21 05:19 , Processed in 0.187289 second(s), 16 queries , Gzip On.

Copyright © 1999-2025 C114 All Rights Reserved

Discuz Licensed

回顶部