Network Troubleshooting Methodology - The Systematic Approach
Resolució de problemes de xarxa: L'aproximació del sistema
Per què les matèria de Metodologia
El problema: Una aplicació de base de dades és lenta. L' equip de xarxa culpa a l' equip del servidor. L' equip del servidor culpa la xarxa. Mentrestant, els usuaris estan frustrats i les hores es perden en la depuració circular.
La solució: Una aproximació sistemàtica, científica per resoldre problemes que utilitzen proves, no suposicions, per identificar causes d'arrel.
El cost del problema Haphazard: Temps des de la pila de descartades, solucions incorrectes que emmascaguen problemes reals, punt de dit entre equips i experiència d' usuari degradat.
Introducció: El mètode científic aplicat a la xarxa
La resolució de problemes en xarxa és fonamentalment un exercici del mètode científic:
- Observador Els símptomes i les dades que es troben
- Formeu una hipòtesi quant a la causa arrel
- Prova la hipòtesi amb eines diagnòstices
- Analitza els resultats i confirmar o rebutjar la hipòtesi
- Implementa un fix Basat en la causa arrel confirmada
- Verifica el problema està resolt
Aquest article proporciona un marc estructurat per a problemes de xarxa que impedeixen problemes comuns com ara:
- Confirmació del biaix (només per a proves que admetin la vostra suposició inicial)
- Canvis a l' atzar sense diagnòstic (L' aproximació "spira i prega")
- S' estan arreglant els símptomes en comptes de causes arrel
- Depuració circular sense documentar el que s' ha provat
Les cinc preguntes clau
Abans de ficar-se en diagnòstics tècnics, respon a aquestes cinc preguntes crítiques per tal d'aconseguir el seu àmbit d'investigació:
Canvis de configuració? Nou hardware? Actualitzacions de programari? Redaccions de Topologia?
- Comprova els registres de gestió
- Revisió de les publicacions recents en sistemes de gestió de configuració
- Pregunta: "Va estar funcionant ahir?"
Un usuari? Un edifici? Tothom? Només aplicació específica?
- Un dispositiu: Probablement un tema local (NIC, cable, configuració)
- Una subxarxa: Passarel· la, DHCP, o commutació
- Tothom: Funcionalitat principal, ISP, o problema extensiu
- Aplicació específica: Servidor d' aplicacions, regla de tallafocs, o DNS
Passa tot el temps? Només durant unes hores? ocurrències aleatòries?
- Constant: Fallada difícil (pot ser tallat, configuració errònia, servei baixa)
- Basada en temps: Congestió durant les hores de negoci, processos programats
- Intermident/Random: Incoherència doble, sense maquinari, enllaç intermitent
Pots activar el problema de petició?
- Sí: Molt més fàcil de diagnosticar (hipòtesis de prova)
- No: Estableix el monitor/logització i espera per a la repetició
Comprova els dos extrems de la connexió
- perspectiva del client contra perspectiva del servidor.
- Captura de paquets a la font contra el destí
- Asymmetria? Diferents camins per enviar contra els rebuts?
El Zòstic de Model OSI basat en Diagnòstic
El model SOI proporciona un marc estructurat per a la resolució de problemes. Feina des de la capa 1 (Phisical) cap amunt, o des de la capa 7 (Application) cap avall, depenent dels símptomes.
Abaix a baix (Layer 1 ascii Capa 7)
Quan usar: Ha perdut la connectivitat completa, sense connexió, o símptomes físics de capa
- Escac: Cable connectat? Encendre llums? Es net?
- Ordres:
show interfaces,ethtool eth0 - Cerca: errors CRC, col· lisions, col· lisions finals, punts, gegants
- Comprovar: corregir VLAN? Port habilitat? El bloqueig de l'SP?
- Ordres:
show mac address-table,show spanning-tree - Cerca: "MAC Alerping," canvis STP topology "VLAN"
- Comprovar: pot fer la porta per omissió? La taula de Routing és correcta?
- Ordres:
ping,traceroute,show ip route - Cerca: Falta rutes, la següent, bucles incorrectes
- Comprovar: podeu establir la connexió TCP? Bloca el tallafocs?
- Ordres:
telnet host port,netstat -an, captura de paquet - Cerca: redrancions TCP, zero finestres, paquets RST
- Comprovar: solució DNS? L' aplicació respon? L' autenticació funciona?
- Ordres:
nslookup,dig,curl -v - Cerca: Falla el DNS, errors d' aplicació, problemes d' espera
Apunt superior (Layer 7 eka Layer 1)
Quan usar: Problemes específics de l' aplicació on existeix la connectivitat bàsica
Comenceu a la Capa 7 (Compartint el servei aPunt? Torna a resoldre el DNS per corregir IP?) i funciona només si cal.
L'arbre de la decisió: És la capa 1, 2, o 3?
Useu aquest arbre de diagnòstic ràpid per identificar quina capa ha fallat:
La pila TCP/IP no funciona. Comproveu serveis OS, reinstal·leu controladors de xarxa.
Comment Comprova: ip link show o gestor de dispositius
Comprovació: cable físic, canvi d' estat del port, assignació VLAN, taula ARP
Comprovació: taula, regles de tallafocs, ACL. Ús traceroute a on s' han d' aturar els paquets
Comprova: arranjament del servidor DNS, disponibilitat del servidor DNS, port de bloqueig de tallafocs 53
Comprova: regles de tallafocs, grups de seguretat, serveis que escolten el port
El problema és amb la mateixa aplicació, autenticació o configuració de l' aplicació
Technaquets d' isolació
Quan teniu una hipòtesi sobre la causa arrel, useu aquestes tècniques d'aïllament per confirmar o rebutjar- la:
1. Substitueix els components del sistema sistemàticament
- Intercanvia el cable de pedaç amb un bon cable
- Prova en un port de commutació diferent
- Prova d' adaptador de xarxa NIC diferent (o USB)
- Prova del dispositiu de diferent client
- Mou a diferent VLAN/subnet
2. Captura de paquets a múltiples punts
Captura del trànsit a la font, els punts intermedis i el destí per identificar on es retiren els paquets o s' han modificat:
# Capture on client
tcpdump -i eth0 -w client.pcap host server.example.com
# Capture on server
tcpdump -i eth0 -w server.pcap host client.example.com
# Compare:
# - Do packets leave client? (check client.pcap)
# - Do packets arrive at server? (check server.pcap)
# - If yes/no: problem is in the path between
# - If yes/yes but server doesn't respond: server-side issue
Proves de 3. Repetició
Eliminar variables externes provant la connexió dins d' un sol dispositiu:
# Test TCP stack without network
ping 127.0.0.1
# Test application listening locally
telnet localhost 80
# Test loopback on network interface (if supported)
# Some NICs support physical loopback for Layer 1 testing
Comparacions basades en base conegudes 4.
Compara la configuració i el comportament contra un sistema de treball:
# Compare interface settings
diff <(ssh working-switch "show run int gi1/0/1") \
<(ssh broken-switch "show run int gi1/0/1")
# Compare routing tables
diff <(ssh router1 "show ip route") \
<(ssh router2 "show ip route")
Documentació durant els problemes
La documentació del Propor evita la depuració circular on intenteu la mateixa cosa múltiples vegades sense adonar- vos-en.
Plantilla de problemes
Issue ID: TICKET-12345
Date/Time: 2026-02-02 14:30 UTC
Reported By: Jane Smith (jane.smith@company.com)
Affected Users: ~50 users in Building A, 3rd floor
Symptom: Cannot access file server \\fileserver01
Initial Observations:
- Issue started around 14:00 UTC
- Only affects Building A, 3rd floor
- Other buildings can access fileserver01
- Ping to fileserver01 (10.1.50.10) times out from affected users
- Ping to default gateway (10.1.30.1) succeeds
Tests Performed:
1. [14:35] Checked switch port status: gi1/0/15 is UP/UP
2. [14:38] Checked VLAN assignment: Port is in VLAN 30 (correct)
3. [14:42] Checked interface errors: 1,234 CRC errors on gi1/0/15
4. [14:45] Replaced patch cable - still seeing CRC errors
5. [14:50] Moved uplink to different port (gi1/0/16) - errors persist
6. [14:55] Checked fiber cleanliness - dirty connector found
Root Cause:
Dirty fiber connector on uplink between Building A floor switch
and distribution switch causing CRC errors and packet loss
Resolution:
Cleaned fiber connector with proper cleaning kit. CRC errors
dropped to zero. File server access restored.
Verification:
Users confirmed file server accessible. Monitored for 15 minutes
with no errors.
Time to Resolution: 25 minutes
Estudis de casos reals del món
Estudi de casos 1: "La xarxa és lenta" (De fet: Exhausa la finestra TCP)
Symptom
La resposta de les aplicacions de base de dades es desactualitza des de <100ms fins a 5+ segons. L'equip d'aplicació culpava "la xarxa de lateència."
Declaracions inicials (Wrong)
- Consgestió de xarxa
- Enllaç WAN saturat
- Embotella de tallafocs
Procés Diagnòstic
- Prova de Ping: RTT = 2ms (excel·lent, regles de la capa 3 retardenc)
- Prova d' amplada de banda (piperf): 950 Mbps sobre un enllaç Gbps (sense congestió)
- Captura del paquet: Paquets de finestres Revealed TCP Zero des del servidor de bases de dades
- Il· luminació del servidor: El servidor de base de dades rep memòria intermèdia = 64KB (tiny!)
Causa arrel
Les memòries de memòria intermèdia del servidor de base de dades eren massa petites per al producte d' amplada d' alta banda × de retard. Name
Resolució
# Increased TCP receive buffers on Linux database server
sysctl -w net.ipv4.tcp_rmem="4096 87380 16777216"
sysctl -w net.core.rmem_max=16777216
Lliçó avanada
No assumeixis: "Slow" no sempre vol dir "lateria de la network." Sempre reuniu proves (en espera de retard, la captura de paquet per al comportament) abans de saltar a conclusions.
Estudi de casos 2: Intermitent Connectivitat (De fet: doble coincidència)
Symptom
La connexió del servidor cauria aleatòriament, especialment sota la càrrega. De vegades va treballar bé, a vegades completament receptiu.
Initial Assumptions (Wrong)
- NIC de fallesName
- cable incorrecte
- Canvia el problema del maquinari
Diagnostic Process
- Interfície d' inspecció: Servidor NIC = 1000/Full, Canvia el port = 1000/ migV (misconc)
- Comptadors d' errors: Nombre de col· lisions massivament en canviar el port
- Col· lisions tardà: Indicador del desaparellat a doble cara
Root Cause
Ha fallat la suspensió automàtica. El servidor va negociar el full-duplex, el canvi va tornar a mitja unitat. Les col·lisions només van ocórrer sota càrrega quan tots dos costats van intentar transmetre simultàniament.
Resolution
! Cisco switch - force full duplex
interface GigabitEthernet1/0/10
speed 1000
duplex full
Lesson Learned
Comprova els dos extrems: Estat de la interfície mostra els paràmetres negociats. Ha fallat el desaparellació automàtica. Sempre s' han de codificar velocitat/duplex per a servidors.
Estudi de casos 3: "No es poden obtenir algunes pàgines web" (De fet: MTU/PMTD BlackF)
Symptom
Els usuaris poden navegar per alguns llocs web (Google, Yahoo) però no altres (la pàgina web de la banda, portal d' empresa). Les petites peticions HTTP han funcionat, les pàgines grans han excedit el temps.
Initial Assumptions (Wrong)
- assumpte DNS
- Bloqueja les pàgines específiques del tallafocs
- Problema d' eixida de ISP
Diagnostic Process
- Resolució DNS: Funciona bé per a tots els llocs
- Prova de Ping: Pot fer servir llocs "regables"
- Petició HTTP petita (url): Tasques per pàgines petites
- Baixada gran: Poltres després de la encaixada TCP
-
Prova TU:
ping -M do -s 1472L'èxit és...ping -M do -s 1473falla - Control ICMP: No s' ha requerit "Framentació" ( tipus 3 Codi 4) rebut
Root Cause
El túnel VPN reduït a 1400, però el tallafocs estava bloquejant els missatges ICMP de "Framentació necessària." No s'ha pogut treballar el descobriment del camí STU (TUD), creant un forat negre de l'ITU. Els paquets petits s'ajusten, els paquets grans amb DF bit s'han deixat en silenci.
Resolution
! Implemented TCP MSS clamping on router
interface Tunnel0
ip tcp adjust-mss 1360
! Alternative: Allow ICMP Type 3 Code 4 through firewall
access-list 101 permit icmp any any packet-too-big
Lesson Learned
Mida importa: Si les petites sol·licituds funcionen però les grans transferències fracassen, sospiten els problemes de l'UT/fament. Usa el contacte amb el DF bit per provar el camí QU.
Estudi del cas 4: La qualitat VoIP emes (De fet: QoS Mivention)
Symptom
Les trucades de veu havien tallat l'àudio, i les gotas intermitents. Només va passar durant les hores de negoci (9am-5 pm).
Initial Assumptions (Wrong)
- Amplada de banda insuficient
- Sobrecàrrega del servidor VoIP
- Qualitat de connexió del ISP
Diagnostic Process
- Prova d' amplada de banda: Enllaç només usat 40% durant l' hora ocupada
- Il·luminació QoS: El trànsit de veu marcat amb DSCP EF (46) correctament
- Encua la inspecció: La cua de veu només tenia un 5% d' assignació de banda de banda (hauria de ser 33%)
- Captura del paquet: Els paquets de veu es retiren durant la convgestió
Root Cause
La política QoS va existir però l'assignació de banda va ser inversa: el millor dels drets va obtenir un 60%, la veu va tenir un 5%. Durant les hores de negoci quan s' incrementava el trànsit de dades, els paquets de veu es van deixar en passar per sobre de la cua.
Resolution
! Corrected QoS policy
policy-map WAN-QOS
class VOICE
priority percent 33
class VIDEO
bandwidth percent 25
class CRITICAL-DATA
bandwidth percent 20
class class-default
bandwidth percent 22
Lesson Learned
Problemes basats en el temps = capacitat: Si els problemes només passen durant les hores ocupades, no és un error difícil sinó un problema de capacitat/QoS. Comprova les estadístiques de la cua, no només la banda de banda total.
Referència d' ordres per Symptom
| Symptom | Capa | Ordres a executar | Què cal buscar per |
|---|---|---|---|
| Sense llum d' enllaç | Capa 1 | show interfaces |
Estat: avall, sense portador, cable desconnectat |
| Ha perdut el paquet | Capa 1/2 | show interfaces |
Error CRC, executables, gegants, col· lisions finals |
| No es pot obrir la porta | Capa 2 | arp -a |
Sense entrada ARP, la MAC no ha après, bloqueig STP |
| No puc arribar a la subxarxa remota | Capa 3 | traceroute |
Falta ruta, error següent i bucle |
| S' ha refusat la connexió | Capa 4 | telnet host port |
Servei no escolta, bloc de tallafocs, TCP RST |
| rendiment lent | Capa 4+ | ping (RTT) |
Altatència, límit de banda de banda, reductors TCP, zero finestres |
| No es pot resoldre el nom de màquina | Capa 7 | nslookup |
Servidor DNS no accessible, configuració de DNS incorrecta, NXDOIN |
| Gotes intermitents | Layer 1/2 | ping -f (flood) |
Desaparellat doble cara, cables erronis, reviseu la vora |
| Funciona de vegades, no d' altres | Múltiple | Extended ping |
Problemes amb l'equilibri, l'ECMP Asimetria, el desbordament de la taula d'estat |
Quan s' escalarà
Saps quan s'ha d' intensificar el venedor TAC o enginyers d'alt rang. Escala quan:
- Has esgotat tots els punts de resolució de problemes en la base del coneixement
- L' emissió requereix accés/ omissió que no tingui
- Hi ha hagut un problema en involucrar l' error de programari del proveïdor o el defecte del maquinari
- L'impacte professional és crític i sensible al temps
- Cal col·laborar múltiples equips (aplicació + xarxa + servidor)
- Descripció del símptoma complet
- Línia de temps quan es va iniciar el tema
- Les ordres de Diagnòstic s' executen i la seva sortida
- Còpia de seguretat de configuració
- Captura de paquets (si és rellevant)
- El que ja has provat
Construir la seva base de coneixement personal
Cada sessió de resolució de problemes és una oportunitat d'aprenentatge. Construeix una base de coneixement personal:
1. Crea un diari de problemes
# Example structure
~/troubleshooting-journal/
├── 2026-01-15-duplex-mismatch.md
├── 2026-01-22-mtu-black-hole.md
├── 2026-02-02-tcp-window-exhaustion.md
└── README.md # Index of all issues
# Each file contains:
# - Symptom
# - Diagnostic steps
# - Root cause
# - Resolution
# - Lessons learned
# - Related tickets/documentation
2. Construeix un full d' ordres Cheat
Organitza les ordres usades amb freqüència per escenari de referència ràpida durant la resolució de problemes.
3. Document La vostra xarxa
- Diagrames de Topologia (Layer 2 i capa 3)
- Documentació de l' esquema d' adreces IP
- Assignacions VLAN
- Configuracions estàndard (plantes)
- Bons valors de línia coneguts (alçada d' interfície abans de problemes)
Common contra els anti-Patterns per evitar
No facis canvis aleatoris sense diagnòstic
Canviar les configuracions sense comprendre el problema sovint fa que les coses siguin pitjors o màscares el problema real.
Assumeix que la xarxa sempre està en error
Sovint "temes de les xarxes" són aplicacions, servidor, o problemes amb el client. Reuneix proves abans d'acceptar la culpa.
No: Saltar els teus passos de resolució de problemes
Pots perdre el temps repetint proves que ja has fet, o ser incapaç d'explicar als companys el que has provat.
DONNo: Ignora problemes intermitents
Els problemes intermitinents solen ser signes d'advertència anticipats del fracàs. Investigant-los abans de ser crític.
No es tracta de resoldre els símptomes en comptes de causes arrel
Reiniciar un dispositiu pot restaurar el servei, però si no trobeu per què cal reiniciar, el problema es repetirà.
Resum: La llista de problemes del sistema
abans d' iniciar
- Respon les cinc preguntes clau (què ha canviat? Qui ha afectat? Constant o intermitents? Reprocible? Què hi veu l'altre costat?)
- Reuneix els símptomes inicials i els informes d'usuari
- Comprova els canvis recents o el manteniment
Dur problemes
- Mètode de treball a través de capes SOI (inferior amunt o superior)
- Canvia una variable a la vegada en provar
- Document cada prova i resultat
- Usa captures de paquet per veure el comportament real del trànsit
- Compara contra els bons valors de partida coneguts
Resolució després de la resolució
- Verifica el problema realment resolt
- Resolució arrel del document i resolució
- Actualitza la base del vostre coneixement
- Si la configuració ha canviat, actualitza la documentació
- Considerar: podrien haver-ho capturat abans?
Conclusió
Els problemes de la xarxa són la ciència i l'art. La ciència segueix una metodologia sistemàtica utilitzant eines diagnòstices correctament i entenent protocols. L'art és saber quins exàmens s'executen primer en símptomes, reconeixennt patrons d'experiència i sabent quan s'agreuja.
A continuació, el punt de vista sistemàtica d'aquest article Limónov fa referència a les preguntes correctes, al mètode de treball a través del model OSM, documentant les vostres passes, i aprendre't de cada problema, que serà més eficient per resoldre problemes i evitar els problemes comuns que porten a perdre el temps i les correccions incorrectes.
Recorda: L'objectiu no és només per restaurar el servei, sinó per entendre per què ha fallat perquè puguis impedir que torni a passar.
Actualitzada: 2 de febrer de 2026 Autor del Author: Baud9600 Team tècnics