Network Troubleshooting Methodology - The Systematic Approach

Resolució de problemes de xarxa: L'aproximació del sistema

Per què les matèria de Metodologia

El problema: Una aplicació de base de dades és lenta. L' equip de xarxa culpa a l' equip del servidor. L' equip del servidor culpa la xarxa. Mentrestant, els usuaris estan frustrats i les hores es perden en la depuració circular.

La solució: Una aproximació sistemàtica, científica per resoldre problemes que utilitzen proves, no suposicions, per identificar causes d'arrel.

El cost del problema Haphazard: Temps des de la pila de descartades, solucions incorrectes que emmascaguen problemes reals, punt de dit entre equips i experiència d' usuari degradat.

Introducció: El mètode científic aplicat a la xarxa

La resolució de problemes en xarxa és fonamentalment un exercici del mètode científic:

  1. Observador Els símptomes i les dades que es troben
  2. Formeu una hipòtesi quant a la causa arrel
  3. Prova la hipòtesi amb eines diagnòstices
  4. Analitza els resultats i confirmar o rebutjar la hipòtesi
  5. Implementa un fix Basat en la causa arrel confirmada
  6. Verifica el problema està resolt

Aquest article proporciona un marc estructurat per a problemes de xarxa que impedeixen problemes comuns com ara:

  • Confirmació del biaix (només per a proves que admetin la vostra suposició inicial)
  • Canvis a l' atzar sense diagnòstic (L' aproximació "spira i prega")
  • S' estan arreglant els símptomes en comptes de causes arrel
  • Depuració circular sense documentar el que s' ha provat

Les cinc preguntes clau

Abans de ficar-se en diagnòstics tècnics, respon a aquestes cinc preguntes crítiques per tal d'aconseguir el seu àmbit d'investigació:

Pregunta 1: Què ha canviat recentment?

Canvis de configuració? Nou hardware? Actualitzacions de programari? Redaccions de Topologia?

  • Comprova els registres de gestió
  • Revisió de les publicacions recents en sistemes de gestió de configuració
  • Pregunta: "Va estar funcionant ahir?"
1]
Pregunta 2: Qui afecta?

Un usuari? Un edifici? Tothom? Només aplicació específica?

  • Un dispositiu: Probablement un tema local (NIC, cable, configuració)
  • Una subxarxa: Passarel· la, DHCP, o commutació
  • Tothom: Funcionalitat principal, ISP, o problema extensiu
  • Aplicació específica: Servidor d' aplicacions, regla de tallafocs, o DNS
La pregunta 3: És constant o Intermitent?

Passa tot el temps? Només durant unes hores? ocurrències aleatòries?

  • Constant: Fallada difícil (pot ser tallat, configuració errònia, servei baixa)
  • Basada en temps: Congestió durant les hores de negoci, processos programats
  • Intermident/Random: Incoherència doble, sense maquinari, enllaç intermitent
Pregunta 4: El pots recompensar?

Pots activar el problema de petició?

  • Sí: Molt més fàcil de diagnosticar (hipòtesis de prova)
  • No: Estableix el monitor/logització i espera per a la repetició
Pregunta 5: què veu l'altra cara?

Comprova els dos extrems de la connexió

  • perspectiva del client contra perspectiva del servidor.
  • Captura de paquets a la font contra el destí
  • Asymmetria? Diferents camins per enviar contra els rebuts?

El Zòstic de Model OSI basat en Diagnòstic

El model SOI proporciona un marc estructurat per a la resolució de problemes. Feina des de la capa 1 (Phisical) cap amunt, o des de la capa 7 (Application) cap avall, depenent dels símptomes.

Abaix a baix (Layer 1 ascii Capa 7)

Quan usar: Ha perdut la connectivitat completa, sense connexió, o símptomes físics de capa

Capa 1: física
  • Escac: Cable connectat? Encendre llums? Es net?
  • Ordres: show interfaces, ethtool eth0
  • Cerca: errors CRC, col· lisions, col· lisions finals, punts, gegants
Capa 2: Enllaç de dades
  • Comprovar: corregir VLAN? Port habilitat? El bloqueig de l'SP?
  • Ordres: show mac address-table, show spanning-tree
  • Cerca: "MAC Alerping," canvis STP topology "VLAN"
Capa 3: Xarxa
  • Comprovar: pot fer la porta per omissió? La taula de Routing és correcta?
  • Ordres: ping, traceroute, show ip route
  • Cerca: Falta rutes, la següent, bucles incorrectes
Capa 4: Transport
  • Comprovar: podeu establir la connexió TCP? Bloca el tallafocs?
  • Ordres: telnet host port, netstat -an, captura de paquet
  • Cerca: redrancions TCP, zero finestres, paquets RST
Capa 5- 7: session/Presentation/Application
  • Comprovar: solució DNS? L' aplicació respon? L' autenticació funciona?
  • Ordres: nslookup, dig, curl -v
  • Cerca: Falla el DNS, errors d' aplicació, problemes d' espera

Apunt superior (Layer 7 eka Layer 1)

Quan usar: Problemes específics de l' aplicació on existeix la connectivitat bàsica

Exemple: "Puc navegar per Internet, però no puc accedir al web de compartició de l'empresa."

Comenceu a la Capa 7 (Compartint el servei aPunt? Torna a resoldre el DNS per corregir IP?) i funciona només si cal.

L'arbre de la decisió: És la capa 1, 2, o 3?

Useu aquest arbre de diagnòstic ràpid per identificar quina capa ha fallat:

Pots fer localhost (127. 0. 1)?
Nadeem NO
Problema: Edició del sistema operatiu / programari

La pila TCP/IP no funciona. Comproveu serveis OS, reinstal·leu controladors de xarxa.

SEMIC
Pots fer la teva adreça IP?
↓ NO
Problema: Capa 1/2 - Interfície de xarxa local

Comment Comprova: ip link show o gestor de dispositius

↓ YES
Pots obrir el portal per defecte?
↓ NO
Problema: Capa 1/2 - Xarxa local

Comprovació: cable físic, canvi d' estat del port, assignació VLAN, taula ARP

↓ YES
Pot enviar una màquina remota per adreça IP?
↓ NO
Problema: Capa 3 - Routing

Comprovació: taula, regles de tallafocs, ACL. Ús traceroute a on s' han d' aturar els paquets

↓ YES
Podeu resoldre DNS (nom de cerca)?
↓ NO
Problema: configuració DNS

Comprova: arranjament del servidor DNS, disponibilitat del servidor DNS, port de bloqueig de tallafocs 53

↓ YES
Podeu accedir al port de l' aplicació (el port de la màquina)?
↓ NO
Problema: bloqueig del tallafocs / Port

Comprova: regles de tallafocs, grups de seguretat, serveis que escolten el port

↓ YES
La xarxa està bé - Edició de la capa d' aplicació

El problema és amb la mateixa aplicació, autenticació o configuració de l' aplicació

Technaquets d' isolació

Quan teniu una hipòtesi sobre la causa arrel, useu aquestes tècniques d'aïllament per confirmar o rebutjar- la:

1. Substitueix els components del sistema sistemàticament

Pista: Canvia una variable a la vegada. Si intercanvies el cable i el port, no sabràs quin l'ha solucionat.
  • Intercanvia el cable de pedaç amb un bon cable
  • Prova en un port de commutació diferent
  • Prova d' adaptador de xarxa NIC diferent (o USB)
  • Prova del dispositiu de diferent client
  • Mou a diferent VLAN/subnet

2. Captura de paquets a múltiples punts

Captura del trànsit a la font, els punts intermedis i el destí per identificar on es retiren els paquets o s' han modificat:

# Capture on client tcpdump -i eth0 -w client.pcap host server.example.com # Capture on server tcpdump -i eth0 -w server.pcap host client.example.com # Compare: # - Do packets leave client? (check client.pcap) # - Do packets arrive at server? (check server.pcap) # - If yes/no: problem is in the path between # - If yes/yes but server doesn't respond: server-side issue

Proves de 3. Repetició

Eliminar variables externes provant la connexió dins d' un sol dispositiu:

# Test TCP stack without network ping 127.0.0.1 # Test application listening locally telnet localhost 80 # Test loopback on network interface (if supported) # Some NICs support physical loopback for Layer 1 testing

Comparacions basades en base conegudes 4.

Compara la configuració i el comportament contra un sistema de treball:

# Compare interface settings diff <(ssh working-switch "show run int gi1/0/1") \ <(ssh broken-switch "show run int gi1/0/1") # Compare routing tables diff <(ssh router1 "show ip route") \ <(ssh router2 "show ip route")

Documentació durant els problemes

La documentació del Propor evita la depuració circular on intenteu la mateixa cosa múltiples vegades sense adonar- vos-en.

Plantilla de problemes

Issue ID: TICKET-12345 Date/Time: 2026-02-02 14:30 UTC Reported By: Jane Smith (jane.smith@company.com) Affected Users: ~50 users in Building A, 3rd floor Symptom: Cannot access file server \\fileserver01 Initial Observations: - Issue started around 14:00 UTC - Only affects Building A, 3rd floor - Other buildings can access fileserver01 - Ping to fileserver01 (10.1.50.10) times out from affected users - Ping to default gateway (10.1.30.1) succeeds Tests Performed: 1. [14:35] Checked switch port status: gi1/0/15 is UP/UP 2. [14:38] Checked VLAN assignment: Port is in VLAN 30 (correct) 3. [14:42] Checked interface errors: 1,234 CRC errors on gi1/0/15 4. [14:45] Replaced patch cable - still seeing CRC errors 5. [14:50] Moved uplink to different port (gi1/0/16) - errors persist 6. [14:55] Checked fiber cleanliness - dirty connector found Root Cause: Dirty fiber connector on uplink between Building A floor switch and distribution switch causing CRC errors and packet loss Resolution: Cleaned fiber connector with proper cleaning kit. CRC errors dropped to zero. File server access restored. Verification: Users confirmed file server accessible. Monitored for 15 minutes with no errors. Time to Resolution: 25 minutes
Per què les matèria de documentació: Sense aquest registre, la propera vegada que algú vegi errors CRC en aquest interruptor, poden perdre el temps canviant cables i provant ports en comptes de comprovar automàticament les neties de fibres.

Estudis de casos reals del món

Estudi de casos 1: "La xarxa és lenta" (De fet: Exhausa la finestra TCP)

Symptom

La resposta de les aplicacions de base de dades es desactualitza des de <100ms fins a 5+ segons. L'equip d'aplicació culpava "la xarxa de lateència."

Declaracions inicials (Wrong)

  • Consgestió de xarxa
  • Enllaç WAN saturat
  • Embotella de tallafocs

Procés Diagnòstic

  1. Prova de Ping: RTT = 2ms (excel·lent, regles de la capa 3 retardenc)
  2. Prova d' amplada de banda (piperf): 950 Mbps sobre un enllaç Gbps (sense congestió)
  3. Captura del paquet: Paquets de finestres Revealed TCP Zero des del servidor de bases de dades
  4. Il· luminació del servidor: El servidor de base de dades rep memòria intermèdia = 64KB (tiny!)

Causa arrel

Les memòries de memòria intermèdia del servidor de base de dades eren massa petites per al producte d' amplada d' alta banda × de retard. Name

Resolució

# Increased TCP receive buffers on Linux database server sysctl -w net.ipv4.tcp_rmem="4096 87380 16777216" sysctl -w net.core.rmem_max=16777216

Lliçó avanada

No assumeixis: "Slow" no sempre vol dir "lateria de la network." Sempre reuniu proves (en espera de retard, la captura de paquet per al comportament) abans de saltar a conclusions.

Estudi de casos 2: Intermitent Connectivitat (De fet: doble coincidència)

Symptom

La connexió del servidor cauria aleatòriament, especialment sota la càrrega. De vegades va treballar bé, a vegades completament receptiu.

Initial Assumptions (Wrong)

  • NIC de fallesName
  • cable incorrecte
  • Canvia el problema del maquinari

Diagnostic Process

  1. Interfície d' inspecció: Servidor NIC = 1000/Full, Canvia el port = 1000/ migV (misconc)
  2. Comptadors d' errors: Nombre de col· lisions massivament en canviar el port
  3. Col· lisions tardà: Indicador del desaparellat a doble cara

Root Cause

Ha fallat la suspensió automàtica. El servidor va negociar el full-duplex, el canvi va tornar a mitja unitat. Les col·lisions només van ocórrer sota càrrega quan tots dos costats van intentar transmetre simultàniament.

Resolution

! Cisco switch - force full duplex interface GigabitEthernet1/0/10 speed 1000 duplex full

Lesson Learned

Comprova els dos extrems: Estat de la interfície mostra els paràmetres negociats. Ha fallat el desaparellació automàtica. Sempre s' han de codificar velocitat/duplex per a servidors.

Estudi de casos 3: "No es poden obtenir algunes pàgines web" (De fet: MTU/PMTD BlackF)

Symptom

Els usuaris poden navegar per alguns llocs web (Google, Yahoo) però no altres (la pàgina web de la banda, portal d' empresa). Les petites peticions HTTP han funcionat, les pàgines grans han excedit el temps.

Initial Assumptions (Wrong)

  • assumpte DNS
  • Bloqueja les pàgines específiques del tallafocs
  • Problema d' eixida de ISP

Diagnostic Process

  1. Resolució DNS: Funciona bé per a tots els llocs
  2. Prova de Ping: Pot fer servir llocs "regables"
  3. Petició HTTP petita (url): Tasques per pàgines petites
  4. Baixada gran: Poltres després de la encaixada TCP
  5. Prova TU: ping -M do -s 1472 L'èxit és... ping -M do -s 1473 falla
  6. Control ICMP: No s' ha requerit "Framentació" ( tipus 3 Codi 4) rebut

Root Cause

El túnel VPN reduït a 1400, però el tallafocs estava bloquejant els missatges ICMP de "Framentació necessària." No s'ha pogut treballar el descobriment del camí STU (TUD), creant un forat negre de l'ITU. Els paquets petits s'ajusten, els paquets grans amb DF bit s'han deixat en silenci.

Resolution

! Implemented TCP MSS clamping on router interface Tunnel0 ip tcp adjust-mss 1360 ! Alternative: Allow ICMP Type 3 Code 4 through firewall access-list 101 permit icmp any any packet-too-big

Lesson Learned

Mida importa: Si les petites sol·licituds funcionen però les grans transferències fracassen, sospiten els problemes de l'UT/fament. Usa el contacte amb el DF bit per provar el camí QU.

Estudi del cas 4: La qualitat VoIP emes (De fet: QoS Mivention)

Symptom

Les trucades de veu havien tallat l'àudio, i les gotas intermitents. Només va passar durant les hores de negoci (9am-5 pm).

Initial Assumptions (Wrong)

  • Amplada de banda insuficient
  • Sobrecàrrega del servidor VoIP
  • Qualitat de connexió del ISP

Diagnostic Process

  1. Prova d' amplada de banda: Enllaç només usat 40% durant l' hora ocupada
  2. Il·luminació QoS: El trànsit de veu marcat amb DSCP EF (46) correctament
  3. Encua la inspecció: La cua de veu només tenia un 5% d' assignació de banda de banda (hauria de ser 33%)
  4. Captura del paquet: Els paquets de veu es retiren durant la convgestió

Root Cause

La política QoS va existir però l'assignació de banda va ser inversa: el millor dels drets va obtenir un 60%, la veu va tenir un 5%. Durant les hores de negoci quan s' incrementava el trànsit de dades, els paquets de veu es van deixar en passar per sobre de la cua.

Resolution

! Corrected QoS policy policy-map WAN-QOS class VOICE priority percent 33 class VIDEO bandwidth percent 25 class CRITICAL-DATA bandwidth percent 20 class class-default bandwidth percent 22

Lesson Learned

Problemes basats en el temps = capacitat: Si els problemes només passen durant les hores ocupades, no és un error difícil sinó un problema de capacitat/QoS. Comprova les estadístiques de la cua, no només la banda de banda total.

Referència d' ordres per Symptom

Symptom Capa Ordres a executar Què cal buscar per
Sense llum d' enllaç Capa 1 show interfaces
ethtool eth0
Estat: avall, sense portador, cable desconnectat
Ha perdut el paquet Capa 1/2 show interfaces
show interfaces counters errors
Error CRC, executables, gegants, col· lisions finals
No es pot obrir la porta Capa 2 arp -a
show mac address-table
show spanning-tree
Sense entrada ARP, la MAC no ha après, bloqueig STP
No puc arribar a la subxarxa remota Capa 3 traceroute
show ip route
show ip route summary
Falta ruta, error següent i bucle
S' ha refusat la connexió Capa 4 telnet host port
netstat -an
tcpdump
Servei no escolta, bloc de tallafocs, TCP RST
rendiment lent Capa 4+ ping (RTT)
iperf3
tcpdump
show interfaces
Altatència, límit de banda de banda, reductors TCP, zero finestres
No es pot resoldre el nom de màquina Capa 7 nslookup
dig
cat /etc/resolv.conf
Servidor DNS no accessible, configuració de DNS incorrecta, NXDOIN
Gotes intermitents Layer 1/2 ping -f (flood)
show logging
show interfaces
Desaparellat doble cara, cables erronis, reviseu la vora
Funciona de vegades, no d' altres Múltiple Extended ping
Packet capture
Interface statistics
Problemes amb l'equilibri, l'ECMP Asimetria, el desbordament de la taula d'estat

Quan s' escalarà

Saps quan s'ha d' intensificar el venedor TAC o enginyers d'alt rang. Escala quan:

  • Has esgotat tots els punts de resolució de problemes en la base del coneixement
  • L' emissió requereix accés/ omissió que no tingui
  • Hi ha hagut un problema en involucrar l' error de programari del proveïdor o el defecte del maquinari
  • L'impacte professional és crític i sensible al temps
  • Cal col·laborar múltiples equips (aplicació + xarxa + servidor)
Abans de l' escalat: Document tot el que has intentat. Els enginyers TAC necessiten aquesta informació per evitar repetir els teus passos. Inclou:
  • Descripció del símptoma complet
  • Línia de temps quan es va iniciar el tema
  • Les ordres de Diagnòstic s' executen i la seva sortida
  • Còpia de seguretat de configuració
  • Captura de paquets (si és rellevant)
  • El que ja has provat

Construir la seva base de coneixement personal

Cada sessió de resolució de problemes és una oportunitat d'aprenentatge. Construeix una base de coneixement personal:

1. Crea un diari de problemes

# Example structure ~/troubleshooting-journal/ ├── 2026-01-15-duplex-mismatch.md ├── 2026-01-22-mtu-black-hole.md ├── 2026-02-02-tcp-window-exhaustion.md └── README.md # Index of all issues # Each file contains: # - Symptom # - Diagnostic steps # - Root cause # - Resolution # - Lessons learned # - Related tickets/documentation

2. Construeix un full d' ordres Cheat

Organitza les ordres usades amb freqüència per escenari de referència ràpida durant la resolució de problemes.

3. Document La vostra xarxa

  • Diagrames de Topologia (Layer 2 i capa 3)
  • Documentació de l' esquema d' adreces IP
  • Assignacions VLAN
  • Configuracions estàndard (plantes)
  • Bons valors de línia coneguts (alçada d' interfície abans de problemes)

Common contra els anti-Patterns per evitar

No facis canvis aleatoris sense diagnòstic

Canviar les configuracions sense comprendre el problema sovint fa que les coses siguin pitjors o màscares el problema real.

Assumeix que la xarxa sempre està en error

Sovint "temes de les xarxes" són aplicacions, servidor, o problemes amb el client. Reuneix proves abans d'acceptar la culpa.

No: Saltar els teus passos de resolució de problemes

Pots perdre el temps repetint proves que ja has fet, o ser incapaç d'explicar als companys el que has provat.

DONNo: Ignora problemes intermitents

Els problemes intermitinents solen ser signes d'advertència anticipats del fracàs. Investigant-los abans de ser crític.

No es tracta de resoldre els símptomes en comptes de causes arrel

Reiniciar un dispositiu pot restaurar el servei, però si no trobeu per què cal reiniciar, el problema es repetirà.

Resum: La llista de problemes del sistema

abans d' iniciar

  • Respon les cinc preguntes clau (què ha canviat? Qui ha afectat? Constant o intermitents? Reprocible? Què hi veu l'altre costat?)
  • Reuneix els símptomes inicials i els informes d'usuari
  • Comprova els canvis recents o el manteniment

Dur problemes

  • Mètode de treball a través de capes SOI (inferior amunt o superior)
  • Canvia una variable a la vegada en provar
  • Document cada prova i resultat
  • Usa captures de paquet per veure el comportament real del trànsit
  • Compara contra els bons valors de partida coneguts

Resolució després de la resolució

  • Verifica el problema realment resolt
  • Resolució arrel del document i resolució
  • Actualitza la base del vostre coneixement
  • Si la configuració ha canviat, actualitza la documentació
  • Considerar: podrien haver-ho capturat abans?

Conclusió

Els problemes de la xarxa són la ciència i l'art. La ciència segueix una metodologia sistemàtica utilitzant eines diagnòstices correctament i entenent protocols. L'art és saber quins exàmens s'executen primer en símptomes, reconeixennt patrons d'experiència i sabent quan s'agreuja.

A continuació, el punt de vista sistemàtica d'aquest article Limónov fa referència a les preguntes correctes, al mètode de treball a través del model OSM, documentant les vostres passes, i aprendre't de cada problema, que serà més eficient per resoldre problemes i evitar els problemes comuns que porten a perdre el temps i les correccions incorrectes.

Recorda: L'objectiu no és només per restaurar el servei, sinó per entendre per què ha fallat perquè puguis impedir que torni a passar.


Actualitzada: 2 de febrer de 2026 Autor del Author: Baud9600 Team tècnics