Network Troubleshooting Methodology - The Systematic Approach

Resolució de problemes de xarxa: L'aproximació del sistema

Per què les matèria de Metodologia

El problema:

La solució:

El cost del problema Haphazard:

Introducció: El mètode científic aplicat a la xarxa

La resolució de problemes en xarxa és fonamentalment un exercici del mètode científic:

  1. Observador
  2. Formeu una hipòtesi
  3. Prova la hipòtesi
  4. Analitza els resultats
  5. Implementa un fix
  6. Verifica

Aquest article proporciona un marc estructurat per a problemes de xarxa que impedeixen problemes comuns com ara:

  • Confirmació del biaix (només per a proves que admetin la vostra suposició inicial)
  • Canvis a l' atzar sense diagnòstic (L' aproximació "spira i prega")
  • S' estan arreglant els símptomes en comptes de causes arrel
  • Depuració circular sense documentar el que s' ha provat

Les cinc preguntes clau

Abans de ficar-se en diagnòstics tècnics, respon a aquestes cinc preguntes crítiques per tal d'aconseguir el seu àmbit d'investigació:

Pregunta 1: Què ha canviat recentment?
  • Comprova els registres de gestió
  • Revisió de les publicacions recents en sistemes de gestió de configuració
  • Pregunta: "Va estar funcionant ahir?"
1]
Pregunta 2: Qui afecta?
  • Un dispositiu: Probablement un tema local (NIC, cable, configuració)
  • Una subxarxa: Passarel· la, DHCP, o commutació
  • Tothom: Funcionalitat principal, ISP, o problema extensiu
  • Aplicació específica: Servidor d' aplicacions, regla de tallafocs, o DNS
La pregunta 3: És constant o Intermitent?
  • Constant: Fallada difícil (pot ser tallat, configuració errònia, servei baixa)
  • Basada en temps: Congestió durant les hores de negoci, processos programats
  • Intermident/Random: Incoherència doble, sense maquinari, enllaç intermitent
Pregunta 4: El pots recompensar?
  • Sí: Molt més fàcil de diagnosticar (hipòtesis de prova)
  • No: Estableix el monitor/logització i espera per a la repetició
Pregunta 5: què veu l'altra cara?
  • perspectiva del client contra perspectiva del servidor.
  • Captura de paquets a la font contra el destí
  • Asymmetria? Diferents camins per enviar contra els rebuts?

El Zòstic de Model OSI basat en Diagnòstic

El model SOI proporciona un marc estructurat per a la resolució de problemes. Feina des de la capa 1 (Phisical) cap amunt, o des de la capa 7 (Application) cap avall, depenent dels símptomes.

Abaix a baix (Layer 1 ascii Capa 7)

Quan usar:

Capa 1: física
Capa 2: Enllaç de dades
Capa 3: Xarxa
Capa 4: Transport
Capa 5- 7: session/Presentation/Application

Apunt superior (Layer 7 eka Layer 1)

Quan usar:

Exemple:

Comenceu a la Capa 7 (Compartint el servei aPunt? Torna a resoldre el DNS per corregir IP?) i funciona només si cal.

L'arbre de la decisió: És la capa 1, 2, o 3?

Useu aquest arbre de diagnòstic ràpid per identificar quina capa ha fallat:

Pots fer localhost (127. 0. 1)?
Nadeem NO
Problema: Edició del sistema operatiu / programari
SEMIC
Pots fer la teva adreça IP?
↓ NO
Problema: Capa 1/2 - Interfície de xarxa local
↓ YES
Pots obrir el portal per defecte?
↓ NO
Problema: Capa 1/2 - Xarxa local
↓ YES
Pot enviar una màquina remota per adreça IP?
↓ NO
Problema: Capa 3 - Routing
↓ YES
Podeu resoldre DNS (nom de cerca)?
↓ NO
Problema: configuració DNS
↓ YES
Podeu accedir al port de l' aplicació (el port de la màquina)?
↓ NO
Problema: bloqueig del tallafocs / Port
↓ YES
La xarxa està bé - Edició de la capa d' aplicació

Technaquets d' isolació

Quan teniu una hipòtesi sobre la causa arrel, useu aquestes tècniques d'aïllament per confirmar o rebutjar- la:

1. Substitueix els components del sistema sistemàticament

Pista:
  • Intercanvia el cable de pedaç amb un bon cable
  • Prova en un port de commutació diferent
  • Prova d' adaptador de xarxa NIC diferent (o USB)
  • Prova del dispositiu de diferent client
  • Mou a diferent VLAN/subnet

2. Captura de paquets a múltiples punts

Captura del trànsit a la font, els punts intermedis i el destí per identificar on es retiren els paquets o s' han modificat:

# Capture on client tcpdump -i eth0 -w client.pcap host server.example.com # Capture on server tcpdump -i eth0 -w server.pcap host client.example.com # Compare: # - Do packets leave client? (check client.pcap) # - Do packets arrive at server? (check server.pcap) # - If yes/no: problem is in the path between # - If yes/yes but server doesn't respond: server-side issue

Proves de 3. Repetició

Eliminar variables externes provant la connexió dins d' un sol dispositiu:

# Test TCP stack without network ping 127.0.0.1 # Test application listening locally telnet localhost 80 # Test loopback on network interface (if supported) # Some NICs support physical loopback for Layer 1 testing

Comparacions basades en base conegudes 4.

Compara la configuració i el comportament contra un sistema de treball:

# Compare interface settings diff <(ssh working-switch "show run int gi1/0/1") \ <(ssh broken-switch "show run int gi1/0/1") # Compare routing tables diff <(ssh router1 "show ip route") \ <(ssh router2 "show ip route")

Documentació durant els problemes

La documentació del Propor evita la depuració circular on intenteu la mateixa cosa múltiples vegades sense adonar- vos-en.

Plantilla de problemes

Issue ID: TICKET-12345 Date/Time: 2026-02-02 14:30 UTC Reported By: Jane Smith (jane.smith@company.com) Affected Users: ~50 users in Building A, 3rd floor Symptom: Cannot access file server \\fileserver01 Initial Observations: - Issue started around 14:00 UTC - Only affects Building A, 3rd floor - Other buildings can access fileserver01 - Ping to fileserver01 (10.1.50.10) times out from affected users - Ping to default gateway (10.1.30.1) succeeds Tests Performed: 1. [14:35] Checked switch port status: gi1/0/15 is UP/UP 2. [14:38] Checked VLAN assignment: Port is in VLAN 30 (correct) 3. [14:42] Checked interface errors: 1,234 CRC errors on gi1/0/15 4. [14:45] Replaced patch cable - still seeing CRC errors 5. [14:50] Moved uplink to different port (gi1/0/16) - errors persist 6. [14:55] Checked fiber cleanliness - dirty connector found Root Cause: Dirty fiber connector on uplink between Building A floor switch and distribution switch causing CRC errors and packet loss Resolution: Cleaned fiber connector with proper cleaning kit. CRC errors dropped to zero. File server access restored. Verification: Users confirmed file server accessible. Monitored for 15 minutes with no errors. Time to Resolution: 25 minutes
Per què les matèria de documentació:

Estudis de casos reals del món

Estudi de casos 1: "La xarxa és lenta" (De fet: Exhausa la finestra TCP)

Symptom

La resposta de les aplicacions de base de dades es desactualitza des de <100ms fins a 5+ segons. L'equip d'aplicació culpava "la xarxa de lateència."

Declaracions inicials (Wrong)

  • Consgestió de xarxa
  • Enllaç WAN saturat
  • Embotella de tallafocs

Procés Diagnòstic

  1. Prova de Ping:
  2. Prova d' amplada de banda (piperf):
  3. Captura del paquet:
  4. Il· luminació del servidor:

Causa arrel

Les memòries de memòria intermèdia del servidor de base de dades eren massa petites per al producte d' amplada d' alta banda × de retard. Name

Resolució

# Increased TCP receive buffers on Linux database server sysctl -w net.ipv4.tcp_rmem="4096 87380 16777216" sysctl -w net.core.rmem_max=16777216

Lliçó avanada

No assumeixis:

Estudi de casos 2: Intermitent Connectivitat (De fet: doble coincidència)

Symptom

La connexió del servidor cauria aleatòriament, especialment sota la càrrega. De vegades va treballar bé, a vegades completament receptiu.

Initial Assumptions (Wrong)

  • NIC de fallesName
  • cable incorrecte
  • Canvia el problema del maquinari

Diagnostic Process

  1. Interfície d' inspecció:
  2. Comptadors d' errors:
  3. Col· lisions tardà:

Root Cause

Ha fallat la suspensió automàtica. El servidor va negociar el full-duplex, el canvi va tornar a mitja unitat. Les col·lisions només van ocórrer sota càrrega quan tots dos costats van intentar transmetre simultàniament.

Resolution

! Cisco switch - force full duplex interface GigabitEthernet1/0/10 speed 1000 duplex full

Lesson Learned

Comprova els dos extrems:

Estudi de casos 3: "No es poden obtenir algunes pàgines web" (De fet: MTU/PMTD BlackF)

Symptom

Els usuaris poden navegar per alguns llocs web (Google, Yahoo) però no altres (la pàgina web de la banda, portal d' empresa). Les petites peticions HTTP han funcionat, les pàgines grans han excedit el temps.

Initial Assumptions (Wrong)

  • assumpte DNS
  • Bloqueja les pàgines específiques del tallafocs
  • Problema d' eixida de ISP

Diagnostic Process

  1. Resolució DNS:
  2. Prova de Ping:
  3. Petició HTTP petita (url):
  4. Baixada gran:
  5. Prova TU:ping -M do -s 1472ping -M do -s 1473
  6. Control ICMP:

Root Cause

El túnel VPN reduït a 1400, però el tallafocs estava bloquejant els missatges ICMP de "Framentació necessària." No s'ha pogut treballar el descobriment del camí STU (TUD), creant un forat negre de l'ITU. Els paquets petits s'ajusten, els paquets grans amb DF bit s'han deixat en silenci.

Resolution

! Implemented TCP MSS clamping on router interface Tunnel0 ip tcp adjust-mss 1360 ! Alternative: Allow ICMP Type 3 Code 4 through firewall access-list 101 permit icmp any any packet-too-big

Lesson Learned

Mida importa:

Estudi del cas 4: La qualitat VoIP emes (De fet: QoS Mivention)

Symptom

Les trucades de veu havien tallat l'àudio, i les gotas intermitents. Només va passar durant les hores de negoci (9am-5 pm).

Initial Assumptions (Wrong)

  • Amplada de banda insuficient
  • Sobrecàrrega del servidor VoIP
  • Qualitat de connexió del ISP

Diagnostic Process

  1. Prova d' amplada de banda:
  2. Il·luminació QoS:
  3. Encua la inspecció:
  4. Captura del paquet:

Root Cause

La política QoS va existir però l'assignació de banda va ser inversa: el millor dels drets va obtenir un 60%, la veu va tenir un 5%. Durant les hores de negoci quan s' incrementava el trànsit de dades, els paquets de veu es van deixar en passar per sobre de la cua.

Resolution

! Corrected QoS policy policy-map WAN-QOS class VOICE priority percent 33 class VIDEO bandwidth percent 25 class CRITICAL-DATA bandwidth percent 20 class class-default bandwidth percent 22

Lesson Learned

Problemes basats en el temps = capacitat:

Referència d' ordres per Symptom

Symptom Capa Ordres a executar Què cal buscar per
Sense llum d' enllaç Capa 1 show interfaces
ethtool eth0
Estat: avall, sense portador, cable desconnectat
Ha perdut el paquet Capa 1/2 show interfaces
show interfaces counters errors
Error CRC, executables, gegants, col· lisions finals
No es pot obrir la porta Capa 2 arp -a
show mac address-table
show spanning-tree
Sense entrada ARP, la MAC no ha après, bloqueig STP
No puc arribar a la subxarxa remota Capa 3 traceroute
show ip route
show ip route summary
Falta ruta, error següent i bucle
S' ha refusat la connexió Capa 4 telnet host port
netstat -an
tcpdump
Servei no escolta, bloc de tallafocs, TCP RST
rendiment lent Capa 4+ ping (RTT)
iperf3
tcpdump
show interfaces
Altatència, límit de banda de banda, reductors TCP, zero finestres
No es pot resoldre el nom de màquina Capa 7 nslookup
dig
cat /etc/resolv.conf
Servidor DNS no accessible, configuració de DNS incorrecta, NXDOIN
Gotes intermitents Layer 1/2 ping -f (flood)
show logging
show interfaces
Desaparellat doble cara, cables erronis, reviseu la vora
Funciona de vegades, no d' altres Múltiple Extended ping
Packet capture
Interface statistics
Problemes amb l'equilibri, l'ECMP Asimetria, el desbordament de la taula d'estat

Quan s' escalarà

Saps quan s'ha d' intensificar el venedor TAC o enginyers d'alt rang. Escala quan:

  • Has esgotat tots els punts de resolució de problemes en la base del coneixement
  • L' emissió requereix accés/ omissió que no tingui
  • Hi ha hagut un problema en involucrar l' error de programari del proveïdor o el defecte del maquinari
  • L'impacte professional és crític i sensible al temps
  • Cal col·laborar múltiples equips (aplicació + xarxa + servidor)
Abans de l' escalat:
  • Descripció del símptoma complet
  • Línia de temps quan es va iniciar el tema
  • Les ordres de Diagnòstic s' executen i la seva sortida
  • Còpia de seguretat de configuració
  • Captura de paquets (si és rellevant)
  • El que ja has provat

Construir la seva base de coneixement personal

Cada sessió de resolució de problemes és una oportunitat d'aprenentatge. Construeix una base de coneixement personal:

1. Crea un diari de problemes

# Example structure ~/troubleshooting-journal/ ├── 2026-01-15-duplex-mismatch.md ├── 2026-01-22-mtu-black-hole.md ├── 2026-02-02-tcp-window-exhaustion.md └── README.md # Index of all issues # Each file contains: # - Symptom # - Diagnostic steps # - Root cause # - Resolution # - Lessons learned # - Related tickets/documentation

2. Construeix un full d' ordres Cheat

Organitza les ordres usades amb freqüència per escenari de referència ràpida durant la resolució de problemes.

3. Document La vostra xarxa

  • Diagrames de Topologia (Layer 2 i capa 3)
  • Documentació de l' esquema d' adreces IP
  • Assignacions VLAN
  • Configuracions estàndard (plantes)
  • Bons valors de línia coneguts (alçada d' interfície abans de problemes)

Common contra els anti-Patterns per evitar

No facis canvis aleatoris sense diagnòstic

Canviar les configuracions sense comprendre el problema sovint fa que les coses siguin pitjors o màscares el problema real.

Assumeix que la xarxa sempre està en error

Sovint "temes de les xarxes" són aplicacions, servidor, o problemes amb el client. Reuneix proves abans d'acceptar la culpa.

No: Saltar els teus passos de resolució de problemes

Pots perdre el temps repetint proves que ja has fet, o ser incapaç d'explicar als companys el que has provat.

DONNo: Ignora problemes intermitents

Els problemes intermitinents solen ser signes d'advertència anticipats del fracàs. Investigant-los abans de ser crític.

No es tracta de resoldre els símptomes en comptes de causes arrel

Reiniciar un dispositiu pot restaurar el servei, però si no trobeu per què cal reiniciar, el problema es repetirà.

Resum: La llista de problemes del sistema

abans d' iniciar

  • Respon les cinc preguntes clau (què ha canviat? Qui ha afectat? Constant o intermitents? Reprocible? Què hi veu l'altre costat?)
  • Reuneix els símptomes inicials i els informes d'usuari
  • Comprova els canvis recents o el manteniment

Dur problemes

  • Mètode de treball a través de capes SOI (inferior amunt o superior)
  • Canvia una variable a la vegada en provar
  • Document cada prova i resultat
  • Usa captures de paquet per veure el comportament real del trànsit
  • Compara contra els bons valors de partida coneguts

Resolució després de la resolució

  • Verifica el problema realment resolt
  • Resolució arrel del document i resolució
  • Actualitza la base del vostre coneixement
  • Si la configuració ha canviat, actualitza la documentació
  • Considerar: podrien haver-ho capturat abans?

Conclusió

Els problemes de la xarxa són la ciència i l'art. La ciència segueix una metodologia sistemàtica utilitzant eines diagnòstices correctament i entenent protocols. L'art és saber quins exàmens s'executen primer en símptomes, reconeixennt patrons d'experiència i sabent quan s'agreuja.

A continuació, el punt de vista sistemàtica d'aquest article Limónov fa referència a les preguntes correctes, al mètode de treball a través del model OSM, documentant les vostres passes, i aprendre't de cada problema, que serà més eficient per resoldre problemes i evitar els problemes comuns que porten a perdre el temps i les correccions incorrectes.

Recorda:


Actualitzada: 2 de febrer de 2026 Autor del Author: Baud9600 Team tècnics