Network Troubleshooting Methodology - The Systematic Approach

También disponible en:

Metodología de solución de problemas de red: El enfoque sistemático

Por qué Metodología importa

El problema: Una aplicación de bases de datos es "bajo". El equipo de red culpa al equipo del servidor. El equipo del servidor culpa a la red. Mientras tanto, los usuarios están frustrados, y las horas se desperdician en depuración circular.

La solución: Un enfoque sistemático y científico de la solución de problemas que utiliza pruebas, no hipótesis, para identificar causas profundas.

El costo de la solución de problemas de Haphazard: Tiempo desperdiciado, correcciones incorrectas que enmascaran problemas reales, punción de dedos entre equipos y experiencia de usuario degradada.

Introducción: El método científico aplicado a la red

La solución de problemas de red es fundamentalmente un ejercicio en el método científico:

Observa los síntomas y reunir datos
Forma una hipótesis sobre la causa raíz
Prueba la hipótesis con herramientas de diagnóstico
Análisis de resultados y confirmar o rechazar la hipótesis
Implementar una solución basado en la causa raíz confirmada
Verificar el problema se resuelve

Este artículo proporciona un marco estructurado para la solución de problemas de red que previene errores comunes como:

Sesgo de confirmación (sólo buscando evidencia que apoye su conjetura inicial)
Cambios aleatorios sin diagnóstico (el enfoque de oración y oración)
Fijar síntomas en lugar de causas raíz
Depuración circular sin documentar lo que se ha probado

Las cinco preguntas clave

Antes de sumergirse en el diagnóstico técnico, responda a estas cinco preguntas críticas para reducir su alcance de investigación:

Pregunta 1: ¿Qué cambió recientemente?

¿Cambios de configuración? ¿Nuevo hardware? ¿Actualizaciones de software? ¿Cambiaciones de topología?

Registros de gestión de cambios
Revisar los compromisos recientes en los sistemas de gestión de la configuración
Pregunta: "¿Funcionó ayer?"

↓

Pregunta 2: ¿Quién está afectado?

¿Un usuario? ¿Un edificio? ¿Todos? ¿Sólo aplicación específica?

Un dispositivo: Una cuestión local (NIC, cable, configuración)
Una subred: Gateway, DHCP, o problema de cambio
Todos: Infraestructura básica, ISP o cuestión generalizada
Aplicación específica: Servidor de aplicaciones, regla de firewall o DNS

↓

Pregunta 3: ¿Es constante o intermitente?

¿Sucede todo el tiempo? ¿Sólo durante ciertas horas? ¿Sucesiones aleatorias?

Constante: Fallo duro (corte, desconfiguración errónea, servicio de baja)
Tiempo basado: Congestión durante horas de trabajo, procesos programados
Intermitente/Random: Desigualdad dúplex, falta de hardware, enlace intermitente

↓

Pregunta 4: ¿Puede reproducirlo?

¿Puede desencadenar el problema bajo demanda?

Sí: Mucho más fácil de diagnosticar (puede probar hipótesis)
No: Establecer monitorización/logging y esperar a la recurrencia

↓

Pregunta 5: ¿Qué ve el otro lado?

Compruebe ambos extremos de la conexión

Perspectiva del cliente vs. perspectiva del servidor
Packet capture at source vs. destination
¿Roteo asimétrico? ¿Diferentes caminos para enviar vs. recibir?

El enfoque de diagnóstico basado en modelos OSI

El modelo OSI proporciona un marco estructurado para la solución de problemas. Trabajar desde Layer 1 (Physical) hacia arriba, o desde Layer 7 (Aplicación) hacia abajo, dependiendo de los síntomas.

Bottom-Up Approach (Layer 1 → Layer 7)

Cuándo utilizar: Pérdida de conectividad completa, sin luz de enlace o síntomas de capa física

Capa 1: Física

¿Teléfono conectado? ¿Enlazar luces encendidas? ¿Limpiada de fibra?
Comandos: show interfaces, ethtool eth0
Busque: Errores de CRC, colisiones, colisiones tardías, runtas, gigantes

↓

Capa 2: Enlace de datos

¿VLAN correcto? ¿Portuaje habilitado? ¿Bloqueo STP?
Comandos: show mac address-table, show spanning-tree
Buscar: Aplausos MAC, cambios de topología STP, desajustes VLAN

↓

Capa 3: Red

Comprobación: ¿Puede ping pasarela predeterminada? ¿Correcto?
Comandos: ping, traceroute, show ip route
Busca: Desaparecidos rutas, incorrectos de próxima salida, bucles de enrutamiento

↓

Capa 4: Transporte

Check: ¿Puede establecer la conexión TCP? ¿El puerto de bloqueo de cortafuegos?
Comandos: telnet host port, netstat -an, captura de paquetes
Busque: Retransmisiones TCP, ventanas cero, paquetes RST

↓

Capa 5-7: Sesión/Presentación/Aplicación

¿Resolviendo DNS? ¿La solicitud responde? ¿La autenticación funciona?
Comandos: nslookup, dig, curl -v
Busque: fallas DNS, errores de aplicación, problemas de timeout

Top-Down Approach (Layer 7 → Layer 1)

Cuándo utilizar: Problemas específicos para aplicaciones donde existe conectividad básica

Ejemplo: "Puedo navegar por Internet, pero no puedo acceder a la empresa sitio SharePoint."

Iniciar en Layer 7 (¿Está funcionando el servicio SharePoint? DNS resolviendo para corregir IP?) y trabajar sólo si es necesario.

El Árbol de Decisión: ¿Es Capa 1, 2, o 3?

Utilice este árbol de diagnóstico rápido para identificar qué capa está fallando:

¿Puedes ping localhost (127.0.0.1)?

↓

Problema: Sistema operativo / Cuestión de software

La pila TCP/IP no funciona. Consulta los servicios del sistema operativo, reinstalar los controladores de red.

↓ Sí

¿Puede pinchar su propia dirección IP?

↓ NO

Problema: Capa 1/2 - Interfaz de red local

NIC discapacitado, conductor equivocado, cable descompuesto. Check: ip link show o Administrador de dispositivos

↓ YES

¿Puedes pinchar por defecto?

↓ NO

Problema: Capa 1/2 - Red Local

Comprobación: Cable físico, estado del puerto de conmutación, asignación VLAN, tabla ARP

↓ YES

¿Puede ping remoto host por dirección IP?

↓ NO

Problema: Capa 3 - Rotación

Control: Mesa de enrutamiento, reglas de cortafuegos, LCA. Uso traceroute para encontrar dónde paran los paquetes

↓ YES

¿Puede resolver el DNS (nombre de anfitrión de la investigación)?

↓ NO

Problema: Configuración DNS

Compruebe: configuración del servidor DNS, disponibilidad del servidor DNS, puerto de bloqueo de firewall 53

↓ YES

¿Puede llegar al puerto de aplicación (puerto host de la red)?

↓ NO

Problema: cortafuegos / bloqueo de puertos

Check: Reglas de cortafuegos, grupos de seguridad, servicio de escucha en puerto

↓ YES

Network is OK - Application Layer Issue

El problema es con la aplicación misma, autenticación o configuración de aplicaciones

Técnicas de aislamiento

Cuando usted tiene una hipótesis sobre la causa raíz, utilice estas técnicas de aislamiento para confirmar o rechazarla:

1. Sustitúyase los componentes sistémicamente

Sugerencia: Cambiar UNA variable a la vez. Si cambias el cable y el puerto de conmutación, no sabrás qué lo arregló.

Cable de parche con cable bien conocido
Prueba en el puerto de conmutación diferente
Prueba diferentes NIC (o adaptador de red USB)
Pruebas de diferentes dispositivos cliente
Mover a diferentes VLAN/subnet

2. Capturas de paquete en múltiples puntos

Capturar el tráfico en fuente, puntos intermedios y destino para identificar dónde se bajan o modifican los paquetes:

# Capture on client
tcpdump -i eth0 -w client.pcap host server.example.com

# Capture on server
tcpdump -i eth0 -w server.pcap host client.example.com

# Compare:
# - Do packets leave client? (check client.pcap)
# - Do packets arrive at server? (check server.pcap)
# - If yes/no: problem is in the path between
# - If yes/yes but server doesn't respond: server-side issue

3. Pruebas de retroceso

Eliminar las variables externas mediante pruebas de conectividad dentro de un solo dispositivo:

# Test TCP stack without network
ping 127.0.0.1

# Test application listening locally
telnet localhost 80

# Test loopback on network interface (if supported)
# Some NICs support physical loopback for Layer 1 testing

4. Comparaciones de buena base conocidas

Compare la configuración y el comportamiento contra un sistema de trabajo:

# Compare interface settings
diff <(ssh working-switch "show run int gi1/0/1") \
     <(ssh broken-switch "show run int gi1/0/1")

# Compare routing tables
diff <(ssh router1 "show ip route") \
     <(ssh router2 "show ip route")

Documentación durante la solución de problemas

La documentación adecuada evita la depuración circular donde intentas lo mismo varias veces sin realizarla.

Plantilla de solución de problemas

Issue ID: TICKET-12345
Date/Time: 2026-02-02 14:30 UTC
Reported By: Jane Smith (jane.smith@company.com)
Affected Users: ~50 users in Building A, 3rd floor
Symptom: Cannot access file server \\fileserver01

Initial Observations:
- Issue started around 14:00 UTC
- Only affects Building A, 3rd floor
- Other buildings can access fileserver01
- Ping to fileserver01 (10.1.50.10) times out from affected users
- Ping to default gateway (10.1.30.1) succeeds

Tests Performed:
1. [14:35] Checked switch port status: gi1/0/15 is UP/UP
2. [14:38] Checked VLAN assignment: Port is in VLAN 30 (correct)
3. [14:42] Checked interface errors: 1,234 CRC errors on gi1/0/15
4. [14:45] Replaced patch cable - still seeing CRC errors
5. [14:50] Moved uplink to different port (gi1/0/16) - errors persist
6. [14:55] Checked fiber cleanliness - dirty connector found

Root Cause:
Dirty fiber connector on uplink between Building A floor switch
and distribution switch causing CRC errors and packet loss

Resolution:
Cleaned fiber connector with proper cleaning kit. CRC errors
dropped to zero. File server access restored.

Verification:
Users confirmed file server accessible. Monitored for 15 minutes
with no errors.

Time to Resolution: 25 minutes

Por qué la documentación importa: Sin este registro, la próxima vez que alguien vea errores de CRC en ese interruptor, podrían perder tiempo reemplazando cables y puertos de prueba en lugar de comprobar inmediatamente la limpieza de fibra.

Real-World Case Studies

Estudio de caso 1: "La red es lenta" (realmente: TCP Window Exhaustion)

Síntoma

Tiempos de respuesta de la aplicación de la base de datos degradados de 100m a 5 segundos. El equipo de aplicación culpó a "latría de red".

Asunciones iniciales (Wrong)

Congestión de redes
WAN link saturated
Botella cortafuegos

Proceso de diagnóstico

Prueba de Ping: RTT = 2ms (excelente, descarta la entrada 3)
Prueba de ancho de banda (iperf): 950 Mbps en 1 enlace Gbps (sin congestión)
Captura de paquete: Revealed TCP Zero Window packets from database server
Inspección del servidor: El servidor de bases de datos recibe amortiguadores = 64KB (y!)

Causa raíz

Los búferes OS del servidor de bases de datos eran demasiado pequeños para el producto de retraso de banda alta ×. La ventana TCP se llenaría, obligando al remitente a esperar.

Resolución

# Increased TCP receive buffers on Linux database server
sysctl -w net.ipv4.tcp_rmem="4096 87380 16777216"
sysctl -w net.core.rmem_max=16777216

Enseñanza extraída

No asuma: "Despacio" no siempre significa "latencia de red". Reúne siempre evidencia (esperando, captura de paquetes para comportamiento) antes de saltar a conclusiones.

Estudio de caso 2: Conectividad intermitente (realmente: Duplex Mismatch)

Symptom

La conexión del servidor caería al azar, especialmente bajo carga. A veces funcionaba bien, a veces completamente poco responsable.

Initial Assumptions (Wrong)

Failing NIC
Cable malo
Interruptor de hardware

Diagnostic Process

Inspección de la interfaz: Server NIC = 1000/Full, Switch port = 1000/Half (mismatch!)
Contadores de error: Conteo de colisión masiva en el puerto de conmutación
Colisiones tardías: Indicador de desajuste dúplex

Root Cause

La negación automática falló. Servidor negociado de dúplex completo, cambio cayó de nuevo a medio dúplex. Las colisiones sólo se produjeron bajo carga cuando ambos lados intentaron transmitir simultáneamente.

Resolution

! Cisco switch - force full duplex
interface GigabitEthernet1/0/10
 speed 1000
 duplex full

Lesson Learned

Compruebe ambos extremos: El estado de la interfaz muestra los ajustes negociados. Un desajuste significa que la negación automática falló. Velocidad/duplex siempre de código duro para servidores.

Estudio de caso 3: "No puede llegar a ciertos sitios web" (realmente: MTU/PMTUD Black Hole)

Symptom

Los usuarios pueden navegar por algunos sitios web (Google, Yahoo) pero no otros (sitio bancario, portal de la empresa). Pequeñas solicitudes HTTP funcionadas, páginas grandes cronometradas.

Initial Assumptions (Wrong)

DNS issue
Bloqueo de cortafuegos sitios específicos
ISP routing problem

Diagnostic Process

Resolución DNS: Funciona bien para todos los sitios
Prueba de Ping: Can ping the "unreachable" sites
Solicitud de HTTP pequeña (curl): Obras para pequeñas páginas
Gran descarga: Apuntas después del apretón de manos TCP
Prueba MTU: ping -M do -s 1472 tiene éxito, ping -M do -s 1473 fallas
ICMP monitoring: No "Fragmentation Needed" (Type 3 Code 4) mensajes recibidos

Root Cause

El túnel VPN redujo la MTU a 1400, pero el cortafuegos bloqueaba los mensajes de la ICMP "Fragmentation Needed". Path MTU Discovery (PMTUD) no podía funcionar, creando un agujero negro MTU. Pequeños paquetes en forma, grandes paquetes con conjunto de bits DF fueron silenciosamente caídos.

Resolution

! Implemented TCP MSS clamping on router
interface Tunnel0
 ip tcp adjust-mss 1360

! Alternative: Allow ICMP Type 3 Code 4 through firewall
access-list 101 permit icmp any any packet-too-big

Lesson Learned

Cuestiones de tamaño: Si las solicitudes pequeñas funcionan pero las transferencias grandes fracasan, se sospechan problemas de MTU/fragmentación. Use ping con bit DF para probar la ruta MTU.

Estudio de caso 4: Cuestiones de calidad de VoIP (realmente: QoS Misconfiguration)

Symptom

Las llamadas de voz tenían audio choppy, deserciones intermitentes. Sólo ocurrió durante las horas de trabajo (9am-5pm).

Initial Assumptions (Wrong)

Ancho de banda insuficiente
Servidor VoIP sobrecargado
Calidad de conexión ISP

Diagnostic Process

Prueba de ancho de banda: Enlace sólo 40% utilizado durante la hora ocupada
Inspección QoS: Tráfico de voz marcado con DSCP EF (46) correctamente
Inspección de la cola: La cola de voz sólo tenía un 5% de asignación de ancho de banda (debería ser 33%)
Captura de paquete: Paquetes de voz que se retiran durante la congestión

Root Cause

La política de QoS existió pero la asignación de ancho de banda fue atrasada: el mejor esfuerzo obtuvo el 60%, la voz obtuvo el 5%. Durante las horas de negocio cuando el tráfico de datos aumentó, los paquetes de voz se retiraron debido a la sobrefluencia de cola.

Resolution

! Corrected QoS policy
policy-map WAN-QOS
 class VOICE
  priority percent 33
 class VIDEO
  bandwidth percent 25
 class CRITICAL-DATA
  bandwidth percent 20
 class class-default
  bandwidth percent 22

Lesson Learned

Cuestiones basadas en el tiempo = capacidad: Si los problemas sólo ocurren durante horas ocupadas, no es un fallo difícil, sino un problema de capacidad/QoS. Consulta estadísticas de cola, no sólo ancho de banda total.

Referencia de comando por síntoma

Síntoma	Layer	Comandos para correr	Qué buscar
No hay luz de enlace	Capa 1	`show interfaces ethtool eth0`	Estado: abajo, sin portador, sin cable
Pérdida de paquete	Capa 1/2	`show interfaces show interfaces counters errors`	Errores de CRC, runtas, gigantes, colisiones, colisiones tardías
No puedo abrir la puerta.	Capa 2	`arp -a show mac address-table show spanning-tree`	No entrada ARP, MAC no aprendió, bloqueo STP
No se puede llegar a la subred remota	Capa 3	`traceroute show ip route show ip route summary`	Desapareciendo la ruta, mal al lado, lazo de enrutamiento
Conexión rechazada	Capa 4	`telnet host port netstat -an tcpdump`	Servicio de no escuchar, bloque de cortafuegos, TCP RST
Rendimiento lento	Capa 4+	`ping (RTT) iperf3 tcpdump show interfaces`	Latencia alta, límite ancho de banda, retransmisiones TCP, cero ventanas
No puedo resolver el nombre de host	Capa 7	`nslookup dig cat /etc/resolv.conf`	DNS server unreachable, wrong DNS config, NXDOMAIN
Caídas intermitentes	Layer 1/2	`ping -f (flood) show logging show interfaces`	Desigualdad dúplex, cable fallido, reconvergencia STP
Funciona a veces, no a otros	múltiple	`Extended ping Packet capture Interface statistics`	Cuestiones de equilibrio de carga, asimetría ECMP, flujo de mesa estatal

Cuándo escalar

Saber cuándo escalar a proveedores TAC o ingenieros senior. Escalar cuando:

Has agotado todos los pasos de solución de problemas en tu base de conocimientos
El problema requiere acceso/permisiones que no tenga
Problema implica fallo del software del proveedor o defecto del hardware
El impacto empresarial es crítico y sensible al tiempo
Múltiples equipos necesitan colaborar (aplicación + red + servidor)

Antes de escalar: Documenta todo lo que has probado. Los ingenieros de TAC necesitan esta información para evitar repetir sus pasos. Incluido:

Descripción completa del síntoma
Timeline of when issue started
Los comandos diagnósticos funcionan y su salida
Respaldos de configuración
Capturas de paquete (si es pertinente)
Lo que ya has intentado

Building Your Personal Knowledge Base

Cada sesión de solución de problemas es una oportunidad de aprendizaje. Construir una base de conocimiento personal:

1. Crear un diario de solución de problemas

# Example structure
~/troubleshooting-journal/
├── 2026-01-15-duplex-mismatch.md
├── 2026-01-22-mtu-black-hole.md
├── 2026-02-02-tcp-window-exhaustion.md
└── README.md  # Index of all issues

# Each file contains:
# - Symptom
# - Diagnostic steps
# - Root cause
# - Resolution
# - Lessons learned
# - Related tickets/documentation

2. Construir una hoja de Cheat Comando

Organizar comandos frecuentemente utilizados por escenario para una referencia rápida durante la solución de problemas.

3. Documentar su red

Diagramas de topología (Capa 2 y Capa 3)
Documentación del plan de direcciones IP
Asignaciones VLAN
Configuraciones estándar (templates)
Bases de referencia conocidas (estadísticas de interés antes de problemas)

Anti-Patterns comunes para evitar

❌ don't: Realizar cambios aleatorios sin diagnóstico

Cambiar configuraciones sin entender el problema a menudo empeora las cosas o enmascara el problema real.

❌ don't: Assume the network is always at fault

A menudo "problemas de red" son problemas de aplicación, servidor o cliente. Reunir evidencia antes de aceptar la culpa.

❌ don't: Skip documenting your troubleshooting steps

Usted perderá tiempo repitiendo pruebas que ya ha hecho, o no puede explicar a los colegas lo que ha intentado.

❌ don't: Ignorar problemas intermitentes

Los problemas intermitentes son a menudo signos de alerta temprana de fracaso inminente. Investigarlos antes de que se vuelvan críticos.

❌ DON'T: Fijar síntomas en lugar de causas raíz

Reiniciar un dispositivo puede restaurar el servicio, pero si usted no descubre por qué necesitaba reiniciar, el problema se repetirá.

Resumen: Lista de verificación de solución de problemas sistemática

✓ Antes de comenzar

Responder a las cinco preguntas clave (¿Qué cambio? ¿Quién está afectado? ¿Continuo o intermitente? ¿ Reproducible? ¿Qué ve otro lado?)
Reunir los síntomas iniciales e informes de los usuarios
Consultar cambios recientes o mantenimiento

✓ Durante la solución de problemas

Trabajar metódicamente a través de capas OSI (abajo o arriba abajo)
Cambiar la variable ONE a la vez cuando se prueba
Documenta cada prueba y su resultado
Use capturas de paquetes para ver comportamiento de tráfico real
Comparar con las bases de referencia conocidas

✓ After Resolution

Verificar la solución en realidad resolvió el problema
Causa raíz del documento y resolución
Actualice su base de conocimientos
Si la configuración cambió, actualizar la documentación
Considerar: ¿Podría el monitoreo haber atrapado esto antes?

Conclusión

La solución de problemas de red es ciencia y arte. La ciencia está siguiendo una metodología sistemática, utilizando correctamente las herramientas de diagnóstico y entendiendo protocolos. El arte es saber qué pruebas para ejecutar primero basado en síntomas, reconociendo patrones de experiencia y sabiendo cuándo escalar.

Al seguir el enfoque sistemático esbozado en este artículo, haciendo las preguntas correctas, trabajando metódicamente a través del modelo OSI, documentando sus pasos y aprendiendo de cada tema, se volverá más eficiente en la solución de problemas y evitar los obstáculos comunes que conducen a perder tiempo y corregir incorrectamente.

Recuerda: El objetivo no es sólo restaurar el servicio, sino entender por qué falló para evitar que vuelva a suceder.

Última actualización: 2 de febrero de 2026 Silencio Autor: Baud9600 Equipo Técnico