Проблемът:
Решението:
Цената на случайни отстраняване на неизправности:
Мрежово отстраняване е основно упражнение в научния метод:
Тази статия осигурява структурирана рамка за решаване на мрежови проблеми, която предотвратява общи капани като:
Преди да се потопите в техническата диагностика, отговорете на тези пет критични въпроса, за да стесните обхвата на разследването:
Моделът OSI осигурява структурирана рамка за отстраняване на проблеми. Работа от слой 1 (Физическа) нагоре, или от слой 7 (Прилагане) надолу, в зависимост от симптомите.
Кога да използвате:
Кога да използвате:
Започнете от Layer 7 (Is SharePoint service running? DNS решава да коригира IP?) и работи надолу само ако е необходимо.
Използвайте това бързо диагностично дърво, за да определите кой слой не работи:
Когато имате хипотеза за основната причина, използвайте тези техники на изолация, за да го потвърдите или отхвърлите:
Захващане на трафика при източника, междинните точки и местоназначението, за да се определи къде пакетите се изпускат или изменят:
# Capture on client
tcpdump -i eth0 -w client.pcap host server.example.com
# Capture on server
tcpdump -i eth0 -w server.pcap host client.example.com
# Compare:
# - Do packets leave client? (check client.pcap)
# - Do packets arrive at server? (check server.pcap)
# - If yes/no: problem is in the path between
# - If yes/yes but server doesn't respond: server-side issue
Премахване на външни променливи чрез изпитване на свързаността в рамките на едно устройство:
# Test TCP stack without network
ping 127.0.0.1
# Test application listening locally
telnet localhost 80
# Test loopback on network interface (if supported)
# Some NICs support physical loopback for Layer 1 testing
Сравнете конфигурацията и поведението срещу работна система:
# Compare interface settings
diff <(ssh working-switch "show run int gi1/0/1") \
<(ssh broken-switch "show run int gi1/0/1")
# Compare routing tables
diff <(ssh router1 "show ip route") \
<(ssh router2 "show ip route")
Правилната документация предотвратява кръговото дебъгване, където се опитвате едно и също нещо няколко пъти, без да го осъзнавате.
Issue ID: TICKET-12345
Date/Time: 2026-02-02 14:30 UTC
Reported By: Jane Smith (jane.smith@company.com)
Affected Users: ~50 users in Building A, 3rd floor
Symptom: Cannot access file server \\fileserver01
Initial Observations:
- Issue started around 14:00 UTC
- Only affects Building A, 3rd floor
- Other buildings can access fileserver01
- Ping to fileserver01 (10.1.50.10) times out from affected users
- Ping to default gateway (10.1.30.1) succeeds
Tests Performed:
1. [14:35] Checked switch port status: gi1/0/15 is UP/UP
2. [14:38] Checked VLAN assignment: Port is in VLAN 30 (correct)
3. [14:42] Checked interface errors: 1,234 CRC errors on gi1/0/15
4. [14:45] Replaced patch cable - still seeing CRC errors
5. [14:50] Moved uplink to different port (gi1/0/16) - errors persist
6. [14:55] Checked fiber cleanliness - dirty connector found
Root Cause:
Dirty fiber connector on uplink between Building A floor switch
and distribution switch causing CRC errors and packet loss
Resolution:
Cleaned fiber connector with proper cleaning kit. CRC errors
dropped to zero. File server access restored.
Verification:
Users confirmed file server accessible. Monitored for 15 minutes
with no errors.
Time to Resolution: 25 minutes
Времената за отговор на приложението на базата данни се влошават от <100ms до 5+ секунди. Екип за кандидатстване обвини "мрежа латентност."
База данни сървърите OS буфери бяха твърде малки за високочестотна × забавен продукт. Прозорецът ще запълни, принуждавайки подателя да чака.
# Increased TCP receive buffers on Linux database server
sysctl -w net.ipv4.tcp_rmem="4096 87380 16777216"
sysctl -w net.core.rmem_max=16777216
Не предполагай:
Връзката със сървъра ще падне случайно, особено при натоварване. Понякога работи добре, понякога напълно не реагира.
Автопреговорите се провалиха. Сървърът е договорил пълен сплит, превключвателят е паднал обратно на полу-дуплекс. Сблъсъците са настъпили при натоварване само когато двете страни са се опитали да предават едновременно.
! Cisco switch - force full duplex
interface GigabitEthernet1/0/10
speed 1000
duplex full
Проверете двата края:
Потребителите могат да разглеждат някои сайтове (Google, Yahoo), но не и други (банков сайт, фирмен портал). Малките HTTP заявки проработиха, големите страници отрязаха.
ping -M do -s 1472ping -M do -s 1473VPN тунел намали MTU до 1400, но защитната стена блокира ICMP "Необходима фрагментация" съобщения. Път MTU Discovery (PMTUD) не може да работи, създавайки MTU черна дупка. Малки пакети се побират, големи пакети с DF комплект бяха тихо изпуснати.
! Implemented TCP MSS clamping on router
interface Tunnel0
ip tcp adjust-mss 1360
! Alternative: Allow ICMP Type 3 Code 4 through firewall
access-list 101 permit icmp any any packet-too-big
Размер:
Гласовите разговори са били с прекъсващ звук, прекъсващи отпадането. Само през работното време (9am-5pm).
Политиката на QoS съществуваше, но разпределението на широчината на честотната лента беше на обратно: най-добрият ефект получи 60%, гласът получи 5%. По време на работното време, когато трафикът на данни се увеличава, гласовите пакети са били свалени поради препълване на опашката.
! Corrected QoS policy
policy-map WAN-QOS
class VOICE
priority percent 33
class VIDEO
bandwidth percent 25
class CRITICAL-DATA
bandwidth percent 20
class class-default
bandwidth percent 22
Времеви въпроси = капацитет:
| Симптом | Слой | Команди за изпълнение | Какво да търсим |
|---|---|---|---|
| Няма светлина за свързване | Слой 1 | show interfaces |
Състояние: долу, няма превозвач, кабелът е изключен |
| Загуба на пакет | Слой 1/2 | show interfaces |
КРС грешки, изтърсаци, гиганти, сблъсъци, късни сблъсъци |
| Не мога да се свържа. | Слой 2 | arp -a |
Не ARP запис, MAC не е научил, STP блокиране |
| Не мога да стигна до отдалечена мрежа. | Слой 3 | traceroute |
Липсващ маршрут, погрешен следващ хоп, маршрутен цикъл |
| Връзката отказана | Слой 4 | telnet host port |
Услугата не слуша, защитна стена блок, TCP RST |
| Бавно изпълнение | Слой 4+ | ping (RTT) |
Висока латентност, ограничение на честотната лента, TCP препредаване, нула прозорци |
| Името на домакина не може да се разреши. | Слой 7 | nslookup |
DNS сървър недостъпен, грешен DNS config, NXDOMAIN |
| Интермитентни капки | Layer 1/2 | ping -f (flood) |
Duplex несъответствие, неработещ кабел, STP възстановяване |
| Понякога работи, не други. | Многократно | Extended ping |
Товароносимост, ECMP асиметрия, преливна маса |
Знаеш кога да ескалираш до TAC или старши инженери. Ескалирайте, когато:
Всяко отстраняване на проблеми е възможност за учене. Изграждане на база от лични знания:
# Example structure
~/troubleshooting-journal/
├── 2026-01-15-duplex-mismatch.md
├── 2026-01-22-mtu-black-hole.md
├── 2026-02-02-tcp-window-exhaustion.md
└── README.md # Index of all issues
# Each file contains:
# - Symptom
# - Diagnostic steps
# - Root cause
# - Resolution
# - Lessons learned
# - Related tickets/documentation
Организирайте често използвани команди по сценарий за бърза справка по време на отстраняване на неизправности.
Промяната на конфигурацията без разбиране на проблема често прави нещата по-лоши или маскира истинския проблем.
Често "мрежови проблеми" са приложения, сървър, или клиентски проблеми. Съберете доказателства преди да приемете вината.
Ще си губите времето да повтаряте тестове, които вече сте направили или не можете да обясните на колегите какво сте опитали.
Интермитентните проблеми често са ранни предупредителни признаци на предстоящ провал. Разследвайте ги преди да са станали критични.
Рестартиране на устройство може да възстанови услугата, но ако не разберете защо е необходимо рестартиране, проблемът ще се повтори.
Проблемите в мрежата са както наука, така и изкуство. Науката следва систематична методология, използвайки правилно диагностични инструменти и протоколи за разбиране. Изкуството е да знаеш кои тестове да се провеждат първо въз основа на симптомите, разпознавайки модели от опит, и знаейки кога да ескалира.
Като следвате систематичния подход, очертан в тази статия, задавайки правилните въпроси, работейки методично чрез модела OSI, документирайки стъпките си и учейки се от всеки въпрос, вие ще станете по-ефективни при отстраняване на проблеми и избягване на общите капани, които водят до загуба на време и неправилни поправки.
Запомни:
Последна актуализация: февруари 2, 2026 г.