.. pealkiri: Võrgu tõrkeotsingu metoodika – süstemaatiline lähenemine .. nälkjas: võrgu tõrkeotsing-metoodika .. kuupäev: 2026-02-02 18:00:00 UTC .. sildid: võrgundus, tõrkeotsing, metoodika, diagnostika .. kategooria: artiklid .. link: .. kirjeldus: süstemaatiline teaduslik lähenemine võrgu tõrkeotsingule, mis hoiab ära ajaraiskamise ja valede paranduste tegemise .. tüüp: tekst
Probleem:Andmebaasirakendus on "aeglane". Võrgumeeskond süüdistab serverimeeskonda. Serverimeeskond süüdistab võrku. Samal ajal on kasutajad pettunud ja tunde raisatakse ringikujulisele silumisele.
Lahendus:Süstemaatiline, teaduslik lähenemisviis tõrkeotsingule, mis kasutab algpõhjuste tuvastamiseks tõendeid, mitte eeldusi.
Juhusliku tõrkeotsingu maksumus:Raisatud aeg, valed parandused, mis varjavad tegelikke probleeme, meeskondade vahel näpuga näitamine ja halvenenud kasutajakogemus.
Võrgu tõrkeotsing on põhimõtteliselt teadusliku meetodi harjutus:
See artikkel pakub võrgu tõrkeotsingu struktureeritud raamistikku, mis hoiab ära levinud lõkse, nagu:
Enne tehnilisse diagnostikasse sukeldumist vastake oma uurimisulatuse kitsendamiseks viiele kriitilisele küsimusele:
Konfiguratsiooni muutused? Uus riistvara? Tarkvarauuendused? Topoloogia muudatused?
Üks kasutaja? Üks hoone? Kõik? Ainult konkreetne rakendus?
Juhtub kogu aeg? Kas ainult teatud kellaaegadel? Juhuslikud juhtumid?
Kas saate probleemi nõudmisel käivitada?
Kontrollige ühenduse mõlemat otsa
OSI mudel pakub tõrkeotsinguks struktureeritud raamistikku. Sõltuvalt sümptomitest töötage 1. kihist (füüsiline) ülespoole või 7. kihist (rakendus) allapoole.
Millal kasutada:Ühenduvuse täielik kaotus, lingivalgustuse puudumine või füüsilise kihi sümptomid
show interfaces, ethtool eth0show mac address-table, show spanning-treeping, traceroute, show ip routetelnet host port, netstat -an, pakettide püüdminenslookup, dig, curl -vMillal kasutada:Rakenduspõhised probleemid, kui on olemas põhiline ühenduvus
Alustage 7. kihist (kas SharePointi teenus töötab? DNS lahendab õige IP-aadressi?) ja vähendage ainult vajaduse korral.
Kasutage seda kiiret diagnostikapuud, et tuvastada, milline kiht ebaõnnestub:
TCP/IP pinu ei tööta. Kontrollige OS-i teenuseid, installige võrgudraiverid uuesti.
NIC on keelatud, vale draiver, kaabel on lahti ühendatud. Kontrollige:ip link showvõi Seadmehaldur
Kontrollige: füüsiline kaabel, lüliti pordi olek, VLAN-i määramine, ARP-tabel
Kontrollige: marsruutimistabel, tulemüürireeglid, ACL-id. Kasutagetracerouteet leida, kus paketid peatuvad
Kontrollige: DNS-serveri sätteid, DNS-serveri saadavust, tulemüüri blokeerivat porti 53
Kontrollige: tulemüüri reeglid, turvarühmad, teenuse kuulamine pordis
Probleem on rakenduse enda, autentimise või rakenduse konfiguratsiooniga
Kui teil on algpõhjuse kohta hüpotees, kasutage selle kinnitamiseks või ümberlükkamiseks järgmisi isoleerimismeetodeid.
Jäädvustage liiklust allikas, vahepunktides ja sihtkohas, et teha kindlaks, kus paketid kukutatakse või muudetakse:
# Capture on client
tcpdump -i eth0 -w client.pcap host server.example.com
# Capture on server
tcpdump -i eth0 -w server.pcap host client.example.com
# Compare:
# - Do packets leave client? (check client.pcap)
# - Do packets arrive at server? (check server.pcap)
# - If yes/no: problem is in the path between
# - If yes/yes but server doesn't respond: server-side issue
Kõrvaldage välised muutujad, testides ühenduvust ühes seadmes:
# Test TCP stack without network
ping 127.0.0.1
# Test application listening locally
telnet localhost 80
# Test loopback on network interface (if supported)
# Some NICs support physical loopback for Layer 1 testing
Võrrelge konfiguratsiooni ja käitumist töötava süsteemiga:
# Compare interface settings
diff <(ssh working-switch "show run int gi1/0/1") \
<(ssh broken-switch "show run int gi1/0/1")
# Compare routing tables
diff <(ssh router1 "show ip route") \
<(ssh router2 "show ip route")
Korrektne dokumentatsioon hoiab ära ümmarguse silumise, kui proovite sama asja mitu korda aru saamata.
Probleemi ID: TICKET-12345
Kuupäev/kellaaeg: 2026-02-02 14:30 UTC
Teataja: Jane Smith (jane.smith@company.com)
Mõjutatud kasutajad: ~50 users in Building A, 3rd floor
Sümptom: Cannot access file server \\fileserver01
Esialgsed tähelepanekud:
- Issue started around 14:00 UTC
- Only affects Building A, 3rd floor
- Other buildings can access fileserver01
- Ping to fileserver01 (10.1.50.10) times out from affected users
- Ping to default gateway (10.1.30.1) succeeds
Läbiviidud testid:
1. [14:35] Checked switch port status: gi1/0/15 is UP/UP
2. [14:38] Checked VLAN assignment: Port is in VLAN 30 (correct)
3. [14:42] Checked interface errors: 1,234 CRC errors on gi1/0/15
4. [14:45] Replaced patch cable - still seeing CRC errors
5. [14:50] Moved uplink to different port (gi1/0/16) - errors persist
6. [14:55] Checked fiber cleanliness - dirty connector found
Algpõhjus:
Dirty fiber connector on uplink between Building A floor switch
and distribution switch causing CRC errors and packet loss
Resolutsioon:
Cleaned fiber connector with proper cleaning kit. CRC errors
dropped to zero. File server access restored.
Kinnitamine:
Users confirmed file server accessible. Monitored for 15 minutes
with no errors.
Aeg lahenduseni: 25 minutes
Andmebaasirakenduse reaktsiooniajad vähenesid <100 ms-lt 5+ sekundile. Rakenduse meeskond süüdistas "võrgu latentsust".
Andmebaasiserveri OS-i puhvrid olid suure ribalaiusega × viivitusega toote jaoks liiga väikesed. TCP aken täitub, sundides saatjat ootama.
# Increased TCP receive buffers on Linux database server
sysctl -w net.ipv4.tcp_rmem="4096 87380 16777216"
sysctl -w net.core.rmem_max=16777216
Ära eelda:"Aeglane" ei tähenda alati "võrgu latentsust". Enne kiirete järelduste tegemist koguge alati tõendeid (ping latentsusaja jaoks, pakettide püüdmine käitumise kohta).
Serveriühendus katkeb juhuslikult, eriti koormuse korral. Mõnikord töötas hästi, mõnikord ei reageerinud.
Automaatne läbirääkimine ebaõnnestus. Server sõlmis täisdupleksrežiimi, lüliti lülitus tagasi pooldupleksrežiimile. Kokkupõrked toimusid ainult koormuse all, kui mõlemad pooled üritasid edastada samaaegselt.
! Cisco switch - force full duplex
interface GigabitEthernet1/0/10
speed 1000
duplex full
Kontrollige mõlemat otsa:Liidese olek näitab kokkulepitud sätteid. Mittevastavus tähendab, et automaatne läbirääkimine ebaõnnestus. Serverite jaoks alati kõvakoodi kiirus/dupleks.
Kasutajad said sirvida mõnda veebisaiti (Google, Yahoo), kuid mitte teisi (panga veebisait, ettevõtte portaal). Väikesed HTTP-päringud töötasid, suured lehed aegusid.
ping -M do -s 1472õnnestub,ping -M do -s 1473ebaõnnestubVPN-tunnel vähendas MTU-d 1400-ni, kuid tulemüür blokeeris ICMP-teateid "Vajalik killustatus". Path MTU Discovery (PMTUD) ei saanud töötada, luues MTU musta augu. Väikesed paketid sobisid, suured paketid DF-bitikomplektiga langesid vaikselt maha.
! Implemented TCP MSS clamping on router
interface Tunnel0
ip tcp adjust-mss 1360
! Alternative: Allow ICMP Type 3 Code 4 through firewall
access-list 101 permit icmp any any packet-too-big
Suurus on oluline:Kui väikesed päringud töötavad, kuid suured ülekanded ebaõnnestuvad, kahtlustage MTU/killustumise probleeme. Kasutage tee MTU testimiseks pingi DF-bitiga.
Häälkõnede heli oli katkendlik, katkestused katkesid. Toimus ainult tööajal (9.00-17.00).
QoS-poliitika oli olemas, kuid ribalaiuse jaotus oli tagurpidi: parim pingutus sai 60%, hääl 5%. Tööajal, mil andmeliiklus suurenes, jäeti kõnepaketid järjekorra ületäitumise tõttu välja.
! Corrected QoS policy
policy-map WAN-QOS
class VOICE
priority percent 33
class VIDEO
bandwidth percent 25
class CRITICAL-DATA
bandwidth percent 20
class class-default
bandwidth percent 22
Ajapõhised probleemid = võimsus:Kui probleemid ilmnevad ainult kiiretel tundidel, pole see raske rike, vaid võimsuse/QoS-i probleem. Kontrollige järjekorra statistikat, mitte ainult kogu ribalaiust.
| Sümptom | Kiht | Käsud jooksma | Mida otsida |
|---|---|---|---|
| Lingi tuli puudub | 1. kiht | show interfaces |
Olek: maas, kandja puudub, kaabel on lahti ühendatud |
| Paketi kadu | Kiht 1/2 | show interfaces |
CRC vead, jooksud, hiiglased, kokkupõrked, hilised kokkupõrked |
| Lüüsi ei saa pingida | 2. kiht | arp -a |
ARP-kirje puudub, MAC-i pole õpitud, STP blokeerimine |
| Kaug-alamvõrku ei saa ühendust | 3. kiht | traceroute |
Puuduv marsruut, vale järgmine hüpe, marsruutimissilmus |
| Ühendamisest keelduti | 4. kiht | telnet host port |
Teenus ei kuula, tulemüüri blokeerimine, TCP RST |
| Aeglane jõudlus | Kiht 4+ | ping (RTT) |
Kõrge latentsusaeg, ribalaiuse piirang, TCP kordusedastused, null akent |
| Hostinime ei saa lahendada | 7. kiht | nslookup |
DNS-server on kättesaamatu, vale DNS-i konfiguratsioon, NXDOMAIN |
| Vahelduvad tilgad | Kiht 1/2 | ping -f (flood) |
Dupleksi mittesobivus, kaabli rike, STP taasühinemine |
| Mõnikord töötab, teised mitte | Mitu | Extended ping |
Koormuse tasakaalustamise probleem, ECMP asümmeetria, olekutabeli ületäitumine |
Tea, millal pöörduda müüja TAC-i või vaneminseneride poole. Eskaleerida, kui:
Iga tõrkeotsingu seanss on õppimisvõimalus. Looge isiklik teadmistebaas:
# Example structure
~/troubleshooting-journal/
├── 2026-01-15-duplex-mismatch.md
├── 2026-01-22-mtu-black-hole.md
├── 2026-02-02-tcp-window-exhaustion.md
└── README.md # Index of all issues
# Each file contains:
# - Symptom
# - Diagnostic steps
# - Root cause
# - Resolution
# - Lessons learned
# - Related tickets/documentation
Korraldage sageli kasutatavad käsud stsenaariumide järgi, et saada tõrkeotsingu ajal kiiret teavet.
Konfiguratsioonide muutmine probleemi mõistmata muudab asjad sageli hullemaks või varjab tegelikku probleemi.
Sageli on "võrguprobleemid" rakenduse, serveri või kliendipoolsed probleemid. Enne süü omaksvõtmist koguge tõendeid.
Raiskate aega juba tehtud testide kordamisele või ei suuda kolleegidele selgitada, mida olete proovinud.
Vahelduvad probleemid on sageli varajased hoiatusmärgid eelseisvast ebaõnnestumisest. Uurige neid enne, kui need muutuvad kriitiliseks.
Seadme taaskäivitamine võib teenuse taastada, kuid kui te ei saa teada, MIKS see taaskäivitamist vajas, kordub probleem.
Võrgu tõrkeotsing on nii teadus kui ka kunst. Teadus järgib süstemaatilist metoodikat, kasutab diagnostikavahendeid õigesti ja mõistab protokolle. Kunst seisneb sümptomite põhjal teadmises, milliseid teste esimesena läbi viia, kogemustest tulenevate mustrite äratundmist ja teadmist, millal eskaleerida.
Järgides selles artiklis kirjeldatud süstemaatilist lähenemist – esitades õigeid küsimusi, töötades metoodiliselt läbi OSI mudeli, dokumenteerides oma sammud ja õppides igast probleemist – muutute tõrkeotsingul tõhusamaks ja väldite tavalisi lõkse, mis põhjustavad aja raiskamist ja valesid parandusi.
Pidage meeles:Eesmärk ei ole lihtsalt teenuse taastamine, vaid mõista, MIKS see ebaõnnestus, et saaksite vältida selle kordumist.
Viimati värskendatud: 2. veebruar 2026 | Autor: Baud9600 tehniline meeskond