Problemi: Një program i dhënash është "e ulët." Ekipi i rrjetit fajëson ekipin e serverit. Ekipi i serverit fajëson rrjetin. Ndërkohë, përdoruesit janë të zhgënjyer dhe orët harxhohen në debug rrethore.
Zgjidhja: Një metodë sistematike dhe shkencore për të goditur me vështirësi, që përdor prova, jo supozime, për të identifikuar shkaqet rrënjësore.
Kostoja e shoshitjes së Haphazarit: Koha e humbur, ndreq gabim që maskojnë probleme të vërteta, pikat e gishtave midis ekipeve, dhe përvojën e degraduar të përdoruesit.
Problemi në rrjet është në thelb një ushtrim në metodën shkencore:
Ky artikull siguron një strukturë të strukturuar për gjuajtjen në rrjet që pengon grackat e zakonshme si:
Para se të zhytesh në diagnoza teknike, përgjigjju këtyre pesë pyetjeve kritike për të ngushtuar fushën tënde të hetimit:
Ndryshimet e konfigurimit? Një hardware të re? Përditësimet e programeve? Ndryshimet e topologjisë?
Një përdorues? Një ndërtesë? Të gjithë? Aplikim specifik?
Ndodh gjithmonë? Vetëm gjatë disa orëve? Raste të rastit?
A mund ta ndezësh problemin me kërkesën?
Kontrollo dy skajet e lidhjes
Modeli OSI ofron një strukturë të strukturuar për të goditur. Punoni nga niveli 1 (Physike) lart ose nga niveli 7 (Aplikimi) në varësi të simptomave.
Kur duhet përdorur: Humbje e plotë e lidhjes, pa lidhje me dritën ose simptomat fizike
show interfaces. ethtool eth0show mac address-table. show spanning-treeping. traceroute. show ip routetelnet host port. netstat -anKapja e paketësnslookup. dig. curl -vKur duhet përdorur: Probleme specifikë aplikativi ku ekziston lidhja bazë
Fillimi i nivelit 7 (A është në funksionim shërbimi i aksioneve? DNS - ja do të zgjidhte të korrigjonte IP - në?) dhe do të punonte vetëm po të ishte e nevojshme.
Përdorimi nga niveli është:
TCP/IP nuk funksionon. Kontrollo shërbimet e OS-së, rilidh shoferët e rrjetit.
NIC u çaktivizua, shofer i gabuar, kablli i palidhur. Kontrolli: ip link show menazhuesi i pajisjeve
Kontrolli: Kablli fizik, ndryshimi i gjendjes së portit, caktimi VLAN, tavolina ARP
Tavolina, rregullat e zjarrit, ACL. Përdoruesi traceroute për të gjetur ku paketat ndalen
Kontrolli: Rregullimet e serverit DNS, disponibiliteti i server-it DNS, firewall bllokimi i portit 53
Kontrolli: Rregullat e Firewall, grupet e sigurisë, shërbimi duke dëgjuar në port
Problemi është me vetë aplikativin, autentifikimin apo konfigurimin e aplikativit
Kur ke një hipotezë për shkakun e rrënjës, përdori këto teknika izolimi për ta konfirmuar ose hedhur poshtë:
Kapin trafikun në burim, pikat e ndërmjetme dhe destinacionin për të identifikuar se ku ulen apo modifikohen paketat:
# Capture on client
tcpdump -i eth0 -w client.pcap host server.example.com
# Capture on server
tcpdump -i eth0 -w server.pcap host client.example.com
# Compare:
# - Do packets leave client? (check client.pcap)
# - Do packets arrive at server? (check server.pcap)
# - If yes/no: problem is in the path between
# - If yes/yes but server doesn't respond: server-side issue
Elimino variacionet e jashtme duke testuar lidhjen brenda një dispozitivi të vetëm:
# Test TCP stack without network
ping 127.0.0.1
# Test application listening locally
telnet localhost 80
# Test loopback on network interface (if supported)
# Some NICs support physical loopback for Layer 1 testing
Krahaso konfigurimin dhe sjelljen kundër një sistemi pune:
# Compare interface settings
diff <(ssh working-switch "show run int gi1/0/1") \
<(ssh broken-switch "show run int gi1/0/1")
# Compare routing tables
diff <(ssh router1 "show ip route") \
<(ssh router2 "show ip route")
Dokumentimi i duhur parandalon debug rrethor ku provoni të njëjtën gjë shumë herë pa e kuptuar.
Issue ID: TICKET-12345
Date/Time: 2026-02-02 14:30 UTC
Reported By: Jane Smith (jane.smith@company.com)
Affected Users: ~50 users in Building A, 3rd floor
Symptom: Cannot access file server \\fileserver01
Initial Observations:
- Issue started around 14:00 UTC
- Only affects Building A, 3rd floor
- Other buildings can access fileserver01
- Ping to fileserver01 (10.1.50.10) times out from affected users
- Ping to default gateway (10.1.30.1) succeeds
Tests Performed:
1. [14:35] Checked switch port status: gi1/0/15 is UP/UP
2. [14:38] Checked VLAN assignment: Port is in VLAN 30 (correct)
3. [14:42] Checked interface errors: 1,234 CRC errors on gi1/0/15
4. [14:45] Replaced patch cable - still seeing CRC errors
5. [14:50] Moved uplink to different port (gi1/0/16) - errors persist
6. [14:55] Checked fiber cleanliness - dirty connector found
Root Cause:
Dirty fiber connector on uplink between Building A floor switch
and distribution switch causing CRC errors and packet loss
Resolution:
Cleaned fiber connector with proper cleaning kit. CRC errors
dropped to zero. File server access restored.
Verification:
Users confirmed file server accessible. Monitored for 15 minutes
with no errors.
Time to Resolution: 25 minutes
Koha e reagimit të programit të databazës degraduar nga <100 ms deri në 5+ sekonda. Ekipi i aplikimit fajësoi "të qenit në punë vonë."
Serveri i databazës OS buffers ishte tepër i vogël për prodhimin e vonuar me bandwidth. Dritarja TCP do të mbushet, duke detyruar dërguesin të presë.
# Increased TCP receive buffers on Linux database server
sysctl -w net.ipv4.tcp_rmem="4096 87380 16777216"
sysctl -w net.core.rmem_max=16777216
Mos supozo: "Slow" nuk do të thotë gjithmonë "të punosh vonë." Para se të arrish në përfundime, mblidhni gjithnjë prova (duke bërë për t'u vonuar, para se të hidheni në përfundime.
Lidhja me serverin do të bjerë rastësisht, veçanërisht nën ngarkesë. Ndonjëherë punonte mirë, ndonjëherë krejtësisht indiferente.
Auto-negociimi dështoi. Serveri negocioi për një marrëveshje të plotë, kalimi u kthye në gjysmë-dupleks. Kollizat ndodhën vetëm nën peshë kur të dyja palët u përpoqën të transmetonin njëkohësisht.
! Cisco switch - force full duplex
interface GigabitEthernet1/0/10
speed 1000
duplex full
Kontrollo dy skajet: Statusi i interfaqes tregon rregullimet e negociuara. Një mospërputhje do të thotë se auto-negociimi dështoi. Gjithmonë me shpejtësi të madhe për serverat.
Përdoruesit mund të shfletojnë disa faqe në internet (Google, Yahoo), por jo të tjerë (faqet bankare, portalet e kompanisë). Kërkesat për HTTP të vogla u bënë, faqe të mëdha mbaruan.
ping -M do -s 1472 Ka sukses. ping -M do -s 1473 dështoiTuneli VPN reduktoi MTU në 1400, por Firewall po bllokonte mesazhet "Fragmentimi i nevojshëm." Rruga MTU Discovery (PMTUD) nuk mund të funksiononte, duke krijuar një vrimë të zezë MTU. Paketa të vogla të përshtatshme, paketat e mëdha me të vogla DF u hodhën në heshtje.
! Implemented TCP MSS clamping on router
interface Tunnel0
ip tcp adjust-mss 1360
! Alternative: Allow ICMP Type 3 Code 4 through firewall
access-list 101 permit icmp any any packet-too-big
Madhësia Nëse kërkesat e vogla punojnë por transferimet e mëdha dështojnë, çështjet e dyshimit MTU/fragment. Përdor ping me DF bit për të testuar pozicionin MTU.
Thirrjet e zërit kishin zë të prerë, rënie të vazhdueshme. Ndodhi vetëm gjatë orëve të biznesit (9am-5pm).
Politika QOS ekzistonte por ndarja e grupit ishte mbrapsht: më e mira mori 60%, zëri mori 5%. Gjatë orëve të biznesit kur trafiku i të dhënave u rrit, paketat e zërit ranë për shkak të vërshimit të rradhës.
! Corrected QoS policy
policy-map WAN-QOS
class VOICE
priority percent 33
class VIDEO
bandwidth percent 25
class CRITICAL-DATA
bandwidth percent 20
class class-default
bandwidth percent 22
Çështjet e bazuara në kohë = kapaciteti: Nëse problemet ndodhin vetëm gjatë orëve të ngarkuara, kjo nuk është një dështim i vështirë por një çështje kapacitet/QoS. Kontrollo statistikat në rradhë, jo vetëm bandën totale.
| Simptom | Nivel | Komanda për tu ekzekutuar | Çfarë të kërkojmë? |
|---|---|---|---|
| Asnjë dritë lidhje | Niveli 1 | show interfaces |
Gjendja: poshtë, pa transportues, kabllo u çkyç |
| Pascket | niveli | show interfaces |
Gabime të CRC-së, shenja, gjigantë, përplasje, përplasje të vonshme |
| E pamundur hapja e portës | Nivel 2 | arp -a |
Nuk ka hyrje ARP, MAC nuk ka mësuar, STP bllokimi |
| E pamundur arritja e nënnetës remote | Nivel 3 | traceroute |
Mungon rruga, e gabuar në vazhdim-hop, rauting loop |
| Lidhja u anullua | Nivel 4 | telnet host port |
Nuk po dëgjoj, muri i firewall, TCP RST |
| Përformanca e ngadaltë | Nivelet | ping (RTT) |
Shkurtim i lartë, limit i grupit, ritransmetim TCP, zero dritare |
| E pamundur zgjidhja e emrit të host | Nivel 7 | nslookup |
Serveri DNS i paarritshëm, i gabuar DNS config, NXDOMAIN |
| Pikat e intermitente | Layer 1/2 | ping -f (flood) |
Mosfunksionim i ndërlikuar, kabëll i dështuar, STP konvergjencë |
| Punon ndonjëherë, jo të tjerët | Shumëfishe | Extended ping |
Ngarko çështjen e ekuilibrit, ECMP simetria, fluksi i tabelës shtetërore |
Di kur të përshkallëzohemi me shitësin TAC ose inxhinierët e lartë. Eskalate kur:
Çdo seancë me gjuajtje është një mundësi për të mësuar. Ndërtoni një bazë njohurie personale:
# Example structure
~/troubleshooting-journal/
├── 2026-01-15-duplex-mismatch.md
├── 2026-01-22-mtu-black-hole.md
├── 2026-02-02-tcp-window-exhaustion.md
└── README.md # Index of all issues
# Each file contains:
# - Symptom
# - Diagnostic steps
# - Root cause
# - Resolution
# - Lessons learned
# - Related tickets/documentation
Organizo komandat e përdorura shpesh nga skenari për referencë të shpejtë gjatë përplasjeve.
Ndryshimi i konfigurimit pa e kuptuar problemin shpesh i bën gjërat më keq ose maskon çështjen e vërtetë.
Shpesh "çështjet e punës" janë aplikimi, serveri apo problemet e jashtme të klientëve. Mblidh prova para se të pranosh fajin.
Do të harxhosh kohë duke përsëritur testet që ke bërë, ose nuk do të jesh në gjendje t'u shpjegosh kolegëve atë që ke provuar.
Problemet e vazhdueshme shpesh janë shenja paralajmëruese të dështimit të pashmangshëm. Ndihmoji ata para se të bëhen kritikë.
Nëse nuk e zbulon se si duhet rifilluar, problemi do të përsëritet.
Rrjeti është si në shkencë, ashtu edhe në art. Shkenca po ndjek një metodologji sistematike, po përdor siç duhet mjetet diagnostikuese dhe po kupton protokollet. Arti është duke e ditur se cilat analiza do të dalin së pari bazuar në simptoma, duke njohur modelet nga përvoja dhe duke ditur se kur do të përshkallëzohen.
Duke ndjekur metodën sistematike të përshkruar në këtë artikull, duke kërkuar pyetjet e duhura, duke punuar në mënyrë metodike me anë të modelit OSI, duke dokumentuar hapat tuaj dhe duke mësuar nga çdo numër, do të bëheni më të efektshëm për të goditur dhe për të shmangur grackat e përbashkëta që çojnë në kohën e humbur dhe në rregullimet e gabuara.
Mos harroni: Synimi nuk është vetëm të rivendoset shërbimi, por të kuptohet se si dështoi, në mënyrë që të mos ndodhë përsëri.
U rifreskua e fundit: 2 shkurt 202628 Autori: Ekipi Teknik Baud9600