二. 网络解决问题的方法:系统性方法

二. 方法的關鍵

有問題:

解决办法:

(一)出事成本:

第 二 章

在科學方法上,

  1. 觀察
  2. 形成假想
  3. 測試假想
  4. 二. 分析结果
  5. 執行固定
  6. 檢查

有條理地提供網路故障排除框架,

有五大問題

在做技術分辨前 回答這五個關鍵問題以收縮你的調查範圍:

第1回:最近發生了什麼?
  • 檢查變更管理紀錄
  • 二. 最近在配置管理系统中的工作
  • "相公道:"昨日有用?
第 二 部 分
第2回:誰受了影響?
  • 就一個裝置: 可能出自地區相關事由 (NIC, 有線, 有線, 有線相通等)
  • 一子网: DHCP 出入口或切換出
  • 大家: 二. 核心基础设施、ISP或
  • 相關應用程式: 應用程式伺服器、防火牆規則或 DNS
第 三 個 事 由 是 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有 有
  • 常數 : 硬失敗 (可電子剪接、 配置錯誤、 已下載)
  • 有時: 在工作時間和安排中
  • 中斷相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相相接相接相接相接相接相接相接相接相接相接相接相接相相相相接相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相 二相不匹配, 硬件失敗, 有間接的連接
第4個問題:能再做一次嗎?
  • 有: (可以試取假設)
  • 不: 建立監控/ logb并等待重回
第5個問題:另一邊看到什麼?
  • 客戶端视角對伺服器视角
  • 在來源與目的地相接相接的包
  • 有相對的路由? 有不同的去向被收取?

OSI模型型诊断方法

OSI模型提供分解故障的结构框架. 第1層 (物理) 向上工作, 第7層 (施用) 根据症狀向下工作.

从下而上取法 (第 1 層 )

使用時:

第1層:物理
第2層:相關資料
第3層: 網路
第4層: 交通
第5-7層:会議/介紹/應用

从上到下取出 (第 7 層 )

使用時:

示例

在 第 7 層起步( SharePoint 服務正在跑取 ? DNS 解析 IP ? ) 需要時才下載 。

第1、2或3層?

使用此快速介紹樹來辨識哪一層失敗:

你能接通地主(127.0.0.1)嗎?
有否
有問題: 操作系統/軟體出發
有自已的IP地址嗎?
↓ NO
有問題: 第 1/2 層- 本地網路介面
↓ YES
你能接通預設的出入口嗎?
↓ NO
有問題: 第1/2層-地區網路
↓ YES
您能用 IP 地址接取遠端主機嗎 ?
↓ NO
第 三 層 -- -- 游走
↓ YES
您能解析 DNS( 查看主機名 ) ?
↓ NO
有問題: DNS 配置
↓ YES
您能到達應用端口( telnet 主機端口 ) ?
↓ NO
有問題:防火牆/港口被封鎖
↓ YES
網路已可 - 應用層出問題

二. 隔离技术

有根由的假想出后 就用這些相隔相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相相接相接相接相接相相相相接相接相接相接相接相接相接相接相接相接相相相接相相相相相相相相相相相相

1. 有步骤地取而代之

提示 :

2. 在多點取回包裹

在來源地、中點地點和去向地點捕捉流量以分辨放出或被修改的包:

# Capture on client tcpdump -i eth0 -w client.pcap host server.example.com # Capture on server tcpdump -i eth0 -w server.pcap host client.example.com # Compare: # - Do packets leave client? (check client.pcap) # - Do packets arrive at server? (check server.pcap) # - If yes/no: problem is in the path between # - If yes/yes but server doesn't respond: server-side issue

3.回轉測試

在單一裝置內測試連通性以去除外接變數:

# Test TCP stack without network ping 127.0.0.1 # Test application listening locally telnet localhost 80 # Test loopback on network interface (if supported) # Some NICs support physical loopback for Layer 1 testing

4. 已知好基线相對

在工作系統上相對設定和行為:

# Compare interface settings diff <(ssh working-switch "show run int gi1/0/1") \ <(ssh broken-switch "show run int gi1/0/1") # Compare routing tables diff <(ssh router1 "show ip route") \ <(ssh router2 "show ip route")

二. 在解决问题中的文件

相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相

排除出問題樣本

Issue ID: TICKET-12345 Date/Time: 2026-02-02 14:30 UTC Reported By: Jane Smith (jane.smith@company.com) Affected Users: ~50 users in Building A, 3rd floor Symptom: Cannot access file server \\fileserver01 Initial Observations: - Issue started around 14:00 UTC - Only affects Building A, 3rd floor - Other buildings can access fileserver01 - Ping to fileserver01 (10.1.50.10) times out from affected users - Ping to default gateway (10.1.30.1) succeeds Tests Performed: 1. [14:35] Checked switch port status: gi1/0/15 is UP/UP 2. [14:38] Checked VLAN assignment: Port is in VLAN 30 (correct) 3. [14:42] Checked interface errors: 1,234 CRC errors on gi1/0/15 4. [14:45] Replaced patch cable - still seeing CRC errors 5. [14:50] Moved uplink to different port (gi1/0/16) - errors persist 6. [14:55] Checked fiber cleanliness - dirty connector found Root Cause: Dirty fiber connector on uplink between Building A floor switch and distribution switch causing CRC errors and packet loss Resolution: Cleaned fiber connector with proper cleaning kit. CRC errors dropped to zero. File server access restored. Verification: Users confirmed file server accessible. Monitored for 15 minutes with no errors. Time to Resolution: 25 minutes
2. 为啥文件要事:

真實世界案例研究

第1作: “網路很慢”(實際上: TCP Window Expertion)

有症状

數據庫應用回應時間由 < 100ms 退化至 5+ 秒. 有應用程式被指為"網絡空間"

(出錯)

二. 诊断程序

  1. 平按:
  2. Bandwidth 測試 (iperf) :
  3. 包抓取 :
  4. 伺服器檢查:

根因

Database server OS 緩衝器太小了, 無法用高波段width × 延遲產出 。 TCP 視窗會被填滿,迫使發件人等.

分辨率

# Increased TCP receive buffers on Linux database server sysctl -w net.ipv4.tcp_rmem="4096 87380 16777216" sysctl -w net.core.rmem_max=16777216

所學到的

不要想:

第 二 個相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相通相相通相通相通相通相通相相通相通相通相通相通相通相相相通相通相相通相相相相通相相相相相相相通相通相相相相相相通相相相相相通相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相

Symptom

伺服器接通會隨機地下降, 尤其是下載. 有時候活得不錯 有時完全沒有反應 有時也完全沒有反應

Initial Assumptions (Wrong)

Diagnostic Process

  1. 界面檢查 :
  2. 錯誤分數 :
  3. 相撞后期:

Root Cause

自動谈判失敗 。 伺服器談妥了全相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相相相接相相接相相接相接相接相接相接相接相接相接相接相接相相接相接相相接相接相相相接相接相接相接相接相接相接相接相相接相接相接相接相接相接相相接相相接相接相相相相相相相相相 相撞只會被下載出 在雙方想同時傳輸相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相相相接相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相

Resolution

! Cisco switch - force full duplex interface GigabitEthernet1/0/10 speed 1000 duplex full

Lesson Learned

檢查兩端:

第3個案例:"無法接通某些網站" (實際上:MTU/PMTUD Black Hole)

Symptom

有的用戶可以瀏覽一些網站(Google, Yahoo),有的用戶可以不浏览(銀行網站,公司出入口). 有小的 HTTP 要求已通通了, 有大頁超時了 。

Initial Assumptions (Wrong)

Diagnostic Process

  1. DNS 解析度 :
  2. 平按:
  3. 小的 HTTP 要求 ( curl) :
  4. 有大下載:
  5. MTU 測試:ping -M do -s 1472ping -M do -s 1473
  6. ICMP 監控:

Root Cause

VPN地道把MTU減到1400, 但是防火牆封鎖了 ICMP"需要的破碎"訊息. 路由 MTU Discovery (PMTUD) 無法工作, 產生了 MTU 黑洞 。 有DF相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相相接相接相接相接相接相相接相相相接相相接相接相接相接相接相接相相接相接相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相

Resolution

! Implemented TCP MSS clamping on router interface Tunnel0 ip tcp adjust-mss 1360 ! Alternative: Allow ICMP Type 3 Code 4 through firewall access-list 101 permit icmp any any packet-too-big

Lesson Learned

大小相關:

案例研究 4: VoIP 質量問題 (實際上: QoS 設定錯誤)

Symptom

有相當多的聲音 有間歇地被取出 就出事了 (9: 00-下午5: 00)

Initial Assumptions (Wrong)

Diagnostic Process

  1. Bandwidth 測試 :
  2. QoS 檢查:
  3. 列查:
  4. 包抓取 :

Root Cause

有QoS相關政策, 但相關頻道分配倒了:最佳收視率是60%, 在數據通訊量增加的公用時間, 有聲音被放出,

Resolution

! Corrected QoS policy policy-map WAN-QOS class VOICE priority percent 33 class VIDEO bandwidth percent 25 class CRITICAL-DATA bandwidth percent 20 class class-default bandwidth percent 22

Lesson Learned

有時問題相接:

由 symptom 提供指令參考

有症状 要執行的命令 找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找
沒有連接燈 第1層 show interfaces
ethtool eth0
狀態: 已下行, 有無傳送器, 有線已取出
套件損失 第1/2層 show interfaces
show interfaces counters errors
CRC 錯誤 矮子 巨子相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相接相撞相接相接相接相接相接相接相接相接相接相接相接相接相接相接相相接相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相
不能接通出入口 第2層 arp -a
show mac address-table
show spanning-tree
沒有 ARP 項目, MAC 未學取, STP 有阻擋
無法接通遠端子網 第3層 traceroute
show ip route
show ip route summary
找不到路由, 下一個跳錯, 路由回路
連接被拒絕 第4層 telnet host port
netstat -an
tcpdump
服務不聽取 防火牆區塊 TCP RST
慢效 第4層+ ping (RTT)
iperf3
tcpdump
show interfaces
有高空相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相相接相相接相接相相相相接相接相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相
無法解析主機名 第7層 nslookup
dig
cat /etc/resolv.conf
DNS 伺服器無法取用, 錯誤的 DNS 配置, NXDOMAIN
中斷滴出 Layer 1/2 ping -f (flood)
show logging
show interfaces
二相不匹配, 有線已失敗, STP 重複
有時候有活活活活活活活活活活活活活活活活活活活活活 多重 Extended ping
Packet capture
Interface statistics
載入平衡相關問題 ECMP相對相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相相相相相關相關相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相

何时去取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取取回取取取取取取取取

有時候可以升入出品商或高級工程師 在 :

在加速前:

建立你的個人知識基地

有機會去取出出事端了 建立個人知識基礎:

1. 建立"找事找事"期刊

# Example structure ~/troubleshooting-journal/ ├── 2026-01-15-duplex-mismatch.md ├── 2026-01-22-mtu-black-hole.md ├── 2026-02-02-tcp-window-exhaustion.md └── README.md # Index of all issues # Each file contains: # - Symptom # - Diagnostic steps # - Root cause # - Resolution # - Lessons learned # - Related tickets/documentation

2. 建立通訊錄

在排除出故障后用來快速參考 。

3. 文件网络

有相關相關相關的相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相相關相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相

(出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出自"出"出自"出自"出自"出自"出

在不理解問題而改變相關設定后,

就當網絡總是出錯了

“ 網路問題” 通常是應用程式、 伺服器或客戶端問題 。 在接受指責前先收集證據

跳出紀錄相關的腳步

你會浪費時間再做你已經做過的測試 或者無法向同僚解釋你所試取的

忽略間歇性問題:

相接而至的問題也相當相當相當相當相當相關, 在被批判前去調查他們

(取而代之)

重啟裝置可能會恢復服務, 但是如果你不知道為什麼需要重啟, 就再出問題了.

摘要:系统性的解决问题核对表

在您開始前

在出事出事中

在解析后

第 二 部 分

在網路上找麻煩是科學和藝術相關 科學正遵循有系統的方法, 正确地使用诊断工具并理解協議。 有相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相相相關相關相關相相關相關相相相關相相相關相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相

透過OSI模式有条不紊地工作, 記錄您所走的步子并學取每出一出事,

記住:


作者: Baud9600技術團隊