Phương pháp khắc phục sự cố mạng - Phương pháp tiếp cận có hệ thống

h1 { color: #2c3e50; border-bottom: 3px solid #3498db; padding-bottom: 15px; margin-bottom: 30px; } h2 { color: #2c3e50; margin-top: 40px; margin-bottom: 20px; border-left: 5px solid #3498db; padding-left: 15px; } h3 { color: #34495e; margin-top: 30px; margin-bottom: 15px; } .intro-box { background: linear-gradient(135deg, #667eea 0%, #764ba2 100%); color: white; padding: 30px; border-radius: 12px; margin-bottom: 30px; } .intro-box h2 { color: white; border: none; margin-top: 0; } .warning-box { background: #fff3cd; border-left: 5px solid #ffc107; padding: 20px; margin: 25px 0; border-radius: 6px; } .info-box { background: #d1ecf1; border-left: 5px solid #17a2b8; padding: 20px; margin: 25px 0; border-radius: 6px; } .success-box { background: #d4edda; border-left: 5px solid #28a745; padding: 20px; margin: 25px 0; border-radius: 6px; } .danger-box { background: #f8d7da; border-left: 5px solid #dc3545; padding: 20px; margin: 25px 0; border-radius: 6px; } .flowchart { background: #f8f9fa; padding: 30px; border-radius: 12px; margin: 30px 0; border: 2px solid #dee2e6; } .flowchart-step { background: white; border: 2px solid #3498db; padding: 20px; margin: 15px 0; border-radius: 8px; position: relative; } .flowchart-step.decision { border-color: #e74c3c; background: #fee; } .flowchart-step.success { border-color: #27ae60; background: #efe; } .flowchart-arrow { text-align: center; font-size: 24px; color: #3498db; margin: 10px 0; } .command-box { background: #2d2d2d; color: #f8f8f2; padding: 20px; border-radius: 8px; font-family: 'Courier New', monospace; overflow-x: auto; margin: 20px 0; } .command-box code { color: #f8f8f2; } table { width: 100%; border-collapse: collapse; margin: 25px 0; } th, td { padding: 12px; text-align: left; border: 1px solid #dee2e6; } th { background: linear-gradient(135deg, #667eea 0%, #764ba2 100%); color: white; font-weight: 600; } tr:nth-child(even) { background: #f8f9fa; } .case-study { background: #f8f9fa; border-radius: 12px; padding: 25px; margin: 30px 0; border-left: 5px solid #3498db; } .case-study h3 { color: #3498db; margin-top: 0; } .checklist { list-style: none; padding: 0; } .checklist li { padding: 10px 10px 10px 35px; margin: 8px 0; background: #f8f9fa; border-radius: 6px; position: relative; } .checklist li:before { content: '✓'; position: absolute; left: 10px; color: #28a745; font-weight: bold; font-size: 18px; } .tip-box { background: #e7f3ff; border-left: 5px solid #2196F3; padding: 20px; margin: 25px 0; border-radius: 6px; } .tip-box strong { color: #2196F3; }

Phương pháp khắc phục sự cố mạng: Phương pháp tiếp cận có hệ thống

Tại sao phương pháp lại quan trọng

Vấn đề:Ứng dụng cơ sở dữ liệu "chậm". Nhóm mạng đổ lỗi cho nhóm máy chủ. Nhóm máy chủ đổ lỗi cho mạng. Trong khi đó, người dùng lại cảm thấy thất vọng và lãng phí hàng giờ đồng hồ trong việc gỡ lỗi vòng tròn.

Giải pháp:Một cách tiếp cận khoa học, có hệ thống để khắc phục sự cố sử dụng bằng chứng chứ không phải giả định để xác định nguyên nhân gốc rễ.

Chi phí cho việc khắc phục sự cố ngẫu nhiên:Lãng phí thời gian, sửa lỗi không chính xác che giấu các vấn đề thực sự, chỉ trích giữa các nhóm và trải nghiệm người dùng bị suy giảm.

Giới thiệu: Phương pháp khoa học được áp dụng vào mạng

Xử lý sự cố mạng về cơ bản là một bài tập theo phương pháp khoa học:

  1. Quan sátcác triệu chứng và thu thập dữ liệu
  2. Hình thành một giả thuyếtvề nguyên nhân gốc rễ
  3. Kiểm tra giả thuyếtvới các công cụ chẩn đoán
  4. Phân tích kết quảvà xác nhận hoặc bác bỏ giả thuyết
  5. Thực hiện sửa lỗidựa trên nguyên nhân gốc rễ đã được xác nhận
  6. Xác minhvấn đề đã được giải quyết

Bài viết này cung cấp một khung có cấu trúc để khắc phục sự cố mạng nhằm ngăn ngừa các lỗi phổ biến như:

  • Thiên kiến ​​xác nhận (chỉ tìm kiếm bằng chứng hỗ trợ cho dự đoán ban đầu của bạn)
  • Những thay đổi ngẫu nhiên mà không cần chẩn đoán (phương pháp "phun và cầu nguyện")
  • Khắc phục triệu chứng thay vì nguyên nhân gốc rễ
  • Gỡ lỗi vòng tròn mà không ghi lại những gì đã được thử

Năm câu hỏi chính

Trước khi đi sâu vào chẩn đoán kỹ thuật, hãy trả lời năm câu hỏi quan trọng sau để thu hẹp phạm vi điều tra của bạn:

Câu hỏi 1: Điều gì đã thay đổi gần đây?

Thay đổi cấu hình? Phần cứng mới? Cập nhật phần mềm? Sửa đổi cấu trúc liên kết?

  • Kiểm tra nhật ký quản lý thay đổi
  • Xem lại các cam kết gần đây trong hệ thống quản lý cấu hình
  • Hỏi: "Hôm qua nó có hoạt động không?"
Câu hỏi 2: Ai bị ảnh hưởng?

Một người dùng? Một tòa nhà? Mọi người? Chỉ ứng dụng cụ thể?

  • Một thiết bị:Có thể là sự cố cục bộ (NIC, cáp, cấu hình)
  • Một mạng con:Sự cố về cổng, DHCP hoặc chuyển mạch
  • Mọi người:Cơ sở hạ tầng cốt lõi, ISP hoặc sự cố phổ biến
  • Ứng dụng cụ thể:Máy chủ ứng dụng, quy tắc tường lửa hoặc DNS
Câu hỏi 3: Nó liên tục hay không liên tục?

Xảy ra mọi lúc? Chỉ trong những giờ nhất định? Sự xuất hiện ngẫu nhiên?

  • Không thay đổi:Lỗi cứng (cắt cáp, cấu hình sai, dịch vụ ngừng hoạt động)
  • Dựa trên thời gian:Tắc nghẽn trong giờ làm việc, quy trình theo lịch trình
  • Không liên tục/ngẫu nhiên:Hai mặt không khớp, lỗi phần cứng, liên kết không liên tục
Câu hỏi 4: Bạn có thể tái tạo nó không?

Bạn có thể kích hoạt vấn đề theo yêu cầu không?

  • Đúng:Dễ chẩn đoán hơn nhiều (có thể kiểm tra các giả thuyết)
  • KHÔNG:Thiết lập giám sát/ghi nhật ký và chờ tái phát
Câu hỏi 5: Bên kia nhìn thấy gì?

Kiểm tra cả hai đầu của kết nối

  • Phối cảnh máy khách so với phối cảnh máy chủ
  • Chụp gói tại nguồn và đích
  • Định tuyến không đối xứng? Các đường dẫn khác nhau để gửi và nhận?

Phương pháp chẩn đoán dựa trên mô hình OSI

Mô hình OSI cung cấp một khung có cấu trúc để khắc phục sự cố. Hoạt động từ Lớp 1 (Vật lý) trở lên hoặc từ Lớp 7 (Ứng dụng) trở xuống, tùy thuộc vào triệu chứng.

Phương pháp tiếp cận từ dưới lên (Lớp 1 → Lớp 7)

Khi nào nên sử dụng:Mất kết nối hoàn toàn, không có đèn liên kết hoặc các triệu chứng ở lớp vật lý

Lớp 1: Vật lý
  • Kiểm tra: Đã kết nối cáp chưa? Đèn liên kết có sáng không? Chất xơ sạch?
  • Lệnh:show interfaces, ethtool eth0
  • Tìm kiếm: lỗi CRC, va chạm, va chạm muộn, runt, khổng lồ
Lớp 2: Liên kết dữ liệu
  • Kiểm tra: VLAN có đúng không? Đã bật cổng? Chặn STP?
  • Lệnh:show mac address-table, show spanning-tree
  • Tìm kiếm: lỗi MAC, thay đổi cấu trúc liên kết STP, Vlan không khớp
Lớp 3: Mạng
  • Kiểm tra: Có thể ping cổng mặc định không? Bảng định tuyến có đúng không?
  • Lệnh:ping, traceroute, show ip route
  • Tìm kiếm: Thiếu tuyến đường, bước nhảy tiếp theo không chính xác, vòng lặp định tuyến
Lớp 4: Vận chuyển
  • Kiểm tra: Có thể thiết lập kết nối TCP không? Cổng chặn tường lửa?
  • Lệnh:telnet host port, netstat -an, chụp gói
  • Tìm kiếm: truyền lại TCP, không có cửa sổ, gói RST
Lớp 5-7: Phiên/Trình bày/Ứng dụng
  • Kiểm tra: Đang phân giải DNS? Ứng dụng phản hồi? Xác thực có hoạt động không?
  • Lệnh:nslookup, dig, curl -v
  • Tìm kiếm: lỗi DNS, lỗi ứng dụng, vấn đề hết thời gian chờ

Cách tiếp cận từ trên xuống (Lớp 7 → Lớp 1)

Khi nào nên sử dụng:Các sự cố dành riêng cho ứng dụng nơi tồn tại kết nối cơ bản

Ví dụ:"Tôi có thể duyệt Internet nhưng không thể truy cập trang SharePoint của công ty."

Bắt đầu ở Lớp 7 (Dịch vụ SharePoint có đang chạy không? DNS đang phân giải để sửa IP?) và chỉ hoạt động trở lại nếu cần.

Cây quyết định: Đây là lớp 1, 2 hay 3?

Sử dụng cây chẩn đoán nhanh này để xác định lớp nào bị lỗi:

Bạn có thể ping localhost (127.0.0.1) không?
↓ KHÔNG
Sự cố: Sự cố về hệ điều hành / phần mềm

Ngăn xếp TCP/IP không hoạt động. Kiểm tra dịch vụ hệ điều hành, cài đặt lại trình điều khiển mạng.

↓ CÓ
Bạn có thể ping địa chỉ IP của chính mình không?
↓ KHÔNG
Vấn đề: Lớp 1/2 - Giao diện mạng cục bộ

NIC bị vô hiệu hóa, sai driver, rút ​​cáp. Kiểm tra:ip link showhoặc Trình quản lý thiết bị

↓ CÓ
Bạn có thể ping cổng mặc định không?
↓ KHÔNG
Vấn đề: Lớp 1/2 - Mạng cục bộ

Kiểm tra: Cáp vật lý, trạng thái cổng switch, gán VLAN, bảng ARP

↓ CÓ
Bạn có thể ping máy chủ từ xa bằng địa chỉ IP không?
↓ KHÔNG
Vấn đề: Lớp 3 - Định tuyến

Kiểm tra: Bảng định tuyến, quy tắc tường lửa, ACL. Sử dụngtracerouteđể tìm nơi gói tin dừng lại

↓ CÓ
Bạn có thể phân giải DNS (tên máy chủ nslookup) không?
↓ KHÔNG
Sự cố: Cấu hình DNS

Kiểm tra: cài đặt máy chủ DNS, tính khả dụng của máy chủ DNS, cổng chặn tường lửa 53

↓ CÓ
Bạn có thể truy cập cổng ứng dụng (cổng máy chủ telnet) không?
↓ KHÔNG
Vấn đề: Tường lửa/Chặn cổng

Kiểm tra: Quy tắc tường lửa, nhóm bảo mật, dịch vụ nghe trên cổng

↓ CÓ
Mạng vẫn ổn - Sự cố ở lớp ứng dụng

Sự cố xảy ra với chính ứng dụng, xác thực hoặc cấu hình ứng dụng

Kỹ thuật cô lập

Khi bạn có một giả thuyết về nguyên nhân gốc rễ, hãy sử dụng các kỹ thuật tách biệt sau để xác nhận hoặc bác bỏ nó:

1. Thay thế linh kiện một cách có hệ thống

Mẹo:Thay đổi MỘT biến tại một thời điểm. Nếu bạn đổi cả cáp VÀ cổng switch, bạn sẽ không biết cái nào đã sửa được.
  • Trao đổi cáp vá bằng cáp nổi tiếng
  • Kiểm tra trên cổng chuyển đổi khác nhau
  • Hãy thử NIC khác (hoặc bộ điều hợp mạng USB)
  • Kiểm tra từ thiết bị khách khác nhau
  • Di chuyển đến VLAN/mạng con khác

2. Chụp gói tại nhiều điểm

Nắm bắt lưu lượng truy cập tại nguồn, điểm trung gian và đích để xác định nơi gói bị loại bỏ hoặc sửa đổi:

# Capture on client tcpdump -i eth0 -w client.pcap host server.example.com # Capture on server tcpdump -i eth0 -w server.pcap host client.example.com # Compare: # - Do packets leave client? (check client.pcap) # - Do packets arrive at server? (check server.pcap) # - If yes/no: problem is in the path between # - If yes/yes but server doesn't respond: server-side issue

3. Kiểm tra vòng lặp

Loại bỏ các biến bên ngoài bằng cách kiểm tra khả năng kết nối trong một thiết bị:

# Test TCP stack without network ping 127.0.0.1 # Test application listening locally telnet localhost 80 # Test loopback on network interface (if supported) # Some NICs support physical loopback for Layer 1 testing

4. So sánh đường cơ sở được biết đến là tốt

So sánh cấu hình và hành vi với một hệ thống đang hoạt động:

# Compare interface settings diff <(ssh working-switch "show run int gi1/0/1") \ <(ssh broken-switch "show run int gi1/0/1") # Compare routing tables diff <(ssh router1 "show ip route") \ <(ssh router2 "show ip route")

Tài liệu trong quá trình khắc phục sự cố

Tài liệu phù hợp sẽ ngăn chặn việc gỡ lỗi vòng tròn khi bạn thử cùng một thứ nhiều lần mà không nhận ra.

Mẫu khắc phục sự cố

ID phát hành: TICKET-12345 Ngày/Giờ: 2026-02-02 14:30 UTC Báo cáo bởi: Jane Smith (jane.smith@company.com) Người dùng bị ảnh hưởng: ~50 users in Building A, 3rd floor Triệu chứng: Cannot access file server \\fileserver01 Quan sát ban đầu: - Issue started around 14:00 UTC - Only affects Building A, 3rd floor - Other buildings can access fileserver01 - Ping to fileserver01 (10.1.50.10) times out from affected users - Ping to default gateway (10.1.30.1) succeeds Các thử nghiệm được thực hiện: 1. [14:35] Checked switch port status: gi1/0/15 is UP/UP 2. [14:38] Checked VLAN assignment: Port is in VLAN 30 (correct) 3. [14:42] Checked interface errors: 1,234 CRC errors on gi1/0/15 4. [14:45] Replaced patch cable - still seeing CRC errors 5. [14:50] Moved uplink to different port (gi1/0/16) - errors persist 6. [14:55] Checked fiber cleanliness - dirty connector found Nguyên nhân gốc rễ: Dirty fiber connector on uplink between Building A floor switch and distribution switch causing CRC errors and packet loss Nghị quyết: Cleaned fiber connector with proper cleaning kit. CRC errors dropped to zero. File server access restored. Xác minh: Users confirmed file server accessible. Monitored for 15 minutes with no errors. Thời gian để giải quyết: 25 minutes
Tại sao tài liệu lại quan trọng:Nếu không có bản ghi này, lần sau khi ai đó nhìn thấy lỗi CRC trên switch đó, họ có thể lãng phí thời gian thay cáp và kiểm tra cổng thay vì kiểm tra ngay độ sạch của sợi quang.

Nghiên cứu trường hợp thực tế

Nghiên cứu điển hình 1: "Mạng chậm" (Thực tế là: Hết cửa sổ TCP)

triệu chứng

Thời gian phản hồi của ứng dụng cơ sở dữ liệu giảm từ <100 mili giây xuống còn hơn 5 giây. Nhóm ứng dụng đổ lỗi cho "độ trễ mạng".

Giả định ban đầu (Sai)

  • Tắc nghẽn mạng
  • Liên kết WAN bão hòa
  • Tắc nghẽn tường lửa

Quá trình chẩn đoán

  1. Kiểm tra ping:RTT = 2ms (rất tốt, loại trừ độ trễ của Lớp 3)
  2. Kiểm tra băng thông (iperf):950 Mbps trên liên kết 1 Gbps (không tắc nghẽn)
  3. Chụp gói:Các gói TCP Zero Window được tiết lộ từ máy chủ cơ sở dữ liệu
  4. Kiểm tra máy chủ:Máy chủ cơ sở dữ liệu nhận bộ đệm = 64KB (nhỏ!)

Nguyên nhân gốc rễ

Bộ đệm hệ điều hành của máy chủ cơ sở dữ liệu quá nhỏ đối với sản phẩm có độ trễ băng thông cao ×. Cửa sổ TCP sẽ lấp đầy, buộc người gửi phải chờ.

Nghị quyết

# Increased TCP receive buffers on Linux database server sysctl -w net.ipv4.tcp_rmem="4096 87380 16777216" sysctl -w net.core.rmem_max=16777216

Bài học rút ra

Đừng cho rằng:"Chậm" không phải lúc nào cũng có nghĩa là "độ trễ mạng". Luôn thu thập bằng chứng (ping để biết độ trễ, chụp gói để biết hành vi) trước khi đưa ra kết luận.

Nghiên cứu điển hình 2: Kết nối không liên tục (Thực tế là: Không khớp song công)

triệu chứng

Kết nối máy chủ sẽ bị ngắt ngẫu nhiên, đặc biệt là khi đang tải. Đôi khi hoạt động tốt, đôi khi hoàn toàn không phản hồi.

Giả định ban đầu (Sai)

  • NIC không thành công
  • Cáp xấu
  • Chuyển đổi vấn đề phần cứng

Quá trình chẩn đoán

  1. Kiểm tra giao diện:NIC máy chủ = 1000/Đầy đủ, Cổng chuyển đổi = 1000/Một nửa (không khớp!)
  2. Bộ đếm lỗi:Số lượng va chạm lớn trên cổng switch
  3. Va chạm muộn:Chỉ báo về sự không khớp song công

Nguyên nhân gốc rễ

Tự động thương lượng không thành công. Máy chủ đã đàm phán chế độ song công hoàn toàn, bộ chuyển mạch chuyển sang chế độ bán song công. Xung đột chỉ xảy ra khi có tải khi cả hai bên cố gắng truyền đồng thời.

Nghị quyết

! Cisco switch - force full duplex interface GigabitEthernet1/0/10 speed 1000 duplex full

Bài học rút ra

Kiểm tra cả hai đầu:Trạng thái giao diện hiển thị các cài đặt đã thương lượng. Không khớp có nghĩa là tự động thương lượng không thành công. Luôn mã hóa tốc độ/song công cho máy chủ.

Nghiên cứu điển hình 3: "Không thể truy cập một số trang web nhất định" (Thực tế là: Lỗ đen MTU/PMTUD)

triệu chứng

Người dùng có thể duyệt một số trang web (Google, Yahoo) nhưng không thể duyệt các trang web khác (trang web ngân hàng, cổng thông tin công ty). Các yêu cầu HTTP nhỏ đã hoạt động, các trang lớn đã hết thời gian chờ.

Giả định ban đầu (Sai)

  • sự cố DNS
  • Tường lửa chặn các trang web cụ thể
  • Vấn đề định tuyến của ISP

Quá trình chẩn đoán

  1. Độ phân giải DNS:Hoạt động tốt cho tất cả các trang web
  2. Kiểm tra ping:Có thể ping các trang web "không thể truy cập"
  3. Yêu cầu HTTP nhỏ (curl):Hoạt động cho các trang nhỏ
  4. Tải xuống lớn:Đình trệ sau khi bắt tay TCP
  5. Kiểm tra MTU: ping -M do -s 1472thành công,ping -M do -s 1473thất bại
  6. Giám sát ICMP:Không nhận được thông báo "Cần phân mảnh" (Loại 3 Mã 4)

Nguyên nhân gốc rễ

Đường hầm VPN đã giảm MTU xuống 1400, nhưng tường lửa đang chặn thông báo "Cần phân mảnh" ICMP. Path MTU Discovery (PMTUD) không thể hoạt động, tạo ra lỗ đen MTU. Các gói nhỏ phù hợp, các gói lớn với bộ bit DF bị loại bỏ một cách âm thầm.

Nghị quyết

! Implemented TCP MSS clamping on router interface Tunnel0 ip tcp adjust-mss 1360 ! Alternative: Allow ICMP Type 3 Code 4 through firewall access-list 101 permit icmp any any packet-too-big

Bài học rút ra

Vấn đề kích thước:Nếu các yêu cầu nhỏ hoạt động nhưng chuyển khoản lớn không thành công, hãy nghi ngờ vấn đề MTU/phân mảnh. Sử dụng ping với bit DF để kiểm tra đường dẫn MTU.

Nghiên cứu điển hình 4: Các vấn đề về chất lượng VoIP (Thực tế là: Cấu hình sai QoS)

triệu chứng

Cuộc gọi thoại có âm thanh bị giật, ngắt quãng không liên tục. Chỉ diễn ra trong giờ làm việc (9 giờ sáng - 5 giờ chiều).

Giả định ban đầu (Sai)

  • Băng thông không đủ
  • Máy chủ VoIP bị quá tải
  • Chất lượng kết nối ISP

Quá trình chẩn đoán

  1. Kiểm tra băng thông:Liên kết chỉ được sử dụng 40% trong giờ bận rộn
  2. Kiểm tra QoS:Lưu lượng thoại được đánh dấu bằng DSCP EF (46) chính xác
  3. Kiểm tra hàng đợi:Hàng đợi thoại chỉ được phân bổ băng thông 5% (phải là 33%)
  4. Chụp gói:Gói thoại bị rớt khi tắc nghẽn

Nguyên nhân gốc rễ

Chính sách QoS đã tồn tại nhưng việc phân bổ băng thông bị ngược: nỗ lực tối đa đạt 60%, thoại đạt 5%. Trong giờ làm việc khi lưu lượng dữ liệu tăng lên, các gói thoại bị rớt do tràn hàng đợi.

Nghị quyết

! Corrected QoS policy policy-map WAN-QOS class VOICE priority percent 33 class VIDEO bandwidth percent 25 class CRITICAL-DATA bandwidth percent 20 class class-default bandwidth percent 22

Bài học rút ra

Các vấn đề dựa trên thời gian = năng lực:Nếu sự cố chỉ xảy ra trong giờ bận rộn thì đó không phải là lỗi cứng mà là vấn đề về dung lượng/QoS. Kiểm tra số liệu thống kê hàng đợi, không chỉ tổng băng thông.

Tham chiếu lệnh theo triệu chứng

triệu chứng Lớp Các lệnh để chạy Những gì cần tìm
Không có đèn liên kết Lớp 1 show interfaces
ethtool eth0
Tình trạng: không có sóng mang, chưa cắm cáp
Mất gói Lớp 1/2 show interfaces
show interfaces counters errors
Lỗi CRC, runt, khổng lồ, va chạm, va chạm muộn
Không thể ping cổng Lớp 2 arp -a
show mac address-table
show spanning-tree
Không có mục nhập ARP, MAC không được học, chặn STP
Không thể truy cập mạng con từ xa Lớp 3 traceroute
show ip route
show ip route summary
Thiếu tuyến, sai bước nhảy tiếp theo, vòng lặp định tuyến
Kết nối bị từ chối Lớp 4 telnet host port
netstat -an
tcpdump
Dịch vụ không lắng nghe, chặn tường lửa, TCP RST
Hiệu suất chậm Lớp 4+ ping (RTT)
iperf3
tcpdump
show interfaces
Độ trễ cao, giới hạn băng thông, truyền lại TCP, không có cửa sổ
Không thể phân giải tên máy chủ Lớp 7 nslookup
dig
cat /etc/resolv.conf
Máy chủ DNS không thể truy cập được, cấu hình DNS sai, NXDOMAIN
Giọt không liên tục Lớp 1/2 ping -f (flood)
show logging
show interfaces
Song công không khớp, lỗi cáp, tái hội tụ STP
Đôi khi hoạt động, không phải những người khác Nhiều Extended ping
Packet capture
Interface statistics
Vấn đề cân bằng tải, ECMP không đối xứng, tràn bảng trạng thái

Khi nào nên leo thang

Biết khi nào cần chuyển lên TAC của nhà cung cấp hoặc kỹ sư cấp cao. Nâng cao khi:

  • Bạn đã thực hiện xong tất cả các bước khắc phục sự cố trong cơ sở kiến ​​thức của mình
  • Sự cố yêu cầu quyền truy cập/quyền mà bạn không có
  • Sự cố liên quan đến lỗi phần mềm của nhà cung cấp hoặc lỗi phần cứng
  • Tác động kinh doanh là rất quan trọng và nhạy cảm về thời gian
  • Nhiều nhóm cần cộng tác (ứng dụng + mạng + máy chủ)
Trước khi leo thang:Ghi lại mọi thứ bạn đã thử. Các kỹ sư của TAC cần thông tin này để tránh lặp lại các bước của bạn. Bao gồm:
  • Mô tả triệu chứng đầy đủ
  • Dòng thời gian khi vấn đề bắt đầu
  • Lệnh chẩn đoán chạy và đầu ra của chúng
  • Sao lưu cấu hình
  • Chụp gói (nếu có liên quan)
  • Những gì bạn đã thử

Xây dựng cơ sở kiến ​​thức cá nhân của bạn

Mỗi phiên khắc phục sự cố là một cơ hội học tập. Xây dựng nền tảng kiến ​​thức cá nhân:

1. Tạo nhật ký khắc phục sự cố

# Example structure ~/troubleshooting-journal/ ├── 2026-01-15-duplex-mismatch.md ├── 2026-01-22-mtu-black-hole.md ├── 2026-02-02-tcp-window-exhaustion.md └── README.md # Index of all issues # Each file contains: # - Symptom # - Diagnostic steps # - Root cause # - Resolution # - Lessons learned # - Related tickets/documentation

2. Xây dựng bảng ghi lệnh

Sắp xếp các lệnh thường dùng theo kịch bản để tham khảo nhanh trong quá trình khắc phục sự cố.

3. Ghi lại mạng của bạn

  • Sơ đồ cấu trúc liên kết (Lớp 2 và Lớp 3)
  • Tài liệu sơ đồ địa chỉ IP
  • Bài tập Vlan
  • Cấu hình tiêu chuẩn (mẫu)
  • Đường cơ sở đã biết tốt (thống kê giao diện trước khi xảy ra sự cố)

Những kiểu chống đối phổ biến cần tránh

❌ KHÔNG: Thực hiện các thay đổi ngẫu nhiên mà không có chẩn đoán

Thay đổi cấu hình mà không hiểu rõ vấn đề thường khiến mọi việc trở nên tồi tệ hơn hoặc che giấu vấn đề thực sự.

❌ KHÔNG NÊN: Giả sử mạng luôn có lỗi

Thông thường "sự cố mạng" là sự cố phía ứng dụng, máy chủ hoặc phía máy khách. Thu thập bằng chứng trước khi nhận lỗi.

❌ KHÔNG NÊN: Bỏ qua việc ghi lại các bước khắc phục sự cố của bạn

Bạn sẽ lãng phí thời gian lặp lại các bài kiểm tra bạn đã làm hoặc không thể giải thích cho đồng nghiệp những gì bạn đã thử.

❌ KHÔNG: Bỏ qua các vấn đề không liên tục

Các vấn đề không liên tục thường là dấu hiệu cảnh báo sớm về sự cố sắp xảy ra. Hãy điều tra chúng trước khi chúng trở nên quan trọng.

❌ KHÔNG: Khắc phục triệu chứng thay vì nguyên nhân gốc rễ

Việc khởi động lại thiết bị có thể khôi phục dịch vụ, nhưng nếu bạn không tìm ra TẠI SAO thiết bị cần khởi động lại thì sự cố sẽ tái diễn.

Tóm tắt: Danh sách kiểm tra khắc phục sự cố có hệ thống

✓ Trước khi bạn bắt đầu

  • Trả lời năm câu hỏi chính (Điều gì đã thay đổi? Ai bị ảnh hưởng? Liên tục hay không liên tục? Có thể tái tạo? Bên kia thấy gì?)
  • Thu thập các triệu chứng ban đầu và báo cáo của người dùng
  • Kiểm tra những thay đổi hoặc bảo trì gần đây

✓ Trong quá trình khắc phục sự cố

  • Làm việc có phương pháp thông qua các lớp OSI (từ dưới lên hoặc từ trên xuống)
  • Thay đổi MỘT biến tại một thời điểm khi kiểm tra
  • Ghi lại mọi bài kiểm tra và kết quả của nó
  • Sử dụng tính năng chụp gói để xem hành vi lưu lượng truy cập thực tế
  • So sánh với các đường cơ sở đã biết là tốt

✓ Sau khi giải quyết

  • Xác minh bản sửa lỗi thực sự đã giải quyết được sự cố
  • Nguyên nhân gốc rễ của tài liệu và cách giải quyết
  • Cập nhật cơ sở kiến ​​thức của bạn
  • Nếu cấu hình thay đổi, hãy cập nhật tài liệu
  • Hãy cân nhắc: Liệu hoạt động giám sát có phát hiện được điều này sớm hơn không?

Phần kết luận

Xử lý sự cố mạng vừa là khoa học vừa là nghệ thuật. Khoa học đang tuân theo một phương pháp có hệ thống, sử dụng các công cụ chẩn đoán một cách chính xác và hiểu rõ các quy trình. Nghệ thuật là biết nên chạy thử nghiệm nào trước tiên dựa trên các triệu chứng, nhận ra các mẫu từ kinh nghiệm và biết khi nào cần tiến hành.

Bằng cách làm theo cách tiếp cận có hệ thống được nêu trong bài viết này—đặt câu hỏi phù hợp, làm việc một cách có phương pháp thông qua mô hình OSI, ghi lại các bước của bạn và học hỏi từ từng vấn đề—bạn sẽ khắc phục sự cố hiệu quả hơn và tránh được những cạm bẫy phổ biến dẫn đến lãng phí thời gian và cách khắc phục không chính xác.

Nhớ:Mục tiêu không chỉ là khôi phục dịch vụ mà còn là hiểu TẠI SAO dịch vụ đó không thành công để bạn có thể ngăn điều đó xảy ra lần nữa.


Cập nhật lần cuối: Ngày 2 tháng 2 năm 2026 | Tác giả: Đội ngũ kỹ thuật Baud9600