.. title: Phương pháp khắc phục sự cố mạng - Phương pháp tiếp cận có hệ thống .. sên: phương pháp xử lý sự cố mạng .. ngày: 2026-02-02 18:00:00 UTC .. tags: mạng, xử lý sự cố, phương pháp, chẩn đoán .. chuyên mục: bài viết .. liên kết: .. mô tả: Một cách tiếp cận khoa học, có hệ thống để khắc phục sự cố mạng nhằm ngăn ngừa lãng phí thời gian và các bản sửa lỗi không chính xác .. loại: văn bản
Vấn đề:Ứng dụng cơ sở dữ liệu "chậm". Nhóm mạng đổ lỗi cho nhóm máy chủ. Nhóm máy chủ đổ lỗi cho mạng. Trong khi đó, người dùng lại cảm thấy thất vọng và lãng phí hàng giờ đồng hồ trong việc gỡ lỗi vòng tròn.
Giải pháp:Một cách tiếp cận khoa học, có hệ thống để khắc phục sự cố sử dụng bằng chứng chứ không phải giả định để xác định nguyên nhân gốc rễ.
Chi phí cho việc khắc phục sự cố ngẫu nhiên:Lãng phí thời gian, sửa lỗi không chính xác che giấu các vấn đề thực sự, chỉ trích giữa các nhóm và trải nghiệm người dùng bị suy giảm.
Xử lý sự cố mạng về cơ bản là một bài tập theo phương pháp khoa học:
Bài viết này cung cấp một khung có cấu trúc để khắc phục sự cố mạng nhằm ngăn ngừa các lỗi phổ biến như:
Trước khi đi sâu vào chẩn đoán kỹ thuật, hãy trả lời năm câu hỏi quan trọng sau để thu hẹp phạm vi điều tra của bạn:
Thay đổi cấu hình? Phần cứng mới? Cập nhật phần mềm? Sửa đổi cấu trúc liên kết?
Một người dùng? Một tòa nhà? Mọi người? Chỉ ứng dụng cụ thể?
Xảy ra mọi lúc? Chỉ trong những giờ nhất định? Sự xuất hiện ngẫu nhiên?
Bạn có thể kích hoạt vấn đề theo yêu cầu không?
Kiểm tra cả hai đầu của kết nối
Mô hình OSI cung cấp một khung có cấu trúc để khắc phục sự cố. Hoạt động từ Lớp 1 (Vật lý) trở lên hoặc từ Lớp 7 (Ứng dụng) trở xuống, tùy thuộc vào triệu chứng.
Khi nào nên sử dụng:Mất kết nối hoàn toàn, không có đèn liên kết hoặc các triệu chứng ở lớp vật lý
show interfaces, ethtool eth0show mac address-table, show spanning-treeping, traceroute, show ip routetelnet host port, netstat -an, chụp góinslookup, dig, curl -vKhi nào nên sử dụng:Các sự cố dành riêng cho ứng dụng nơi tồn tại kết nối cơ bản
Bắt đầu ở Lớp 7 (Dịch vụ SharePoint có đang chạy không? DNS đang phân giải để sửa IP?) và chỉ hoạt động trở lại nếu cần.
Sử dụng cây chẩn đoán nhanh này để xác định lớp nào bị lỗi:
Ngăn xếp TCP/IP không hoạt động. Kiểm tra dịch vụ hệ điều hành, cài đặt lại trình điều khiển mạng.
NIC bị vô hiệu hóa, sai driver, rút cáp. Kiểm tra:ip link showhoặc Trình quản lý thiết bị
Kiểm tra: Cáp vật lý, trạng thái cổng switch, gán VLAN, bảng ARP
Kiểm tra: Bảng định tuyến, quy tắc tường lửa, ACL. Sử dụngtracerouteđể tìm nơi gói tin dừng lại
Kiểm tra: cài đặt máy chủ DNS, tính khả dụng của máy chủ DNS, cổng chặn tường lửa 53
Kiểm tra: Quy tắc tường lửa, nhóm bảo mật, dịch vụ nghe trên cổng
Sự cố xảy ra với chính ứng dụng, xác thực hoặc cấu hình ứng dụng
Khi bạn có một giả thuyết về nguyên nhân gốc rễ, hãy sử dụng các kỹ thuật tách biệt sau để xác nhận hoặc bác bỏ nó:
Nắm bắt lưu lượng truy cập tại nguồn, điểm trung gian và đích để xác định nơi gói bị loại bỏ hoặc sửa đổi:
# Capture on client
tcpdump -i eth0 -w client.pcap host server.example.com
# Capture on server
tcpdump -i eth0 -w server.pcap host client.example.com
# Compare:
# - Do packets leave client? (check client.pcap)
# - Do packets arrive at server? (check server.pcap)
# - If yes/no: problem is in the path between
# - If yes/yes but server doesn't respond: server-side issue
Loại bỏ các biến bên ngoài bằng cách kiểm tra khả năng kết nối trong một thiết bị:
# Test TCP stack without network
ping 127.0.0.1
# Test application listening locally
telnet localhost 80
# Test loopback on network interface (if supported)
# Some NICs support physical loopback for Layer 1 testing
So sánh cấu hình và hành vi với một hệ thống đang hoạt động:
# Compare interface settings
diff <(ssh working-switch "show run int gi1/0/1") \
<(ssh broken-switch "show run int gi1/0/1")
# Compare routing tables
diff <(ssh router1 "show ip route") \
<(ssh router2 "show ip route")
Tài liệu phù hợp sẽ ngăn chặn việc gỡ lỗi vòng tròn khi bạn thử cùng một thứ nhiều lần mà không nhận ra.
ID phát hành: TICKET-12345
Ngày/Giờ: 2026-02-02 14:30 UTC
Báo cáo bởi: Jane Smith (jane.smith@company.com)
Người dùng bị ảnh hưởng: ~50 users in Building A, 3rd floor
Triệu chứng: Cannot access file server \\fileserver01
Quan sát ban đầu:
- Issue started around 14:00 UTC
- Only affects Building A, 3rd floor
- Other buildings can access fileserver01
- Ping to fileserver01 (10.1.50.10) times out from affected users
- Ping to default gateway (10.1.30.1) succeeds
Các thử nghiệm được thực hiện:
1. [14:35] Checked switch port status: gi1/0/15 is UP/UP
2. [14:38] Checked VLAN assignment: Port is in VLAN 30 (correct)
3. [14:42] Checked interface errors: 1,234 CRC errors on gi1/0/15
4. [14:45] Replaced patch cable - still seeing CRC errors
5. [14:50] Moved uplink to different port (gi1/0/16) - errors persist
6. [14:55] Checked fiber cleanliness - dirty connector found
Nguyên nhân gốc rễ:
Dirty fiber connector on uplink between Building A floor switch
and distribution switch causing CRC errors and packet loss
Nghị quyết:
Cleaned fiber connector with proper cleaning kit. CRC errors
dropped to zero. File server access restored.
Xác minh:
Users confirmed file server accessible. Monitored for 15 minutes
with no errors.
Thời gian để giải quyết: 25 minutes
Thời gian phản hồi của ứng dụng cơ sở dữ liệu giảm từ <100 mili giây xuống còn hơn 5 giây. Nhóm ứng dụng đổ lỗi cho "độ trễ mạng".
Bộ đệm hệ điều hành của máy chủ cơ sở dữ liệu quá nhỏ đối với sản phẩm có độ trễ băng thông cao ×. Cửa sổ TCP sẽ lấp đầy, buộc người gửi phải chờ.
# Increased TCP receive buffers on Linux database server
sysctl -w net.ipv4.tcp_rmem="4096 87380 16777216"
sysctl -w net.core.rmem_max=16777216
Đừng cho rằng:"Chậm" không phải lúc nào cũng có nghĩa là "độ trễ mạng". Luôn thu thập bằng chứng (ping để biết độ trễ, chụp gói để biết hành vi) trước khi đưa ra kết luận.
Kết nối máy chủ sẽ bị ngắt ngẫu nhiên, đặc biệt là khi đang tải. Đôi khi hoạt động tốt, đôi khi hoàn toàn không phản hồi.
Tự động thương lượng không thành công. Máy chủ đã đàm phán chế độ song công hoàn toàn, bộ chuyển mạch chuyển sang chế độ bán song công. Xung đột chỉ xảy ra khi có tải khi cả hai bên cố gắng truyền đồng thời.
! Cisco switch - force full duplex
interface GigabitEthernet1/0/10
speed 1000
duplex full
Kiểm tra cả hai đầu:Trạng thái giao diện hiển thị các cài đặt đã thương lượng. Không khớp có nghĩa là tự động thương lượng không thành công. Luôn mã hóa tốc độ/song công cho máy chủ.
Người dùng có thể duyệt một số trang web (Google, Yahoo) nhưng không thể duyệt các trang web khác (trang web ngân hàng, cổng thông tin công ty). Các yêu cầu HTTP nhỏ đã hoạt động, các trang lớn đã hết thời gian chờ.
ping -M do -s 1472thành công,ping -M do -s 1473thất bạiĐường hầm VPN đã giảm MTU xuống 1400, nhưng tường lửa đang chặn thông báo "Cần phân mảnh" ICMP. Path MTU Discovery (PMTUD) không thể hoạt động, tạo ra lỗ đen MTU. Các gói nhỏ phù hợp, các gói lớn với bộ bit DF bị loại bỏ một cách âm thầm.
! Implemented TCP MSS clamping on router
interface Tunnel0
ip tcp adjust-mss 1360
! Alternative: Allow ICMP Type 3 Code 4 through firewall
access-list 101 permit icmp any any packet-too-big
Vấn đề kích thước:Nếu các yêu cầu nhỏ hoạt động nhưng chuyển khoản lớn không thành công, hãy nghi ngờ vấn đề MTU/phân mảnh. Sử dụng ping với bit DF để kiểm tra đường dẫn MTU.
Cuộc gọi thoại có âm thanh bị giật, ngắt quãng không liên tục. Chỉ diễn ra trong giờ làm việc (9 giờ sáng - 5 giờ chiều).
Chính sách QoS đã tồn tại nhưng việc phân bổ băng thông bị ngược: nỗ lực tối đa đạt 60%, thoại đạt 5%. Trong giờ làm việc khi lưu lượng dữ liệu tăng lên, các gói thoại bị rớt do tràn hàng đợi.
! Corrected QoS policy
policy-map WAN-QOS
class VOICE
priority percent 33
class VIDEO
bandwidth percent 25
class CRITICAL-DATA
bandwidth percent 20
class class-default
bandwidth percent 22
Các vấn đề dựa trên thời gian = năng lực:Nếu sự cố chỉ xảy ra trong giờ bận rộn thì đó không phải là lỗi cứng mà là vấn đề về dung lượng/QoS. Kiểm tra số liệu thống kê hàng đợi, không chỉ tổng băng thông.
| triệu chứng | Lớp | Các lệnh để chạy | Những gì cần tìm |
|---|---|---|---|
| Không có đèn liên kết | Lớp 1 | show interfaces |
Tình trạng: không có sóng mang, chưa cắm cáp |
| Mất gói | Lớp 1/2 | show interfaces |
Lỗi CRC, runt, khổng lồ, va chạm, va chạm muộn |
| Không thể ping cổng | Lớp 2 | arp -a |
Không có mục nhập ARP, MAC không được học, chặn STP |
| Không thể truy cập mạng con từ xa | Lớp 3 | traceroute |
Thiếu tuyến, sai bước nhảy tiếp theo, vòng lặp định tuyến |
| Kết nối bị từ chối | Lớp 4 | telnet host port |
Dịch vụ không lắng nghe, chặn tường lửa, TCP RST |
| Hiệu suất chậm | Lớp 4+ | ping (RTT) |
Độ trễ cao, giới hạn băng thông, truyền lại TCP, không có cửa sổ |
| Không thể phân giải tên máy chủ | Lớp 7 | nslookup |
Máy chủ DNS không thể truy cập được, cấu hình DNS sai, NXDOMAIN |
| Giọt không liên tục | Lớp 1/2 | ping -f (flood) |
Song công không khớp, lỗi cáp, tái hội tụ STP |
| Đôi khi hoạt động, không phải những người khác | Nhiều | Extended ping |
Vấn đề cân bằng tải, ECMP không đối xứng, tràn bảng trạng thái |
Biết khi nào cần chuyển lên TAC của nhà cung cấp hoặc kỹ sư cấp cao. Nâng cao khi:
Mỗi phiên khắc phục sự cố là một cơ hội học tập. Xây dựng nền tảng kiến thức cá nhân:
# Example structure
~/troubleshooting-journal/
├── 2026-01-15-duplex-mismatch.md
├── 2026-01-22-mtu-black-hole.md
├── 2026-02-02-tcp-window-exhaustion.md
└── README.md # Index of all issues
# Each file contains:
# - Symptom
# - Diagnostic steps
# - Root cause
# - Resolution
# - Lessons learned
# - Related tickets/documentation
Sắp xếp các lệnh thường dùng theo kịch bản để tham khảo nhanh trong quá trình khắc phục sự cố.
Thay đổi cấu hình mà không hiểu rõ vấn đề thường khiến mọi việc trở nên tồi tệ hơn hoặc che giấu vấn đề thực sự.
Thông thường "sự cố mạng" là sự cố phía ứng dụng, máy chủ hoặc phía máy khách. Thu thập bằng chứng trước khi nhận lỗi.
Bạn sẽ lãng phí thời gian lặp lại các bài kiểm tra bạn đã làm hoặc không thể giải thích cho đồng nghiệp những gì bạn đã thử.
Các vấn đề không liên tục thường là dấu hiệu cảnh báo sớm về sự cố sắp xảy ra. Hãy điều tra chúng trước khi chúng trở nên quan trọng.
Việc khởi động lại thiết bị có thể khôi phục dịch vụ, nhưng nếu bạn không tìm ra TẠI SAO thiết bị cần khởi động lại thì sự cố sẽ tái diễn.
Xử lý sự cố mạng vừa là khoa học vừa là nghệ thuật. Khoa học đang tuân theo một phương pháp có hệ thống, sử dụng các công cụ chẩn đoán một cách chính xác và hiểu rõ các quy trình. Nghệ thuật là biết nên chạy thử nghiệm nào trước tiên dựa trên các triệu chứng, nhận ra các mẫu từ kinh nghiệm và biết khi nào cần tiến hành.
Bằng cách làm theo cách tiếp cận có hệ thống được nêu trong bài viết này—đặt câu hỏi phù hợp, làm việc một cách có phương pháp thông qua mô hình OSI, ghi lại các bước của bạn và học hỏi từ từng vấn đề—bạn sẽ khắc phục sự cố hiệu quả hơn và tránh được những cạm bẫy phổ biến dẫn đến lãng phí thời gian và cách khắc phục không chính xác.
Nhớ:Mục tiêu không chỉ là khôi phục dịch vụ mà còn là hiểu TẠI SAO dịch vụ đó không thành công để bạn có thể ngăn điều đó xảy ra lần nữa.
Cập nhật lần cuối: Ngày 2 tháng 2 năm 2026 | Tác giả: Đội ngũ kỹ thuật Baud9600