Проблема: Додаток бази даних «повільно». Команда мережі відмовляється від команди сервера. Команда сервера відправляє мережу. Тим не менш, користувачі розчаровані, і години були відведені в круговому відбілювання.
Рішення: Системний, науковий підхід до усунення неполадок, що використовує докази, не припущення, для виявлення причин кореня.
Вартість усунення несправностей Haphazard: Відпрацьований час, невірно фіксує, що маскує реальні проблеми, пальцем-точування між командами та деградованим досвідом користувача.
Усунення мережевих неполадок є фундаментально вправою в науковому методі:
У статті передбачено структуровані рамки для усунення неполадок мережі, що запобігає поширенню підводних каменів:
Перед тим як дайвінг в технічну діагностику, відповідь на ці п'ять критичних питань для звуження сфери дослідження:
Зміни конфігурації? Новий апарат? Оновлення програмного забезпечення? Топологічні модифікації?
Один користувач? Один будинок? Хто? Особливе застосування тільки?
Весь час Тільки протягом певних годин? Випадкові причини?
Чи можна викликати проблему на вимогу?
Перевірити обидва кінці з'єднання
Модель OSI забезпечує структуровану раму для усунення несправностей. Робота від шару 1 (Фізична) вгору, або від шару 7 (додаток) вниз, в залежності від симптомів.
При використанні: Повна втрата зв'язку, відсутність зв'язку світла, або симптоми фізичного шару
show interfacesй ethtool eth0show mac address-tableй show spanning-treepingй tracerouteй show ip routetelnet host portй netstat -an, захоплення пакетаnslookupй digй curl -vПри використанні: Застосування-специфічні проблеми, де існує базова сумісність
Старт на Layer 7 (Is SharePoint працює? Вирішити DNS виправити IP?) і працювати лише за потреби.
Використовуйте це швидке діагностичне дерево, щоб визначити, який шар не вдається:
TCP/IP не функціонує. Перевірте служби OS, перевстановити мережеві драйвери.
NIC відключений, неправильний драйвер, кабель не розгорнув. Зареєструватися ip link show або диспетчер пристроїв
Перевірити: Фізичний кабель, переключення статусу порту, VLAN призначення, ARP стіл
Перевірити: Таблиця маршрутизації, правила брандмауера, ACL. Зареєструватися traceroute щоб знайти де зупинитись у пачці
Перевірити: Налаштування сервера DNS, доступність сервера DNS, порт блокування брандмауера 53
Перевірити: Правила брандмауера, групи безпеки, послуги прослуховування на порту
Проблема - це сама програма, автентифікація або налаштування додатків
Якщо у вас є гіпотеза про першопричину, скористайтеся цими методами ізоляції, щоб підтвердити або відхилити її:
Захоплення трафіку на джерело, проміжні точки та призначення для визначення, де пачки падають або модифіковані:
# Capture on client
tcpdump -i eth0 -w client.pcap host server.example.com
# Capture on server
tcpdump -i eth0 -w server.pcap host client.example.com
# Compare:
# - Do packets leave client? (check client.pcap)
# - Do packets arrive at server? (check server.pcap)
# - If yes/no: problem is in the path between
# - If yes/yes but server doesn't respond: server-side issue
Використовуються зовнішні змінні шляхом тестування підключення до одного пристрою:
# Test TCP stack without network
ping 127.0.0.1
# Test application listening locally
telnet localhost 80
# Test loopback on network interface (if supported)
# Some NICs support physical loopback for Layer 1 testing
Порівняти конфігурацію та поведінку від робочої системи:
# Compare interface settings
diff <(ssh working-switch "show run int gi1/0/1") \
<(ssh broken-switch "show run int gi1/0/1")
# Compare routing tables
diff <(ssh router1 "show ip route") \
<(ssh router2 "show ip route")
Правильна документація запобігає прискоренню кругових відкладень, де ви намагаєте те ж саме кілька разів без її реалізації.
Issue ID: TICKET-12345
Date/Time: 2026-02-02 14:30 UTC
Reported By: Jane Smith (jane.smith@company.com)
Affected Users: ~50 users in Building A, 3rd floor
Symptom: Cannot access file server \\fileserver01
Initial Observations:
- Issue started around 14:00 UTC
- Only affects Building A, 3rd floor
- Other buildings can access fileserver01
- Ping to fileserver01 (10.1.50.10) times out from affected users
- Ping to default gateway (10.1.30.1) succeeds
Tests Performed:
1. [14:35] Checked switch port status: gi1/0/15 is UP/UP
2. [14:38] Checked VLAN assignment: Port is in VLAN 30 (correct)
3. [14:42] Checked interface errors: 1,234 CRC errors on gi1/0/15
4. [14:45] Replaced patch cable - still seeing CRC errors
5. [14:50] Moved uplink to different port (gi1/0/16) - errors persist
6. [14:55] Checked fiber cleanliness - dirty connector found
Root Cause:
Dirty fiber connector on uplink between Building A floor switch
and distribution switch causing CRC errors and packet loss
Resolution:
Cleaned fiber connector with proper cleaning kit. CRC errors
dropped to zero. File server access restored.
Verification:
Users confirmed file server accessible. Monitored for 15 minutes
with no errors.
Time to Resolution: 25 minutes
Терміни відповіді на використання бази даних від <100ms до 5+ секунд. Заявка на участь у тендері "мережі."
Сервер бази даних OS Buffers були занадто малими для високої пропускної здатності / затримки продукту. Вікно TCP заповнить, зачепивши відправника на очікування.
# Increased TCP receive buffers on Linux database server
sysctl -w net.ipv4.tcp_rmem="4096 87380 16777216"
sysctl -w net.core.rmem_max=16777216
Не припустимо: "Повільний" не завжди означає "мережу". Завжди збирають докази (підтримка затримки, захоплення пакета для поведінки) перед стрибком до висновків.
З'єднання сервера буде випадковим чином, особливо під навантаженням. Часом працював дрібний, іноді повністю невідповідний.
Автопоїзд не вдалося. Сервер веде переговори з повним дуплексом, перемикач знизився на півдуплекс. У зв’язку з тим, що обидві сторони намагалися одночасно передавати.
! Cisco switch - force full duplex
interface GigabitEthernet1/0/10
speed 1000
duplex full
Перевірити обидва кінці: Статус на сервери Нездійснено неправильне з’єднання. Завжди швидкість жорсткого коду/duplex для серверів.
Користувачі можуть переглядати деякі веб-сайти (Google, Yahoo), але не інші (банківський сайт, портал компанії). Потрібні HTTP-запити працювали, великі сторінки, що закінчилися.
ping -M do -s 1472 успіхи, ping -M do -s 1473 зVPN тунель зменшено MTU до 1400, але брандмауер був блокуючий ICMP "Фрагментація потрібних" повідомлень. Шлях MTU Discovery (PMTUD) не може працювати, створюючи чорний отвір MTU. Невеликі пакети підходять, великі пакети з набором DF були безглуздими.
! Implemented TCP MSS clamping on router
interface Tunnel0
ip tcp adjust-mss 1360
! Alternative: Allow ICMP Type 3 Code 4 through firewall
access-list 101 permit icmp any any packet-too-big
Розміри: Якщо невеликі запити працюють, але великі перекази не можуть, підозрюють у питаннях МТУ/фрагментації. Використовуйте пінг з бітом DF, щоб перевірити шлях MTU.
Голосові дзвінки мали хоппірний аудіо, переривчасті краплі. За час роботи (9am-5pm).
Політика QoS існувала, але розподіл пропускної здатності була заново: найкраща пам'ятка отримала 60%, голос отримав 5%. За час роботи, коли збільшився трафік даних, розпущені голосові пакети через перекриття черги.
! Corrected QoS policy
policy-map WAN-QOS
class VOICE
priority percent 33
class VIDEO
bandwidth percent 25
class CRITICAL-DATA
bandwidth percent 20
class class-default
bandwidth percent 22
Термінові питання = потужність: Якщо виникають проблеми під час зайнятих годин, це не тверда відмова, але й питання ємності/QoS. Перевірити статистику черги, не тільки загальна пропускна здатність.
| Симптом | Р | Команди для запуску | Що дивитися |
|---|---|---|---|
| Немає посилання світла | Шар 1 | show interfaces |
Статус: вниз, немає перевізника, кабель не розгорнув |
| Збиток пакета | Шар 1/2 | show interfaces |
CRC помилки, рункі, гіганти, зіткнення, пізні зіткнення |
| Чи не пінг шлюз | Шар 2 | arp -a |
No ARP запис, MAC не навчався, блокування STP |
| Не досягнете віддаленої підмережі | Шар 3 | traceroute |
Місячний маршрут, виворітний наступний хміль, петлі маршрутизації |
| З'єднання відмовлено | Шар 4 | telnet host port |
Сервіс не слухайте, блок брандмауера, TCP RST |
| Повільна продуктивність | Шар 4+ | ping (RTT) |
Висока надійність, обмеження пропускної здатності, ретрансмісії TCP, нульові вікна |
| Чи не вирішувати ім'я хоста | Шар 7 | nslookup |
DNS сервер ненадійне, неправильне налаштування DNS, NXDOMAIN |
| Міжмітентні краплі | Layer 1/2 | ping -f (flood) |
Duplex mismatch, не вдається кабель, STP-відновлення |
| Працює іноді, не інші | Кілька | Extended ping |
Видача балансування навантаження, ЕКМП асиметрія, переповнення таблиці |
Знайте, коли продавець TAC або старших інженерів. Ескорт при:
Кожна сесія з усунення неполадок - це можливість навчання. Створення бази знань:
# Example structure
~/troubleshooting-journal/
├── 2026-01-15-duplex-mismatch.md
├── 2026-01-22-mtu-black-hole.md
├── 2026-02-02-tcp-window-exhaustion.md
└── README.md # Index of all issues
# Each file contains:
# - Symptom
# - Diagnostic steps
# - Root cause
# - Resolution
# - Lessons learned
# - Related tickets/documentation
Організувати часто використовувані команди за сценарієм швидкого посилання під час усунення несправностей.
Зміна конфігурацій без розуміння проблеми часто робить речі гіршими або масками реального питання.
Нерідко "мережеві питання" - це додаток, сервер або проблеми з клієнтами. Зберіть докази перед прийняттям полум'я.
Ви вже зробили, або не зможете пояснити колегам, які ви спробували.
Проблемні задачі часто є ранніми ознаками непередбачуваності. До того, як вони стали критичними.
Перезавантаження пристрою може відновити сервіс, але якщо ви не з`ясуєте, що це потрібно перезавантаження, проблема буде повторюватися.
Усунення мережевих проблем – це наука і мистецтво. Наука має наступні систематичні методики, використовуючи діагностичні інструменти правильно, а також протоколи розуміння. Мистецтво знає, які тести для запуску перших за ознаками, розпізнаючи візерунки від досвіду, і знаючи, коли ескалувати.
Після того, як системний підхід, описаний в цій статті, — випробуєте правильні питання, працюючий методично через модель OSI, документуючи ваші кроки, і дізнаючись з кожного питання — ви станете більш ефективним при усунення несправностей і не допускати поширених підводних каменів, які призводять до часу і неправильних фіксацій.
Пам'яті: Ціль не просто відновити службу, але щоб зрозуміти, що вона не вдалося, тому ви можете запобігти його знову.
Останнє оновлення: 2 лютого 2026 Автор: Baud9600 Технічна команда