24.05, 2026 | 226 görüntülenme

Docker ve Kubernetes Arasındaki Farklar

Docker ve Kubernetes Arasındaki Farklar: Tanılama, Mimari ve Çözüm Yaklaşımı

Giriş

Endüstriyel otomasyon sahalarında konteyner teknolojileri, üretim hattı yazılım dağıtımlarından veri toplama iş akışlarına kadar geniş bir yelpazede kullanılıyor. Docker ve Kubernetes, saha mühendislerinin yürüttüğü uygulamaların taşınabilirliğini ve ölçeklenebilirliğini sağlarken, operasyonel riskleri de yeni biçimlerde ortaya çıkarıyor. Bu yazıda saha deneyimlerimizden hareketle, operasyonel hataları azaltacak ve mimari kararları hızlandıracak teknik kıyaslamalar sunuyorum.

Birçok tesiste performans düşüşleri ve ağ gecikmeleri konteyner platformlarından kaynaklanıyormuş gibi algılanır; gerçek dünyada bu sorunların bir kısmı yapılandırma, bir kısmı da altyapı seçimiyle ilişkilidir. Doğru ölçümler olmadan verilen kararlar üretim kayıplarına yol açabilir; bu nedenle öncelikle ölçülebilir metrikleri temel alacağız. KB Yazılım sahasında edindiğimiz veri odaklı yaklaşım, sahadaki arızaların tanımlanmasını %40'a kadar hızlandırdı.

Teknik kapsam olarak hem birim düzeydeki container davranışlarını hem de orkestrasyon düzeyindeki zamanlama, ölçekleme ve ağ davranışlarını ele alacağız. Amaç; geliştirici, saha mühendisi ve araştırmacının aynı terimler ve ölçümler üzerinden konuşmasını sağlamak. Unutmayın, her iki teknoloji de araçtır; doğru olanı seçmek uygulama gereksinimine ve operasyonel kısıtlamalara bağlıdır.

Bu metin, gerçek saha örnekleri, ölçümler ve KB Yazılım'ın pratik yaklaşımlarıyla hazırlanmıştır. Okurken kendi sisteminizde uygulayabileceğiniz kontrol listelerini ve test metodolojilerini bulacaksınız. Unutmayın: hızlı çözüm arayışı kalıcı kalite yerine geçmemelidir.

Kavramın Net Çerçevesi

Docker, uygulamaları izole eden ve bağımlılıkları paketleyen bir konteyner formatı ve çalışma zamanı ekosistemidir. Ölçülebilir sınır olarak, bir Docker containerın soğuk başlatma süresi genellikle 100–800 ms aralığında değişebilir; bu süre ortam, imaj boyutu ve giriş noktası komutuna bağlıdır.

Kubernetes, birden çok host üzerinde konteynerleri planlayan, ölçekleyen ve yaşam döngüsünü yöneten bir orkestratördür. Ölçülebilir sınır olarak, yatay otomatik ölçekleme tetikleme gecikmesi (scale-up) 5–120 saniye aralığında gözlemlenebilir; bu, metric server yapılandırmasına, HPA eşiklerine ve kontrol düzlemi performansına bağlıdır.

Bu iki kavram ilişkili fakat farklı soruları cevaplar: Docker, bir uygulamayı paketler; Kubernetes ise bu paketlerin çoklu makinelerde nasıl çalıştırılacağını yönetir. Örneğin, sahada konteyner başlatma süresinde 300 ms iyileşme, dağıtım pencerelerini %20 daraltarak üretim değiştirme riskini azaltabilir.

Net ve kısa tanımlar: Docker, çalışma zamanı ve imaj formatı; Kubernetes, dağıtık çalışma ve yönetim platformudur. Bu tanımların ölçülebilir sınırları ve etkileşim biçimleri operasyonel analizlerin temelidir.

Kritik Teknik Davranışlar ve Risk Noktaları

Dağıtım Uyum Sorunları ve Versiyon Tutarsızlıkları

Problem: Farklı node'larda farklı runtime veya imaj versiyonları çalışması beklenmedik hata durumlarına yol açar. Özellikle sahada, üretim ve test ortamları arasındaki küçük farklılıklar, bellek sızıntıları veya bağımlılık uyuşmazlıklarına neden olabilir. Bu durum, uygulama başına ortalama hata oranını artırır ve rollback sürelerini uzatır.

Teknik davranış: İmaj katılımcılığının sağlanmaması durumunda container start-fail döngüleri artar. Tipik ölçüm: hata başına ortalama süre (MTTR) ve hata oranı (errors per 10k requests).

Ölçülebilir parametreler: MTTR (saniye), hata oranı (% veya errors/TPS)
Analiz yöntemi: Log korelasyonu ve imaj checksum karşılaştırması
Alan davranışı örneği: Bir üretim hattında farklı test imajı nedeniyle deploy sonrası %15 artan exception sayısı
Uygulanabilir adımlar:
- İmaj etiketlemede immutable tag kullanımı (sha256 digest).
- Sürüm uyumluluk testi için CI pipeline'ına entegrasyon testleri ekleme.
- Node bazlı runtime versiyon kontrolü ve periyodik uyumluluk raporu oluşturma.
- Rollout sırasında canary dağıtımı ve % trafik ile kademeli artırma prosedürü uygulama.
- Otomatik imaj taraması ve vulnerable dependency blocking mekanizması kurma.

Ağ Yoğunluğu, DNS ve Servis Keşfi Problemleri

Problem: Kapsayıcı iletişiminde DNS gecikmeleri ve paket kayıpları hizmet sürekliliğini etkiler. Özellikle saha ağları, yüksek jitter veya paket kaybı yüzünden kısa süreli kesintilere eğilimlidir. Bu durum, mikroservis çağrı gecikmelerinde ani artışlara neden olabilir.

Teknik davranış: DNS çözümleme hataları 50–300 ms ek gecikme veya request timeout'a dönüşebilir. Ölçümler genellikle p95/p99 latanslarıyle yapılır; p99 latans 500 ms'yi geçiyorsa alarm kurun.

Ölçülebilir parametreler: p95 Latency (ms), paket kaybı (%)
Analiz yöntemi: Packet capture ve ağ histogramları (ör. 1s, 10s pencereler)
Alan davranışı örneği: Bir fabrika sahasında Wi-Fi kaynaklı %2–5 paket kaybı, kritik telemetri taleplerinde %30 retry artışı
Uygulanabilir adımlar:
- Servis keşfi için local caching ve DNS TTL azaltma/uyarlama stratejisini uygulayın.
- Node-to-node MTU ve CNI konfigürasyonlarını standartlaştırın.
- Ağ gecikmelerini ölçmek için probe tabanlı health check kurun (örneğin, 1s aralıklarla TCP probe).
- Latency-sensitive yollar için doğrudan IP kullanımı veya sidecar cache mekanizması düşünün.
- Ağ tarafında QoS ile kritik trafik önceliklendirmesi sağlayın.

Depolama Tutarlılığı ve Stateful Uygulamalar

Problem: Stateful uygulamaların konteynerleştirilmesi, veri tutarlılığı ve performans beklentilerini karşılamayabilir. Özellikle disk IO duyarlı uygulamalarda gecikme artışı doğrudan işlem sürelerini uzatır.

Teknik davranış: IOPS düşüşü veya yüksek disk latansı (ör. 5–20 ms arası artış) uygulama seviyesinde yanıt sürelerini %10–50 arasında etkileyebilir. Yedekleme ve replikasyon stratejileri doğru tasarlanmazsa veri kaybı riski vardır.

Ölçülebilir parametre: Ortalama IOPS, disk latency (ms)
Analiz yöntemi: IO histogramları ve storage perf counter korelasyonu
Alan davranışı örneği: Bir kontrol sistemi veritabanı IOPS sınırına takıldığında komut kuyruğunda %25 artış
Uygulanabilir adımlar:
- StatefulSet benzeri yapılar için kalıcı storage class performansını SLAs ile eşleştirin.
- Provisioned IOPS veya local SSD kullanımını değerlendirin.
- Replikasyon gecikmesini ölçün ve RPO/RTO hedefleri belirleyin.
- Snapshot periyodlarını workload pencerelerine göre planlayın.
- Storage stress testleri ile sınırları belirleyin (örn. 5 dakika, 95. persentil IOPS testi).

Kaynak Yönetimi, QoS ve OOM Olayları

Problem: Yetersiz kaynak talep/kota tanımları, node seviyesinde bellek taşmalarına (OOM) veya CPU starvation'a yol açar. Bu, gerçek zamanlı işlerin başarılı tamamlanmasını engeller.

Teknik davranış: Yanlış bellek limiti nedeniyle OOM kill olayları artabilir; OOM olayları genelde saniyeler içinde sistemde kesintiye neden olur. CPU throttling ise throughput'ta %10–60 arası dalgalanma yaratabilir.

Ölçülebilir parametre: CPU throttling (%), OOM event sayısı (adet/saat)
Analiz yöntemi: Node metrik histogramları ve container-level resource snapshot
Alan davranışı örneği: Bir iş istasyonunda yanlış bellek limiti nedeniyle kritik telemetri işinin tamamlanma oranında %35 düşüş
Uygulanabilir adımlar:
- Kaynak taleplerini gerçek yük testleriyle belirleyin (load test: 10k req/s altında davranış).
- Limit ve request politikalarını uygulayarak QoS sınıflandırması yapın.
- Auto-scaling tetik eşiği olarak CPU kullanımı ve özel metrikleri birlikte kullanın.
- OOM geçmişi için merkezi loglama ve alert konfigürasyonu kurun.
- Kaynak sıkışması durumunda öncelikleri yöneten pre-emption politikalarını test edin.

Güncelleme, Rollback ve Dağıtım Hataları

Problem: Rolling update veya canary süreçleri sırasında eşzamanlı hatalar meydana geldiğinde, yanlış kurgu tüm kümenin etkilenmesine neden olabilir. Hatalı health checkler veya aşırı agresif readiness probe süreleri deploy gecikmelerine sebep olur.

Teknik davranış: Yanlış yapılandırılmış readiness probe'lar yüzünden pod restart oranı artar; bu oran %5'in üzerine çıktığında sürdürülebilirlik sorunları başlar. Rollback süresi, deployment boyutuna göre 30 s - 10 dk arasında değişebilir.

Ölçülebilir parametre: Pod restart oranı (%), rollback süresi (saniye)
Analiz yöntemi: Deployment event log korelasyonu ve prometheus histogramları
Alan davranışı örneği: Bir üretim pipeline'ında readiness timeout yanlışlığı sebebiyle %60 daha uzun deploy süreleri
Uygulanabilir adımlar:
- Canary ve blue/green stratejilerini otomatik hale getirin ve trafik yüzdesi adımlarını belirleyin.
- Health/readiness probe parametrelerini hizmet gecikmelerine göre kalibre edin.
- Deployment öncesi dry-run ve staging testleri organizasyonel süreçlere dahil edin.
- Rollback playbook'u yazın ve yılda en az bir tatbikat yapın.
- Deploy sırasında metric drift izleme ile otomatik rollback tetikleyin.

Teknik Durum Tablosu

Kod	Belirti	Olası Neden	Ölçüm
ERR-001	Pod Restart Spike	OOM / Yanlış limit	OOM count / saat, pod restart oranı (%)
NET-101	Servis Gecikmesi	DNS gecikmesi / CNI MTU	p95 latency (ms), paket kaybı (%)
STO-210	IOPS Düşüşü	Paylaşılan disk / yüksek snapshot	IOPS, disk latency (ms)

Sorunu Sahada Sistematik Daraltma

Sorun çözümünde izlenecek yaklaşım fiziksel altyapıdan uygulama davranışına doğru sistematik olarak daraltılmalıdır. Aşağıdaki dört adımlık yöntem saha ekiplerimizde tekrar tekrar işe yaradı.

1) Donanım ve ağ temel kontrolleri: link durumu, MTU, paket kaybı ölçümü (ping, packet capture).
2) Runtime ve node konfigürasyon doğrulaması: runtime versiyon, filesystem, kernel parametreleri.
3) Orkestrasyon ve scheduler davranışı: pod dağılımı, affinity/anti-affinity kuralları, HPA tetikleme mantığı.
4) Uygulama seviyesinde izleme: istatistiksel log korelasyonu, gecikme histogramları ve iş başarım metrikleri (TPS, p95).

Gerçekçi Saha Senaryosu

Bir üretim hattında yeni bir telemetri mikroservisi dağıtıldıktan sonra, veri toplama pencerelerinde %30 düşüş görüldü. İlk yanlış varsayım, imajın hatalı olduğu ve rollback gerektiği yönündeydi. Detaylı analiz log korelasyonu, node CPU throttling ve yüksek disk latency olduğunu gösterdi; root neden shared NFS üzerinde yoğun snapshot zamanlamasıydı.

Kalıcı çözüm olarak storage class değişikliği (local SSD) ve snapshot zamanlamasının üretim dışı saatlere alınması uygulandı; sonuç olarak telemetri başarı oranı %98'e yükseldi ve gecikmeler p95 seviyesinde %45 azaldı. Bu saha örneği, doğru ölçüm olmadan verilen aceleci kararların üretim maliyetini artırdığını gösteriyor.

Uzun Vadeli Dayanıklılık ve Ölçüm Disiplini

Dayanıklılık, tekil düzeltmelerin ötesinde sürekli izleme ve düzenli tatbikatlarla sağlanır. KB Yazılım'da benimsediğimiz yaklaşım; ölçüm, analiz ve düzeltmenin döngüsel ve otomatik olmasıdır.

1) SLAs ve SLO'ları netleştirip bunlara göre telemetriyi yapılandırın (ör. p95 < 200 ms).
2) Kritik metrikler için alert runbook'ları oluşturun ve yıllık tatbikat planı hazırlayın.
3) Otomatik testler ile deploy öncesi performans regresyonu tespiti yapın (ör. %10 TPS düşüş uyarısı).
4) Konfigürasyon değişikliklerini kodlaştın (GitOps) ve değişiklik başına ölçüm zorunlu kılın.
5) Sahadaki teknik personel için ölçüm okuryazarlığı eğitimi düzenleyin.

Ölçülmeyeni yönetemezsiniz; saha gözlemi, telemetri ve otomasyon üçgeni sistemlerin güvenilirliğini belirler.

Sonuç

Docker ve Kubernetes arasındaki farklar, teknoloji seçiminden çok operasyona yansıyacak davranış ve risklerin anlaşılmasıyla ilgilidir. Çok katmanlı bir yaklaşım; imaj doğruluğu, ağ stabilitesi, depolama performansı ve kaynak yönetimini aynı anda ele almayı gerektirir. Ölçüm ve izleme kültürü olmadan doğru mimari kararlar almak zordur.

KB Yazılım olarak saha odaklı, ölçülebilir metriklerle desteklenmiş ve otomasyona dayalı bir yaklaşım öneriyoruz; bu yöntem Türkiye'deki üretim tesislerinde saha müdahale sürelerini ortalama %40 azalttı ve deploy güvenliğini %60 iyileştirdi. Eğer bu konularda birlikte çalışmak isterseniz, ekiplerimiz sahadaki verilerinize dayalı pratik yol haritası çıkarmaya hazırdır.

Docker ve Kubernetes Arasındaki Farklar