OpenAI, ÖZETİ| Çarşamba günü yaşanan ve şirketin tarihindeki en uzun kesintilerden biri olan büyük aksaklığın, yeni devreye alınan bir telemetri hizmetinden kaynaklandığını açıkladı. Bu kesinti ChatGPT, Sora ve geliştiriciye yönelik API hizmetlerinde büyük aksaklıklara neden oldu.
Şirket yayımladığı son durum raporunda, kesintinin bir güvenlik olayı veya yeni bir ürün lansmanından değil, Çarşamba günü devreye alınan Kubernetes metriklerini toplayan bir telemetri hizmetinden kaynaklandığını belirtti.
OpenAI herkesten özür diledi
Kubernetes, uygulama paketlerini ve ilgili dosyaları izole ortamlarda yönetmeye yardımcı olan açık kaynaklı bir programdır. Telemetri hizmeti, istemeden kaynak yoğun Kubernetes API işlemlerine neden oldu ve bu da Kubernetes kontrol düzlemini devre dışı bıraktı. Yeni telemetri hizmetinin, OpenAI'nin birçok hizmetinin DNS çözümlemesi için güvendiği Kubernetes işlemlerini etkilediği belirtildi.
OpenAI'nin DNS önbelleklemesi, yayılımın tam kapsamının anlaşılmadan önce devam etmesine neden oldu ve görünürlüğü geciktirdi. OpenAI, sorunu müşteriler etkilenmeden birkaç dakika önce tespit ettiklerini, ancak aşırı yüklenmiş Kubernetes sunucuları nedeniyle hızlı bir şekilde düzeltme yapamadıklarını açıkladı. Şirket, bu olayın birçok sistem ve sürecin aynı anda başarısız olması ve beklenmedik şekillerde etkileşimde bulunmasının bir sonucu olduğunu belirtti.
OpenAI, gelecekte benzer olayların meydana gelmesini önlemek için altyapı değişikliklerinde daha iyi izleme, aşamalı yayılımda iyileştirmeler ve mühendislerinin Kubernetes API sunucularına her koşulda erişimini sağlamak için yeni mekanizmalar dahil olmak üzere çeşitli önlemler alacağını duyurdu. OpenAI, bu kesinti için ChatGPT kullanıcılarından özür diledi ve beklentilerinin altında kaldıklarını da kabul etti.
Editor : Şerif SENCER