OpenAI, ÖZETİ| Çarşamba günü yaşanan ve şirketin tarihindeki en uzun kesintilerden biri olan büyük aksaklığın, yeni devreye alınan bir telemetri hizmetinden kaynaklandığını açıkladı. Bu kesinti ChatGPT, Sora ve geliştiriciye yönelik API hizmetlerinde büyük aksaklıklara neden oldu.
Åžirket yayımladığı son durum raporunda, kesintinin bir güvenlik olayı veya yeni bir ürün lansmanından deÄŸil, ÇarÅŸamba günü devreye alınan Kubernetes metriklerini toplayan bir telemetri hizmetinden kaynaklandığını belirtti.Â
OpenAI herkesten özür diledi
Kubernetes, uygulama paketlerini ve ilgili dosyaları izole ortamlarda yönetmeye yardımcı olan açık kaynaklı bir programdır. Telemetri hizmeti, istemeden kaynak yoÄŸun Kubernetes API iÅŸlemlerine neden oldu ve bu da Kubernetes kontrol düzlemini devre dışı bıraktı. Yeni telemetri hizmetinin, OpenAI'nin birçok hizmetinin DNS çözümlemesi için güvendiÄŸi Kubernetes iÅŸlemlerini etkilediÄŸi belirtildi.Â
OpenAI'nin DNS önbelleklemesi, yayılımın tam kapsamının anlaşılmadan önce devam etmesine neden oldu ve görünürlüğü geciktirdi. OpenAI, sorunu müşteriler etkilenmeden birkaç dakika önce tespit ettiklerini, ancak aşırı yüklenmiÅŸ Kubernetes sunucuları nedeniyle hızlı bir ÅŸekilde düzeltme yapamadıklarını açıkladı. Åžirket, bu olayın birçok sistem ve sürecin aynı anda baÅŸarısız olması ve beklenmedik ÅŸekillerde etkileÅŸimde bulunmasının bir sonucu olduÄŸunu belirtti.Â
OpenAI, gelecekte benzer olayların meydana gelmesini önlemek için altyapı değişikliklerinde daha iyi izleme, aşamalı yayılımda iyileştirmeler ve mühendislerinin Kubernetes API sunucularına her koşulda erişimini sağlamak için yeni mekanizmalar dahil olmak üzere çeşitli önlemler alacağını duyurdu. OpenAI, bu kesinti için ChatGPT kullanıcılarından özür diledi ve beklentilerinin altında kaldıklarını da kabul etti.
Editor : Åžerif SENCER