Serviceausfälle vom 20.06.2023

TU.it-Stellungnahme zur Störung

Am Dienstag, den 20.06.2023 kam es als Folge einer Störung innerhalb der Datacore Storage Cluster zu einer beträchtlichen Ausfallzeit verschiedener IT-Services und auch der TUW-Homepage.

Als Ursache wurde die Einspielung von Windows-Updates, die trotz Deaktivierung automatisch erfolgt ist, identifiziert. Die Updates führten zu einem Shutdown um 05:02 Uhr und somit um 05:03 Uhr zu einem Disk-Error. Dieser wurde um 05:06 Uhr auf den Monitoring-Systemen von TU.it angezeigt und ab 06:30 Uhr von einer TU.it-Mitarbeiterin bearbeitet. Der letztendliche root-cause ist mit den Herstellern derzeit in Abklärung. Ab 07:30 Uhr war ein Team von 15 Mitarbeiter_innen in die Behebung der Störung involviert. Um 07:40 Uhr wurde entschieden, eine Notfallseite zur TUW-Website zu aktivieren.

Zur Gewährleistung der Datenunversehrtheit erfolgte auf den Storage-Clustern kein Autostart des Services, das den virtuellen Maschinen ihre Disks bereitstellt. Dies bedeutete somit den Ausfall jener IT-Services, die auf diesen VMs betrieben werden.

Nach einem erfolgreichen nicht automatisiert kontrollierten Restart sämtlicher Services auf den Datacore Clustern waren die Disks - ohne Datenverlust - für die VMs wieder bereitgestellt. Das TU.it-Virtualisierungsteam  hat die Serviceverantwortlichen der betroffenen Services bei der Wiederherstellung wesentlich unterstützt.

Da durch diese Störung zentrale Informationskanäle der TU ausfielen (z.B. TUchat, TUwiki) oder beeinträchtigt (z.B. Mail) waren, gestaltete sich die Kundenkommunikation anfangs sehr schwierig. Doch konnten dafür improvisierte Umgehungslösungen gefunden werden.

Um 21:00 Uhr waren alle Services wieder ohne Beeinträchtigung verfügbar.

Wir entschuldigen uns an dieser Stelle bei allen, die durch diese Service-Ausfälle Beeinträchtigungen bei ihrer Arbeit in Kauf nehmen mussten.

Betroffenes ServiceZeitpunkt Wiederverfügbarkeit
Authentifizierungsservice09:00 Uhr
TUhost09:15 Uhr
TISS11:00 Uhr
TUfiles11:00 Uhr
TUchat11:00 Uhr
TUwiki11:00 Uhr
upTUdate13:00 Uhr
TUWEL13:00 Uhr
TUnetdb13:00 Uhr
TUownCloud16:30 Uhr
TU-Webseite17:30 Uhr, Backend erst um 21:00