HPC Cluster phoenix.zserv derzeit außer Betrieb

Aufgrund eines Ausfalls des NFS Servers ist der Cluster phoenix.zserv derzeit außer Betrieb.

Am Donnerstag, den 18.3 kam es um 19:30 zu einem Ausfall des NFS Servers für den HPC Cluster "phoenix.zserv". Dabei wurde sowohl des Home Filesystem als auch die darunter liegenden Raid Strukturen schwer beschädigt. Die Raid Strukturen konnten im Laufe des Freitags wieder hergestellt werden; die Versuche, das Home Filesystem zu reparieren, führten aber zu weiteren System Abstürzen. Daher wurde ab Freitag versucht, die noch lesbaren Daten auf ein externes Storage System zu sichern.

Im Laufe des Samstags kam es zu weiteren Unterbrechungen, da durch die vorangegangen Systemabstürze die beiden System Platten mit dem Betriebssystem beschädigt worden sind und ausgetauscht werden mussten (inklusive Neuinstallation des Betriebssystems). Derzeit wurden etwa 6 TB (von etwa 16.5 TB) an Benutzerdaten gesichert (Stand Sonntag 13:00 Uhr), wobei im ersten Durchlauf Dateien, die größer als 10 GB sind, ignoriert werden.

Der Cluster wird voraussichtlich am Mittwoch, dem 24.3 wieder zur Verfügung stehen.