News



Sonntag, 12. Dezember 2010

Serverausfälle und Ladeverzögerungen der letzten Zeit


Uns ist das Problem bewusst, dass das Spiel in letzter Zeit zeitweise (normalerweise nur wenige Minuten) nicht erreichbar ist und es manchmal zu Ladeverzögerungen (Lags) kommt. Nicht alles davon ist durch uns beeinflussbar, wir versuchen aber natürlich trotzdem Lösungen zu finden. Im Sinne der Transparenz und des Verständnisses denken wir es ist sinnvoll euch möglichst detailliert über die Hintergründe zu informieren.


Im SW-Forum wurde schon mal von uns versucht für den Unterschied zu sensibilisieren: Es ist ein Unterschied ob es zu Ladeverzögerungen (Lags) kommt oder ob der Server komplett nicht erreichbar ist. Auch wenn es teils einen ähnlichen Eindruck macht, ist das für uns von großer Bedeutung. Der Unterschied ist Folgender:


Eine komplette Nichterreichbarkeit des Spielservers ist normalerweise nicht von uns beeinflussbar - "uns" im Sinne des SchoolWars-Betreibers. Meistens liegt die Ursache dafür im Rechenzentrum oder bei der Verbindung zum Rechenzentrum.

Uns ist klar, dass euch das nicht hilft, aber wir setzen bezüglich der Server und des Rechenzentrums mit der Hetzner Online AG schon auf einen der besten Anbieter. Das bezieht sich auf das Gesamtangebot, also auch die Verfügbarkeit und die Schnelligkeit der Server.

Externer Link http://www.hetzner.de/de/hosting/unternehmen/auszeichnungen/
Externer Link http://www.webhostlist.de/provider/1782-Hetzner-Online-AG/verfuegbarkeit.html
Externer Link http://www.homepage-kosten.de/provider/verfuegbarkeit/PID-436.htm


Ladeverzögerungen hingegen (wenn sie alle betreffen und nicht nur eine Person, denn vereinzelte Fälle liegen durchaus nicht selten am Endgerät) können durch uns oder unsere Skripte auftreten.

Manche Prozesse sind einfach aufwendiger, da lassen sich Ladeverzögerungen nicht völlig vermeiden. Unsere Skripte sind deshalb aber darauf ausgelegt, dass diese nur nachts laufen, wenn möglichst wenig Spieler online und betroffen sind. Ladeverzögerungen ab 1 Uhr nachts und insbesondere zwischen 3 und 6 Uhr morgens wird es daher immer mal wieder geben. Deswegen sind sie aber wie gesagt extra in der Nacht. Ladeverzögerungen am Tag sollten hingegen nie länger als wenige Sekunden dauern und auch selten sein.

Nachts führen wir dabei automatische Optimierungen durch, damit den Rest des Tages alles flüssiger läuft und Fehlerquellen ausgeschlossen werden. Wie viele sicher bemerkt haben gibt es bei SchoolWars deutlich weniger Fehler, als dies beispielsweise noch vor einigen Jahren der Fall war und auch der Komfort (z.B. Filtereinstellungen bei Items, Wahl des letzten Jobs, Sortierungen, usw.) hat sich bei vielen Kleinigkeiten erhöht. Auch werten wir nachts beispielsweise Aufzeichnungen aus um Multi-Accounts zu erkennen um so allen ein möglichst faires Spiel bieten zu können. Wir verleihen in der Nacht Auszeichnungen, werten Spiele aus, erstellen Statistiken, löschen nicht mehr benötigte Daten und vieles mehr.


Trotz stabiler durchschnittlicher Aktivität der Spieler haben wir unsere Hardware schon Externer Link im Juni, obwohl sie ausreichte, um das bis zu Vierfache aufgestockt. Im Klartext: Wir könnten mehr als das Vierfache der aktuellen Spielerzahlen bewältigen - haben also Luft nach oben. Aufwendigere Belastungen sind selbstverständlich trotzdem zusätzlich ausgelagert - so setzen wir beispielsweise je nach Bedarf drei verschiedene Bilderserver ein. Das unsere Hardware aber ausreichend ist lässt sich schon an relativ simplen Punkten erkennen:
- Überlastungen würden nicht am späten Abend auftreten, sondern zu Stoßzeiten der Spieler, also am späten Nachmittag oder frühen Abend.
- Überlastungen würden nicht an irgendeinem Tag in irgendeiner Woche auftreten, sondern z.B. beim Start eines Spielservers, weil dabei am meisten Spieler aktiv sind und auf dem Server am meisten los ist.

Weil unsere Fachkenntnisse bei der Serververwaltung nicht denen eines Experten entsprechen lassen wir unsere Hardware auch komplett von den Profis unseres Serveranbieters betreuen - die, wie schon erwähnt, zu den Besten gehören und die mehrere Externer Link Hochleistungs-Rechenzentren mit vielfach redundanter Verbindungen für eine hohe Ausfallsicherheit betreiben - und deshalb auch von namhaften Kunden auf der ganzen Welt eingesetzt werden.

Außerdem ist klarzustellen, dass trotz allem das Spiel eine Verfügbarkeit von deutlich über 99% im Jahresdurchschnitt hat.


Zusätzlich zur Überwachung durch das Rechenzentrum, die im Bedarf ihre Techniker verständigen, lassen wird unsere Server auch von mehreren unabhängigen Überwachungsdiensten kontrollieren und werden bei Serverausfällen sofort per SMS benachrichtigt. Wenn das Problem also nicht im Rechenzentrum gelöst wird, so schauen wir selbst -sofern es von uns beeinflussbar ist- danach, weshalb es auch eigentlich nie zu Ausfällen kommt, die länger als fünf Minuten dauern.



Konkret zu den Problemen der letzten Zeit:

Offenbar ereigneten sich zufällig mehrere Probleme nahezu gleichzeitig bzw. ein Problem begünstigte weitere Probleme. Vom Rechenzentrum kam vor etwa zwei Monaten die Mitteilung, dass eine der Festplatten im neuen System des Hauptservers nicht 100% korrekt läuft. Kein ernstes Problem, aber sie mussten es prüfen. Die Prüfung ergab "Sie werden weiter ein Auge darauf haben". Wir sehen diese Instabilität mit als Ursache für den ersten Serverabsturz an (Anfang Externer Link November, beim dem die Schließfachlogs auf EDE7 verloren gingen). In Folge davon war der Hauptserver anfällig. Dies wurde durch mehrere zehntausend Anfragen pro Tag noch verstärkt, die zu diesem Zeitpunkt durch die Betreiber diverser IRC-Newsbots zum Spiel sowie, laut Rechenzentrum, einer Externer Link DDoS-Attacke (ein Angriff, der auf die Überlastung der Hardware abzielt), weiter verschlimmert wurden.

Wir haben daher versucht bei jedem der möglichen Problembereiche die Belastung zu reduzieren. In dieser Folge wurden so unter anderem unsere Skripte weiter beschränkt (und z.B. die Auswertung der Wettkämpfe auf verschiedenen Spielservern auf verschiedene Zeitpunkte gelegt), aber auch die Abfragezahl und Schnittstellen für die Botbetreiber wurden geändert. Ein IRC-Newsbotbetreiber hat daraufhin auch, obwohl er die Änderung nachvollziehen konnte, seinen Dienst eingestellt. Wir danken trotzdem für seine Arbeit über lange Zeit. Es gibt aber nach wie vor Angebote, die die Spielereignisse aktuell in den IRC übertragen. Zudem können die Spielereignisse nun auch online eingesehen werden:
- Externer Link Spielereignisse

Aber auch im Rechenzentrum reagierte man entsprechend und aktivierte einen zusätzlichen Firewall-Filter. Dieser sperrte anschließend diverse IPs oder IP-Bereiche aus. Infolge dessen konnten einige wenige Spieler leider auch nicht mehr auf das Spiel bzw. komplett den Hauptserver zugreifen. Das war selbstverständlich nicht der Fehler der Spieler, aber für uns und das Rechenzentrum schwer zu erkennen, da wir erst die exakten Daten der Spieler (wie ihre sich ändernde IP) brauchten - um ein Muster zu haben welche Spieler bzw. Internetzugänge betroffen waren und um das Problem zu lösen. Das passierte dann auch.



Inzwischen sind also die gröbsten Probleme behoben. Natürlich kann es trotzdem ab und zu zu unvorhersehbaren Ereignissen kommen – ein Server kann mal kurz hängen oder auch ausfallen oder eine Verbindung Schwierigkeiten machen. So hing der Server gestern kurz für wenige Minuten – es war aber nichts Gravierendes. Es gab keinen Datenverlust und der Server startete auch nicht neu, sodass alle Spieler eingeloggt blieben. Insbesondere Datenverluste auszuschließen ist für uns einer der wichtigsten Punkte.

Auch bei der Einführung neuer Features oder der Verbesserung bestehender Features kann es theoretisch zu Ladeverzögerungen kommen. Beispielsweise hatten wir versucht die Zeitverzögerung, mit der ein Skill mit einem Skillaccount gestartet wird, weiter zu verringern, indem wir entsprechend die Ausführ-Häufigkeit des automatischen Prozesses erhöhten. Wir wollten so, im Sinne der Spieler, das Skillaccount-Feature verbessern (wobei es in diesem Fall nur als Beispiel dient - genauso werden andere Features immer wieder verbessert). Da helfen auch Tests vorher nur bedingt, da mit zehntausenden richtigen Spielern die Belastung immer eine andere sein wird als in einem Test, der sich so nicht simulieren lässt. Selbstverständlich haben wir bei Änderungen von uns aber immer die Kontrolle und achten ganz besonders darauf, dass der laufende Betrieb dadurch nicht gestört wird. Deswegen kommt es dabei auch wenn dann nur zu minimalen Ladeverzögerungen, da wir entsprechend darauf achten und sofort eingreifen bei Problemen. Ladeverzögerungen oder gar Ausfälle dadurch sind also extrem selten.



Für die Zukunft planen wir eine weitere Verteilung der benötigten Ressourcen. Nicht weil es technisch notwendig wäre (siehe oben), sondern um so z.B. die Spielserver unabhängiger voneinander zu machen und so nicht das gesamte Spiel lahm gelegt wird. Es wird aber immer wichtige Dienste geben ohne die der Rest nicht funktionieren kann. Insofern werden wir auch nie einen 100% störungsfreien Betrieb garantieren können, aber wir tun unser möglichstes und scheuen dabei auch weder Kosten noch Mühen. Ein flüssiger und zuverlässiger Betrieb des Spiels ist uns sehr wichtig, denn er ist die Grundlage des gesamten Spiels. Und wir entschuldigen uns für die Probleme.


Als Dank für eure Geduld und euer Verständnis werden wir das diesjährige Weihnachtsgeschenk verdoppeln. Jeder kann sich also statt nur einem gleich zwei Geschenke aussuchen.

Wir wünschen noch einen angenehmen Winter und viel Spaß beim SchoolWars-Spielen im Warmen!


- Euer SchoolWars-Team

  
Kommentare siehe unten 7 Kommentare   (Login erforderlich)


Du musst dich einloggen um Kommentare zu sehen oder selbst zu kommentieren.

Alterskennzeichnung
ab 16 Jahren