Hinter den Kulissen der RS-Wartungsarbeiten

Hinter den Kulissen der RS-Wartungsarbeiten

Wirf mit unserem Infrastruktur-Team einen Blick hinter die Kulissen!

Hinter den Kulissen der Wartungsarbeiten

Nach den zahlreichen kartoffelbezogenen Kommentaren in letzter Zeit haben wir keinen Zweifel daran, dass du über den diesjährigen Plan für Wartungsarbeiten Bescheid weißt. Wir dachten uns, dass es eine gute Idee wäre, dir einen besseren Einblick in das Was, das Warum und das Wie der Infrastruktur-Wartungsarbeiten bei Jagex zu geben.

Da es um die Infrastruktur geht, wird es einige technische Fachbegriffe geben, aber wir werden unser Bestes geben, es so einfach wie möglich zu halten. Also, legen wir los!

Worum handelt es sich bei Infrastruktur-Wartungsarbeiten und warum sind diese wichtig?

Infrastruktur-Wartungsarbeiten sind die (unserer Meinung nach) unfairerweise verteufelten Geschwister der Spielupdates. Bei ihnen geht es um die Instandhaltung, Optimierung und Skalierung der technischen Fundamente, die die Welten von Gielinor antreiben!

Infrastruktur-Wartungsarbeiten beinhalten Aktivitäten wie die folgenden:

  • Die Welt muss sich weiterdrehen: Wartungsarbeiten an Hard- und Software ermöglichen uns, alternde Ausstattung zu ersetzen und Schwachstellen zu reparieren, um Fehler fernzuhalten, und Dienste zu moderneren oder skalierbaren Einrichtungen zu migrieren.
  • Der Schutz deiner Gegenstände: Unsere Datenbanken werden so eingestellt, dass sichergestellt wird, dass dein Umhang der Maximierung stabil gelagert wird und schnell abgerufen werden kann.
  • Reibungslose und effiziente Klicks: Wartungsarbeiten am Netzwerk stellen sicher, dass deine rasanten und Tick-perfekten Mausklicks uns so reibungslos und effizient wie möglich erreichen.
  • Fehlererkennung und -behebung: Verbesserungen an der Überwachung und Automatisierung stellen sicher, dass wir Probleme erkennen und beheben können, bevor Spieler*innen sie überhaupt bemerken.
  • Die Fütterung der Hamster: Sonst haben sie die Tendenz, auf unsere Augen loszugehen!

Es gibt ein Zitat von Dan Simmons über Entropie, welches wir hier nicht wiederholen werden, aber der Kern der Sache ist, dass alle Systeme irgendwann verkommen, ganz egal, wie gut sie gebaut sind. So wie Bauarbeiten an Straßen nötig sind, müssen auch wir ständig Wartungsarbeiten vornehmen, damit unsere Infrastruktur weiter funktioniert. Unsere Arbeiten stellen sicher, dass unsere Spiele stabil, schnell und sicher bleiben, idealerweise, ohne dass du es überhaupt mitbekommst.

Was nutzen Infrastruktur-Wartungsarbeiten den Spieler*innen?

Wir möchten dir gerne ein paar konkrete Beispiele dafür geben, wann Wartungsarbeiten an der Infrastruktur den Spieler*innen in den letzten Jahren zugutegekommen sind.

Du erinnerst dich bestimmt noch an die Login-Sperren-Situation. Es ist uns allen sehr wichtig, dass Situationen wie diese so weit es geht vermieden werden! Genau aus diesem Grund ist einer der Schwerpunkte, auf die wir uns konzentrieren, die Verbesserung unserer Backup- und ständigen Datensicherungsfunktionen, um das Risiko zu mindern, dass so etwas noch einmal passiert.

Hier sind ein paar weitere Beispiele:

  • Die Reduzierung der Notwendigkeit für Offline-Wartungsarbeiten: Ja, unsere Spielwelten waren mal physische Maschinen. Wir sind zu virtuellen Maschinen übergegangen, um Live-Migration zu ermöglichen und den Bedarf, das Spiel offline zu nehmen, zu verringern.
  • Tick-Höchstleistung: Ticks sind extrem wichtig und wir haben unsere Hardware aufgerüstet, damit die Server für akkurate Ticks optimiert sind.
  • Verbesserte Stabilität: Spielwelten haben ein Ausführungsmodell wie in Echtzeit. Wir haben über JVM (Java Virtual Machine) zu einem pausenlosen Müllsammler gewechselt – ja, den gibt es wirklich –, der dabei hilft, die Tick-Leistung zu optimieren.
  • Verbesserte Zuverlässigkeit von Jagex-Konten: Auch wenn es sich dabei um ein noch recht neues System handelt, haben wir bereits Verbesserungen vorgenommen, indem wir in eine moderne und skalierbare "Amazon Web Services-EKS/RDS"-Infrastruktur implementieren.
    • Dies erlaubt uns, containerisierte Anwendungen ohne die Komplexität der Verwaltung der zugrundeliegenden Infrastruktur anwenden, verwalten und skalieren zu können, was eine große Hilfe ist!
  • Verringerte Ausfallzeiten: Wir sind kürzlich von einem alternden Rechenzentrum zu einem neueren Tier-3-Rechenzentrum migriert, was uns zusätzliche Verlässlichkeit gibt und dabei hilft, das Risiko von Stromausfällen zu mindern.

Wir haben immer die Zukunft unserer Infrastruktur im Kopf und lernen, wann immer wir können. Das Team, dass am nun stillgelegten Projekt Zanaris gearbeitet hat, hat beispielsweise fantastische Arbeit geleistet, die uns dabei helfen wird, mehr Systeme in AWS zu migrieren und so die Notwendigkeit für Offline-Wartungsarbeiten zu reduzieren.

Wie bereits erwähnt, spielen Ticks hierbei eine große Rolle, weshalb wir die Möglichkeit untersuchen, unsere Virtualisierungsplattform für Spielwelten zu ändern, um von einem Coscheduling-CPU-Planer (ESXi) zu einem asynchronen Planungsprogramm (Linux-CFS/PREEMPT_RT-Einstellung unter KVM) zu wechseln. Das waren sehr viele technische Fachbegriffe, aber die wichtigste Erkenntnis hierbei ist, dass dies dabei helfen wird, verpasste Spielticks unter Bedingungen hoher Belastung zu reduzieren.

Häufige Beschwerden

Auszeiten sind gut, um Hausarbeiten zu erledigen und tatsächlich mit der Arbeit weiterzukommen, aber wir wissen, dass du gerne weiter auf deinem zweiten Bildschirm deine Fertigkeiten trainieren willst. Unsere Arbeiten sind wichtig für die langfristige Gesundheit des Spiels, aber wir möchten offen mit dir über einige der häufigsten Problempunkte kommunizieren, die wir sehen, wenn das Spiel offline genommen wird.

Weshalb kommt es bei Infrastruktur-Wartungsarbeiten zu Serverauszeiten?

Dies wird dich vielleicht überraschen, aber im Allgemeinen tut es das nicht. Die meisten unserer Infrastruktur-Arbeiten werden ohne jegliche Auszeiten erledigt.

Es gibt jedoch bestimmte Aktivitäten – mehr, als wir gerne hätten –, die nicht umgesetzt werden können, während unsere Spiele online sind. Dies liegt zum Teil an der Natur der Arbeit an fantastischen Spielen mit einer 24-jährigen Geschichte. Einige Software-Komponenten gibt es schon seit einer langen Zeit und sind nicht so horizontal skalierbar oder dynamisch, wie uns lieb wäre.

In einigen Fällen schließt dies Ansätze wie Blau-Grün-Implementierungen (nahtloses Wechseln zwischen zwei Versionen) oder rollende Updates (allmähliche Systemupdates) aus.

Das heißt nicht, dass wir uns mit Serverauszeiten einfach zufrieden geben. Wir versuchen immer sicherzustellen, dass unsere Updates und Änderungen so wenig Leute wie möglich und so kurz wie möglich betreffen.

Warum dauert es sooooo lang? #lasstmichrein

Wir alle möchten, dass diese Dinge so schnell wie möglich erledigt werden.

Wenn wir Auszeiten für Infrastruktur-Wartungsarbeiten einplanen, statt dies online hinter den Kulissen zu machen, liegt das oft daran, dass wir an Teilen der Infrastruktur arbeiten, die an der Persistenz beteiligt sind. Die zwei hauptsächlichen Bereiche hierbei sind Zahlungen und Bestände sowie, was für dich am wichtigsten ist, Spielstände.

Wenn Jagex erhebliche Arbeiten an diesen Systemen vornimmt, von denen manche Daten in Jagex' eigenen proprietären Formaten speichern, liegt unser vorrangiger Fokus nicht auf der Geschwindigkeit, sondern auf der Genauigkeit. Der Großteil des Wartungsarbeitenfensters geht dafür drauf, zu validieren, dass die Spielstände der Spieler*innen und der Status des Spiels korrekt sind, bevor die Spiele wieder online gehen.

Niemand freut sich über Zurücksetzungen und einer der Gründe, weshalb Serverauszeiten so lang andauern, ist, dass wir unser Bestes geben, zu gewährleisten, dass es aufgrund von Infrastruktur-Arbeit niemals zu Zurücksetzungen kommt.

Trotzdem versammelt sich das Team immer nach allen wesentlichen Wartungsarbeiten, insbesondere, wenn es eine Serverauszeit gab, für eine rückwirkende Überprüfung, um zu sehen, was wir beim nächsten Mal verbessern können!

Warum sind Infrastruktur-Wartungsarbeiten normalerweise global? Warum werden Wartungsarbeiten nicht lokal eingeplant?

Old School RuneScape und RuneScape sind in der Hinsicht, dass unsere Spieler*innen nicht auf Regionen beschränkt sind, ziemlich einzigartig. Dies hat zur Folge, dass der Spielstatus und andere Backend-Dienste globale Konstrukte sind. Wenn wir störende Wartungsarbeiten an diesen globalen Backend-Diensten vornehmen, erfordert dies eine globale Serverauszeit.

Viele regionsspezifische Wartungsarbeiten, die wir vornehmen, sind bereits transparent für die Spieler*innen. Wir versuchen, wo möglich, mehr Dinge nach Region umzusetzen.

Unsere Wartungsarbeiten finden meistens zwischen 8 und 14 Uhr Spielzeit statt, was unserer Arbeitszeit hier in Großbritannien entspricht. Wir wissen, dass dies für diejenigen in anderen Zeitzonen frustrierend sein kann, aber diese Zeiten bedeuten, dass wir das ganze Team zur Verfügung haben, falls es zu unvorhergesehenen Problemen kommt.

Wir haben uns andere mögliche Zeitfenster angesehen, um die Auswirkungen ab und zu zwischen den Demografien zu verlagern, aber dies muss noch weiter diskutiert werden.

Das war's für heute

Das war alles! Wie immer kannst du dich über unsere sozialen Kanäle, Hilfeseiten-Artikel oder die Spielstatus-Seite über anstehende Wartungsarbeiten informieren. Wir empfehlen hierfür die englischsprachigen Seiten, um sicherzugehen, dass alle Informationen aktuell sind.

Wir hoffen, dass dir dies einen besseren Einblick in unsere laufenden Mühen, dein Erlebnis zu verbessern, gibt, und es verdeutlicht, weshalb es manchmal nötig ist, die Spielwelten offline zu nehmen. Wenn dir diese Art von Beitrag gefällt, dann lass es uns wissen! Das Team ist erpicht darauf, dir in zukünftigen Beiträgen mehr zu erzählen.

Danke, dass du dir die Zeit genommen hast, diesen Blog zu lesen. Möge das RNG mit dir sein!


~ Die Infrastruktur-J-Mods

Mods Kraken, Vxp, Bash, Maniac, Vallcore, Haydon, Maniac, Cky, Qwert, Drax, M0iqp, Ibex, Adad, Roman... und 🐹


Zurück nach oben