Was bedeutet hochverfügbar in der Automatisierungstechnik und für Rechenzentren?

Tim Kuchel
15. Juli
11 Min. Lesezeit

Hochverfügbarkeit bezeichnet die Fähigkeit eines Systems, trotz Ausfalls einzelner Komponenten den Betrieb nahezu unterbrechungsfrei aufrechtzuerhalten. In der IT und Automatisierung bedeutet dies, dass Anwendungen oder Steuerungen auch im Fehlerfall verfügbar bleiben und ohne unmittelbaren menschlichen Eingriff weiterlaufen. Oft wird Hochverfügbarkeit quantitativ an der prozentualen Verfügbarkeit gemessen. Eine Verfügbarkeit von 99,9 % oder höher gilt als hochverfügbar. Hochverfügbare Systeme sollen maximal wenige Minuten oder Sekunden pro Jahr ungeplant ausfallen.

Industrielle Automatisierungsanlage mit hochverfügbare Automatisierungstechnik. SPS-Technik für Produktionsprozesse mit hochverfügbare Netzwerktechnik. — Künstlerische Darstellung einer Automatisierungsanlage mit hochverfügbarer Automatisierungstechnik.

Technische Prinzipien und Architekturkonzepte

Hochverfügbarkeit wird durch spezielle Architekturprinzipien erreicht:

Redundanz: Kritische Komponenten werden mehrfach vorhanden (redundant) ausgelegt, um Single Points of Failure (SPOF) zu eliminieren. Fällt eine Komponente aus, übernimmt eine andere nahtlos deren Aufgabe. Man unterscheidet hierbei verschiedene Redundanzarten:
- N+1 Redundanz: Ein System mit N aktiven Einheiten verfügt über eine zusätzliche (passive oder aktive) Einheit als Reserve. Beispiel: Bei vier parallel arbeitenden Servern (N=4) stellt ein fünfter Server (+1) sicher, dass bei Ausfall eines Servers die Last weiterhin von vier Servern getragen wird. N+1 garantiert also Betrieb bei Ausfall einer Komponente.
- 2N Redundanz: Vollständige Spiegelung aller Komponenten. Jedes Systemteil ist doppelt vorhanden, sodass selbst ein Totalausfall der Hälfte der Infrastruktur kompensiert wird. In Rechenzentren bedeutet 2N z.B. zwei unabhängige Stromversorgungs- oder Kühlkreisläufe.
- 2N+1: Kombination aus beidem, jede Komponente ist doppelt vorhanden und zusätzlich existiert noch eine Backup-Einheit. Dies bietet maximale Absicherung, ist aber sehr aufwendig.
- Aktiv/Aktiv vs. Aktiv/Passiv: Bei aktiv-aktiver Redundanz (Hot Redundancy) arbeiten mehrere gleichwertige Einheiten parallel unter Last. Fällt eine aus, übernehmen die verbleibenden ohne Schaltvorgang die Last, idealerweise ohne Leistungseinbuße. Aktiv-passiv (Standby-Redundanz) bedeutet hingegen, dass eine Einheit aktiv arbeitet und eine zweite als Hot-Standby bereitsteht. Im Fehlerfall erfolgt ein automatischer Umschaltvorgang („failover“), wodurch der zuvor passive Knoten die Aufgabe übernimmt. Wichtig ist dabei eine kurze Umschaltzeit, im Idealfall ein “fliegender Wechsel” ohne merkliche Unterbrechung.
- Kalte vs. warme Reserve: Eine kalte redundante Komponente ist im Normalfall ausgeschaltet oder nicht synchron, sie muss im Störfall erst hochgefahren oder manuell zugeschaltet werden. Warme (warm standby) Komponenten laufen bereits mit, sind aber nicht in Betrieb, sodass die Umschaltung schneller erfolgen kann. Hot-Standby bezeichnet meist eine nahezu verzugsfreie Übernahme (die passive Einheit läuft synchronisiert mit).
Fehlertoleranz & Failover: Hochverfügbare Systeme sind so konstruiert, dass ein Fehler einer Komponente keinen Systemstillstand verursacht. Dies wird durch Failover-Mechanismen erreicht: erkennt das System einen Fehler, erfolgt automatisch der Wechsel auf die redundante Komponente. Idealerweise passiert dies stoß- und nahtlos (bumpless transfer), sodass z.B. in einem Prozess keine Regelungs-“Sprünge” auftreten. In industriellen Netzwerken gibt es hierfür spezielle Verfahren, etwa senden Profinet-Netzwerke in einer Redundanz-Ringtopologie mit MRP(D) bei Kabelbruch die Telegramme stoßfrei über eine alternative Verbindung weiter. Auch redundante Steuerungen synchronisieren ihren Prozessabbild ständig, um im Failover-Fall ohne merkliche Verzögerung zu übernehmen.
Vermeidung von Einzel-Ausfallpunkten (SPOF): Jede Komponente, deren Ausfall das Gesamtsystem lahmlegt, muss entweder redundant ausgeführt oder eliminiert werden. Das umfasst Hardware (Server, Steuerungen, Netzteile), aber auch Netzverbindungen, Datenspeicher und selbst zentrale Controller für die Redundanzsteuerung. Letztere dürfen nicht selbst zum SPOF werden, daher müssen auch Umschalt-Controller oder Überwachungsinstanzen redundant vorhanden sein.

Zusätzlich spielen Diversität und räumliche Trennung eine Rolle: Redundante Systeme sollten möglichst unabhängig ausfallen können. Unterschiedliche Hersteller oder Technologien (sogenannte diversitäre Redundanz) stellen sicher, dass ein gemeinsamer Fehler (z.B. ein Software-Bug oder Bauartfehler) nicht alle redundanten Stränge trifft. Auch sollte redundante Hardware physisch getrennt aufgestellt sein, um etwa Brandschäden oder Überspannung nicht gleichzeitig beide Teile zu treffen.

Implementierungen in Industrieanlagen und Rechenzentren

Die konkreten Methoden, mit denen Hochverfügbarkeit erreicht wird, unterscheiden sich leicht zwischen klassischer Industrieautomatisierung (Operational Technology, OT) und IT-Infrastruktur in Rechenzentren, folgen aber denselben Prinzipien.

Redundante Steuerungs- und Leitsysteme (SPS, DCS, SCADA)

In Industrieanlagen sind speicherprogrammierbare Steuerungen (SPS) und Leit-/SCADA-Systeme das Herz der Automation. Ein Ausfall der Steuerung kann Produktionsstillstand bedeuten, deshalb bieten viele Hersteller redundante SPS-Systeme an.

Beispiele: Siemens Simatic S7-1500H/R arbeitet mit einer synchronisierten Primär- und Backup-CPU, die im Hot-Standby verbunden sind. Fällt die Primär-CPU aus, übernimmt die Backup-CPU den Betrieb, ohne dass Daten verloren gehen.

Leitsysteme / SCADA: Auch auf der Leitebene werden Server oft redundant ausgelegt. Im Fehlerfall des aktiven Servers erfolgt ein automatischer “fliegender Wechsel” auf den passiven Server, der den Betrieb übernimmt, während Clients praktisch nahtlos weiterlaufen. Solche SCADA-Redundanzkonzepte garantieren hohe Verfügbarkeit der Überwachungs- und Bedieneinrichtungen und minimieren Datenverlust (historische Datenbanken werden synchron gehalten). Wichtig sind dabei Mechanismen zur Datenkonsistenz (beide Server halten ein identisches Prozessabbild) und zur Fehlererkennung (Heartbeat-Überwachung der Server und automatische Umschaltung bei Ausbleiben von Lebenszeichen). Auch lässt sich oft ein “Split-Betrieb” nutzen: der Standby-Server kann vorübergehend für Tests abgekoppelt werden und später wieder synchronisiert werden, um Updates im laufenden Betrieb zu ermöglichen.

Redundante Netzwerke und Stromversorgung

Netzwerkredundanz: In vernetzten Anlagen und Rechenzentren ist das Netzwerk eine kritische Infrastruktur. Redundante Ethernet-Strukturen sorgen dafür, dass der Ausfall eines Switches oder einer Leitung nicht den Kommunikationsfluss stoppt. Typische Konzepte sind Ring-Topologien mit Rapid Spanning Tree oder proprietären Protokollen (z.B. Media Redundancy Protocol, MRP in Profinet), hierbei gibt es alternative Pfade im Netzwerk. Moderne Ansätze wie Parallel Redundancy Protocol (PRP) oder HSR (High-availability Seamless Redundancy) senden Datenpakete parallel über zwei unabhängige Netze, sodass beim Ausfall eines Weges gar keine Umschaltverzögerung entsteht (Zero Recovery Time).

In der Praxis werden häufig redundante Switches und Doppelnetzwerkanschlüsse verwendet: wichtige Geräte besitzen zwei Netzwerkschnittstellen, die an unabhängige Switch-Infrastrukturen (Netzwerk A/B) angeschlossen sind. Damit wird ein einzelner Switch zum Ausfall ohne Wirkung auf das Gerät. Protokolle wie VRRP oder HSRP (Hot Standby Router Protocol) sichern zudem die Redundanz auf Routing- und Gateway-Ebene.

Ausfallsichere Stromversorgung: Eine wesentliche Voraussetzung für Hochverfügbarkeit ist die Stromversorgung ohne Unterbrechung. Hier kommen USV-Anlagen (Unterbrechungsfreie Stromversorgung) und Dieselgeneratoren zum Einsatz. Üblich sind N+1 oder 2N-Konzepte: Beispielsweise werden in hochverfügbaren Rechenzentren mindestens zwei unabhängige Stromversorgungsketten vom Netz über USV bis zur Endverteilung aufgebaut. Serverracks sind oft mit Dualen Stromzuführungen ausgestattet: Jedes Rack hat zwei PDU-Leisten, die aus unterschiedlichen USV-Kreisen gespeist werden, und alle Server besitzen zwei Netzteile, von denen jedes an eine der beiden PDUs angeschlossen ist. So läuft ein Server bei Ausfall eines Strompfades automatisch mit dem zweiten Netzteil weiter.

Virtualisierung, Cluster und Monitoring

In der IT-Welt und Prozessautomatisierung wird Hochverfügbarkeit oft über Cluster-Lösungen und Virtualisierung erreicht. Hypervisor-Plattformen wie VMware vSphere oder Proxmox VE bieten integrierte HA-Funktionen: Mehrere Server bilden einen Cluster, auf dem virtuelle Maschinen (VMs) laufen. Fällt ein Host-Server aus, werden die darauf laufenden VMs automatisch auf andere Hosts neugestartet oder weitergeführt. VMware HA überwacht Hosts via Heartbeat, bei Ausfall eines Hosts startet es dessen VMs innerhalb weniger Minuten auf den verbleibenden Hosts neu. Proxmox nutzt einen HA-Manager und benötigt ein Quorum und Fencing (z.B. via Watchdog), um im Fehlerfall VMs kontrolliert auf andere Knoten zu verschieben. So wird aus Sicht der VM der Dienst nur sehr kurz unterbrochen (die Neustartzeit).

Neben VMs sorgt auch Container-Orchestrierung für Ausfallsicherheit, Kubernetes z.B. verteilt Container-Workloads auf mehrere Nodes und startet sie neu, falls ein Node ausfällt. Dies wird in der Industrie interessant für Edge-Cloud-Konzepte.

Monitoring und Frühwarnung spielen ebenfalls eine Rolle: Tools wie CheckMK oder andere Monitoring-Systeme überwachen kontinuierlich den Zustand von Servern, Steuerungen und Netzwerkkomponenten. Sie erkennen drohende Ausfälle (z.B. Festplatten-Degradation, hohe CPU-Temperatur) frühzeitig und alarmieren, bevor ein Ausfall eintritt. Zwar erhöhen Monitoring-Systeme nicht direkt die Verfügbarkeit, aber sie sind essenziell für Fehlererkennung und schnelle Reaktionszeiten, ein wichtiger Teil der Hochverfügbarkeitsstrategie.

Schließlich sei Backup und Disaster Recovery erwähnt: Hochverfügbarkeit umfasst nicht nur die Vermeidung von Ausfällen, sondern auch schnelle Wiederherstellung. In virtualisierten Umgebungen können Snapshots, Replikation und Failover-Rechenzentren (Stichwort Geo-Redundanz) dafür sorgen, dass bei größeren Störungen (Brand, Überschwemmung, Softwarefehler) der Betrieb an einem zweiten Standort weitergeht. Hier kommen Konzepte wie Active-Active-Rechenzentren oder Storage-Replikation zum Einsatz, oft gekoppelt mit klar definierten Metriken für Wiederanlauf (siehe RTO/RPO unten).

Kennzahlen und Metriken der Verfügbarkeit

Um Hochverfügbarkeit mess- und planbar zu machen, werden verschiedene Metriken verwendet:

MTBF (Mean Time Between Failures) / Mittlere Betriebsdauer zwischen Ausfällen: statistisch erwartete Zeit, die ein System im Schnitt ohne Fehler läuft. Eine hohe MTBF bedeutet, dass Ausfälle selten auftreten. MTBF wird meist in Stunden angegeben und aus Ausfallstatistiken berechnet. Beispiel: MTBF = 100 000 h heißt, im Durchschnitt tritt alle 100k Stunden ein Fehler auf.
MTTR (Mean Time To Repair) / Mittlere Reparaturdauer: durchschnittliche Zeit, um einen Ausfall zu beheben und das System wieder in Betrieb zu nehmen. MTTR umfasst Fehlerdiagnose, Ersatzteilbeschaffung, Reparatur/Neustart. Je niedriger MTTR, desto schneller ist das System wieder verfügbar.
RTO (Recovery Time Objective) / die wiederherzustellende Zeitvorgabe: Dieser Wert definiert, wie lange ein Systemausfall maximal dauern darf, bis die Dienste wiederhergestellt sein müssen. RTO wird in Business Continuity Plänen festgelegt (z.B. „max. 1 Stunde Downtime“). HA-Systeme zielen auf sehr geringe RTO, bei Failover-Clustern liegt die RTO oft bei Sekunden oder Null (nahtlose Übernahme).
RPO (Recovery Point Objective) / Wiederherstellungspunkt-Ziel: gibt an, wie viel Datenverlust im Worst Case toleriert werden kann, gemessen in Zeit. Z.B. RPO = 0 bedeutet kein Datenverlust (Alle Transaktionen sollen erhalten bleiben); RPO = 10 Minuten würde bedeuten, Backups/Redundanz sind so ausgelegt, dass maximal die letzten 10 Minuten an Daten verloren gehen. In hochverfügbaren Transaktionssystemen (Banking, Produktionssteuerung) wird ein RPO von ~0 angestrebt, etwa durch synchrone Spiegelung von Datenbanken.

Verfügbarkeitsgrade (”9er-Klassen”): Üblich ist die Angabe der Verfügbarkeit in Form von 99%, 99.9%, 99.99% usw. Kleine Unterschiede in Prozent bedeuten große Unterschiede in Downtime.

Verfügbarkeit	Ausfallzeit pro Monat	Ausfallzeit pro Jahr
99 %	7:18 Stunden	87,7 Stunden
99,9 %	43:50 Minuten	8:45 Stunden
99,99 %	4:23 Minuten	52:36 Minuten
99,999 %	26 Sekunden	5:16 Minuten
99,9999 %	2,6 Sekunden	31,6 Sekunden

Ein System mit ”fünf Neunen” (99,999 %) Verfügbarkeit darf nur etwa 5 Minuten ungeplant pro Jahr ausfallen, während 99 % Verfügbarkeit über 87 Stunden Stillstand erlauben würde.

In der Industrie gelten Werte ab ~99,9 % aufwärts als hochverfügbar. In Rechenzentren mit Service Level Agreements (SLAs) werden oft „Drei Neunen“ (99,9%) für Standarddienste und „Fünf Neunen“ für kritische Dienste abgeschlossen. Wichtig ist jedoch, den Betrachtungszeitraum zu definieren (Monat, Jahr) und auch Faktoren wie geplante Wartungsfenster auszuklammern.

Hochverfügbarkeit bezieht sich meist auf ungeplante Ausfälle außerhalb definierter Wartungszeiten.

Balkendiagramm zur jährlichen Ausfallzeit in Stunden bei unterschiedlicher Verfügbarkeit. — Verfügbarkeitsstufen und ungefähre erlaubte Ausfallzeit pro Jahr: Je höher die Systemverfügbarkeit, desto kürzer die jährliche Ausfallzeit.

Praxisbeispiele und Herstellerlösungen

Zahlreiche Hersteller in Automatisierungstechnik bieten Lösungen für Hochverfügbarkeit:

Siemens: Im Bereich Automatisierung etwa mit SIMATIC S7-400H und aktuell S7-1500H/R-CPUs, die redundante Steuerungspaare ermöglichen. Ergänzend gibt es hochverfügbare I/O-Systeme (ET200 redundant ausgelegt) und SCADA-Server (WinCC Server Redundanz). Siemens PCS 7 Leitsysteme integrieren Redundanz nahtlos für Controller, Server und Netzwerke. In Netzwerken sorgt Siemens’ Media Redundancy Protocol (MRP) und PRP für bumpless Netzwerkausfallsicherheit.
Beckhoff Automation: Verfolgt einen software-orientierten Ansatz. Mit TwinCAT 3 Redundancy hat Beckhoff drei Module: EtherCAT Redundancy (Redundanter Feldbusring), Parallel Redundancy Protocol (Netzwerkredundanz IEC 62439 PRP) und Controller Redundancy. Letzteres erlaubt es, zwei Standard-Industrie-PCs mit TwinCAT als aktive/standby SPS laufen zu lassen. Beide Rechner synchronisieren sich über eine Redundanzverbindung; im Fehlerfall wechselt die standby-SPS in wenigen Zyklen in den aktiven Modus und steuert die Maschine unterbrechungsfrei weiter.
Schneider Electric: Bietet mit Modicon Quantum und Modicon M580 PLCs für hochverfügbare Anwendungen. Die Hot-Standby-Funktion erlaubt zwei SPSen im Paarbetrieb: Sie synchronisieren ihren internen Speicher, und bei Ausfall der primären SPS übernimmt die sekundäre in <1 Sekunde den Prozess (kurze Umschaltzeit).
WAGO: Neben I/O-Systemen bietet WAGO z.B. hochverfügbare Stromversorgungslösungen. Die Pro 2 Schaltnetzteile haben integrierte Redundanzfunktion (paralleler Betrieb 1+1 ohne externes Modul) und können via Kommunikationsmodul überwacht werden. Für Steuerungen setzt WAGO auf CODESYS-basierte PLCs; Hochverfügbarkeit wird hier über Software (CODESYS Redundancy, wie im nächsten Punkt) oder systemredundante Feldbusse (z.B. doppelte Ethernetschnittstellen, Profibus-DP-Duplikation) erreicht.

In Rechenzentren sind Herstellerlösungen wie VMware vSphere HA und Microsoft Failover Cluster verbreitet, ebenso Open-Source wie Proxmox oder Kubernetes für Container.

Ergänzend gibt es spezialisierte Lösungen: z.B. Stratus ftServer (ein fehlertoleranter Server mit gespiegelter Hardware, der nach außen als eine Maschine erscheint) oder VMware Fault Tolerance, welche eine VM live auf zwei Hosts simultan ausführt (im Fehlerfall läuft die sekundäre VM ohne Unterbrechung weiter).

Datenbanken wie Oracle RAC oder Microsoft SQL Server AlwaysOn ermöglichen aktive Cluster, wo mehrere Knoten gleichzeitig als DB-Server fungieren. In der Überwachung bieten Lösungen wie CheckMK Integrationen, um z.B. Proxmox-Cluster oder VMware zu monitoren, so werden potentielle Probleme rechtzeitig erkannt. Hersteller wie Siemens, ABB, GE übertragen zunehmend IT-Konzepte auch in OT-Umgebungen (Stichwort Edge Computing mit hochverfügbaren, virtualisierten Steuerungen auf Industrie-Servern).

Strategische und wirtschaftliche Überlegungen

Bei allen technischen Möglichkeiten muss ein Unternehmen strategisch entscheiden, welcher Aufwand für Hochverfügbarkeit gerechtfertigt ist. Denn vollständige Redundanz ohne SPOF (Single Points of Failure) in allen Bereichen kann sehr teuer werden. Hier einige Überlegungen:

Kosten-Nutzen-Analyse: Man stellt die Kosten der Redundanz den potenziellen Folgekosten eines Ausfalls gegenüber. In kritischen Branchen (z.B. Chemieanlage, Raffinerie, Rechenzentrum eines Online-Händlers) können Stunden oder sogar Minuten Ausfall sechs- bis siebenstellige Beträge kosten oder Sicherheitsrisiken bedeuten. Dort lohnen sich Investitionen in 2N- oder georedundante Lösungen, da jeder vermiedene Ausfall bares Geld und Reputation sichert. In weniger kritischen Umgebungen (z.B. kleine Fertigung, wo ein Anlagenstopp für 1 bis 2 Stunden tolerierbar ist) reicht evtl. eine einfachere N+1-Redundanz aus, die soliden Ausfallschutz bietet, ohne die Kosten einer vollständigen Verdopplung der Infrastruktur.
Business Continuity Management (BCM): Hochverfügbarkeit ist Teil der BCM-Strategie. Es gilt, Kritikalitätsanalysen durchzuführen: Welche Systeme sind geschäftskritisch und wie viel Downtime ist maximal akzeptabel? Daraus leiten sich RTO/RPO-Vorgaben ab, die die Grundlage für technische Maßnahmen bilden. Etwa kann ein Unternehmen definieren, dass sein ERP-System max. 1 Stunde ausfallen darf (RTO=1h) und keine Transaktion verlieren soll (RPO≈0), entsprechend müsste eine HA-Datenbank, Failover-Cluster und ggf. offsite-Replikation eingerichtet werden. Weniger kritische Systeme (z.B. interne Testserver) benötigen diesen Aufwand nicht.
Wartungsfreundlichkeit: Hochverfügbare Architektur reduziert nicht nur unvorhergesehene Ausfälle, sondern ermöglicht oft auch Wartung im laufenden Betrieb. Redundante Systeme können abwechselnd gewartet oder upgedatet werden, während die andere Komponente den Betrieb fortführt. Diese wartungsbedingten Downtimes werden so ebenfalls minimiert. Bei der Planung sollte berücksichtigt werden, ob das HA-System geplante Unterbrechungen (für Updates, Hardwaretausch) toleriert oder ob dafür ebenfalls Redundanz vorgesehen werden muss.
ROI und langfristiger Nutzen: Die Investition in Hochverfügbarkeit sollte über den Lebenszyklus betrachtet werden. Zwar sind redundante Systeme in Anschaffung und Betrieb teurer (mehr Hardware, Lizenzen, Stromverbrauch, Wartungsverträge), doch können sie teure Produktionsausfälle verhindern und so indirekt Geld sparen. Oft ist der Image-Schaden durch Ausfälle (etwa ein Online-Dienst mit häufigen Downtimes) ebenfalls zu berücksichtigen. Entscheider sollten idealerweise das Worst-Case-Szenario monetär bewerten (z.B. „Tagesausfall kostet 500 k€“ vs. „HA-Cluster kostet 50 k€ mehr als Single-System“), auf dieser Basis lässt sich der Return on Investment (ROI) einer HA-Lösung abschätzen.
Komplexität vs. Einfachheit: Ein interessanter Aspekt, mehr Redundanz bedeutet auch mehr Komponenten, was die Gesamtkomplexität erhöht. Jede zusätzliche Komponente ist potenziell eine weitere Fehlerquelle. Moderne Ansätze versuchen daher, Hochverfügbarkeit mit möglichst simplen Mitteln zu erreichen, etwa Standardhardware mit cleverer Software anstatt exotischer Speziallösungen. Die Architektur sollte so einfach wie möglich gehalten werden, um menschliche Fehler und komplexe Fehlerszenarien zu reduzieren. Ebenso ist darauf zu achten, dass Personal und Prozesse angepasst werden: HA-Systeme nützen wenig, wenn Bediener im Fehlerfall falsch reagieren oder ohne Monitoring-Systeme betrieben werden. Daher gehören Schulungen und Probedurchläufe (z.B. Failover-Tests) zum Konzept.

Zusammengefasst ist Hochverfügbarkeit immer auch eine strategische Entscheidung: Welche Redundanzstufe ist die richtige? Ein „Zuviel“ an Redundanz kann unwirtschaftlich sein, ein „Zuwenig“ aber im Ernstfall existenzbedrohend. Hier hilft eine Risikoanalyse und Einteilung der Systeme nach Kritikalität. Redundanz sollte als Investition gesehen werden, die sich durch die Vermeidung von Ausfällen und die Sicherstellung der Geschäftskontinuität auszahlt.

Normen, Standards und Trends

Aktuelle Standards und Normen unterstützen Unternehmen dabei, Hochverfügbarkeitsziele strukturiert umzusetzen:

IEC 61508 / 62443 (Functional Safety & Security): IEC 61508 ist die Grundnorm für funktionale Sicherheit industrieller Elektronik. Sie fordert u.a., je nach erforderlichem Safety Integrity Level (SIL), fehlertolerante Architekturen. Ein System, das für SIL 3/4 redundant ausgelegt ist, hat meist auch eine hohe Verfügbarkeit im Betrieb. Hochverfügbarkeit kann Teil der Schutzmaßnahme gegen DoS-Angriffe oder Sabotage sein.
ISO/IEC 27001 (Informationssicherheit): Dieser Standard für Informationssicherheits-Managementsysteme (ISMS) betrachtet neben Vertraulichkeit und Integrität auch die Verfügbarkeit von Informationen und IT-Systemen als zentralen Aspekt.
EN 50600 / TÜV TSI (Rechenzentrumsverfügbarkeit): Die europäische Norm EN 50600 definiert Verfügbarkeitsklassen VK 1-4 für Rechenzentren, ähnlich den internationalen Tier I-IV Kategorien.

Markttrend “Edge und Cloud-HA”: Mit zunehmender Digitalisierung verschwimmen die Grenzen zwischen klassischer OT und IT. Trends wie Edge Computing führen dazu, dass in Fabriken kleine Rechenzentren entstehen. Gleichzeitig ermöglichen Cloud-Dienste eine verteilte Hochverfügbarkeit, z.B. können industrielle Steuerungsdaten redundant in der Cloud gespiegelt und im Fehlerfall durch cloudseitige Logik überbrückt werden. Virtualisierung in der Industrie (Stichwort Soft-SPS auf VMs) nimmt zu, und damit werden IT-HA-Konzepte (VM-Failover, Live-Migration) auch für Anlagensteuerungen nutzbar. Hersteller reagieren darauf mit speziellen Angeboten: z.B. Siemens Industrial Edge mit Failover-Fähigkeiten, oder Schneider Electric’s Kooperation mit Stratus für fehlertolerante Edge-Server.

Einfachere Redundanz für den Mittelstand: Früher waren hochverfügbare Dual-SPS oder Cluster-Lösungen vor allem in Großanlagen (Kraftwerke, petrochemische Anlagen, Banken-IT) zu finden. Ein beobachtbarer Trend ist, dass auch kleinere Unternehmen verstärkt Hochverfügbarkeit verlangen, z.B. um 24/7-Produktion in Just-in-Time-Lieferketten sicherzustellen. Dies erzwingt kostengünstigere und einfacher zu bedienende HA-Lösungen. Die Industrieanbieter reagieren: Das erwähnte Open-Source-Tool (CODESYS Redundancy auf Raspberry Pi) zeigt Ansätze, HA breiter verfügbar zu machen. Mit Standardtechnologien und geringerer Komplexität sollen Hemmschwellen abgebaut werden, damit Hochverfügbarkeit nicht als exotisches Luxus-Feature gilt, sondern zum normalen Best Practice wird, wo immer es wirtschaftlich sinnvoll ist.

Fazit: Hochverfügbarkeit in Automatisierungstechnik und Rechenzentren bedeutet, Systeme so zu designen, dass nichts sie so leicht stoppen kann. Durch Redundanz, clevere Architektur, schnelle Failover und konsequente Überwachung können Ausfälle aufgefangen oder ganz vermieden werden. Dabei ist stets abzuwägen, wie viel Redundanz sinnvoll ist, technisch ist heute sehr viel möglich, von der doppelten SPS über komplett gespiegelt laufende Rechenzentren bis hin zu „Always On“-Cloud-Services.

Sie planen Ihre Infrastruktur hochverfügbar umzubauen oder suchen eine passende Redundanzstrategie für Ihre Anwendung? Wir unterstützen Sie von der Planung bis zur Umsetzung und bringen Erfahrung aus zahlreichen Projekten in Industrie und Rechenzentren mit, siehe Referenzen.

Möchten Sie zuerst eine Risikoanalyse erstellen oder Anforderungen klären? Unser Team aus erfahrenen Ingenieuren analysiert gemeinsam mit Ihnen Ihre Bedürfnisse, zeigt Schwachstellen auf und erarbeitet konkrete Lösungsvorschläge. Jetzt unverbindlichen Beratungstermin sichern oder telefonisch unter +49 30 54 620 448.

6 Kommentare

Mit 0 von 5 Sternen bewertet.

Noch keine Ratings

Kev

27. Juli

Mit 5 von 5 Sternen bewertet.

Sehr interessanter Artikel. Vielen Dank. Weiter so

Gefällt mir

S.K.

24. Juli

Klasse Beitrag!!1! gerne mehr davon! LG

DiDo

23. Juli

Sehr ausführlich. Guter Artikel

Alex

19. Juli

Gefällt mir!

Gast

15. Juli

Das mit der Hochverfügbarkeit müsstest du bitte mal meinem Kaffeevollautomaten erklären. Vielen Dank für den schönen Artikel

ThoMas

17. Juli

Antwort an