Informatiker der Universität Paderborn arbeiten an Systemen zur intelligenten Fehlerbehebung
Paderborn. Die Auslösezeit des Airbags im Auto verlängert sich durch einen Rechenfehler im Prozessor. Im GPS überhitzt ein Chip durch Überlastung. Die Datenverarbeitung wird unterbrochen und die falschen Berechnungen verändern die Positionsberechnung des Navigationssystems.
Treten solche Fehler in komplexen elektronischen Systemen auf, können sie dramatische Folgen und hohe Kosten verursachen. Die Diplominformatiker Katharina Stahl und Daniel Baldin, wissenschaftliche Mitarbeiter eines Teams der Fachgruppe "Entwurf paralleler Systeme" von Prof. Franz Josef Rammig am Heinz Nixdorf Institut der Uni Paderborn, erforschten drei Jahre lang gemeinsam mit Teams aus fünf weiteren Hochschulen, wie diese elektronischen Systeme selbstständig auf Störungen und Veränderungen der Umwelt reagieren können, um funktionstüchtig zu bleiben.
Winzige Prozessoren ermöglichen die Entwicklung kleiner, leichter Produkte mit hoher Funktionalität und Leistung wie etwa Handys. Diese Prozessoren sind aber viel empfindlicher gegen Strahlungen oder Temperatureinflüsse. Treffen diese Einflüsse auf die Prozessoren, führen sie zu kurzzeitigen Spannungsschwankungen und zu Fehlern in den Rechenprozessen. Auf der Hardware-Ebene erkennen Kontrollmechanismen diese Fehler und melden sie an die Software. Das Betriebssystem greift ein und betreibt die Fehlerbehebung.
"Eine Kombination von Soft- und Hardware gab es so bislang noch nicht."
"Eine Kombination von Soft- und Hardware gab es so bislang noch nicht. Das Betriebssystem ist durch seine selbstständigen Komponenten in der Lage, auf Hardwarefehler zu reagieren", erklärt Baldin, "der Nutzer hat das Gefühl, das System läuft einwandfrei. Das System kapselt den Fehlererkennungs- und Behebungsprozess vom Nutzer ab, er läuft quasi im Hintergrund."
Die Forscher unterscheiden zwischen permanenten und transienten
Fehlern. Permanente Fehler erkennt die Hardware zuverlässig. Die Fehlermeldung wird an das Betriebssystem weitergeleitet, das die Fehlerbehebungsstrategie steuert. Das kann die Auslagerung der Funktion auf andere Prozessoren, die Nutzung nur des intakten Funktionsbereichs des Chips oder ein verlangsamtes Arbeitstempo der Prozessoren sein, damit diese zum Beispiel wieder abkühlen.
Transiente Fehler sind kurzfristig auftretende Fehler, die sich zeigen, wenn etwa Strahlung auf den Prozessor trifft. Doch es können falsche Daten ins System gelangt sein. "Diese Fehler sind für uns die größte Herausforderung für unsere zukünftigen Forschungen, weil sie unbemerkt Folgefehler mit fatalen Auswirkungen im laufenden Gesamtsystem erzeugen können", beschreibt Stahl.
"Das System wird autonom repariert"
"Biologisch inspirierte Algorithmen wie Schwarm- oder Ameisenalgorithmen sind für die Auslagerung oder Verteilung der anstehenden Berechnungen auf andere Prozessoren sehr gut geeignet", erläutert Katharina Stahl.
Doch das menschliche Immunsystem verfügt über eine ausgeklügelte Strategie, um Fehlerverursachern wie Viren oder Bakterien zu begegnen. Das System Körper funktioniert bei einem gesunden Menschen mit all seinen Komponenten ohne kritische Ausfälle weiter, obwohl es durch eindringende Viren oder Bakterien gestört wird. Diese Strategien sollen für die Funktionalität von Betriebssystemen nutzbar gemacht werden.
Das menschliche Immunsystem dient als Vorbild für Modelle sogenannter künstlicher Immunsysteme, die in die technische Welt übertragen werden. "Überwachungsmechanismen ähnlich dem Antikörper-Antigen-Konzept des Immunsystems erkennen, beseitigen oder dämmen die Fehler im System durch Algorithmen ein, damit sie sich nicht fortsetzen. Das Betriebssystem bekommt keine Fehlermeldungen mehr von der Hardware, sondern stellt die Zuverlässigkeit des Systems autonom sicher", beschreibt Katharina Stahl ihre zukünftige Forschungsarbeit.