Künstliche Intelligenz beeindruckt nicht nur durch ihre Leistung, sondern auch durch ihren Energiehunger. Und sie verbraucht umso mehr Energie, je anspruchsvoller die Aufgaben sind, für die sie trainiert wird. Víctor López-Pastor und Florian Marquardt, zwei Wissenschaftler des Max-Planck-Instituts für die Physik des Lichts in Erlangen, präsentieren nun eine Methode, mit der sich künstliche Intelligenz deutlich effizienter trainieren lassen könnte. Sie setzen dabei auf physikalische Prozesse statt der heute verwendeten digitalen künstlichen neuronalen Netze. Wieviel Energie nötig ist, um GPT-3, das ChatGPT zu einem eloquenten und augenscheinlich gut informierten Chatbot macht, zu trainieren, legt Open AI, das Unternehmen hinter der künstlichen Intelligenz (KI), nicht offen. Laut dem deutschen Statistikunternehmen Statista waren dafür 1000 Megawattstunden nötig – das ist etwa so viel, wie 200 deutsche Haushalte mit drei und mehr Personen in einem Jahr verbrauchen. Mit diesem Energieaufwand hat GPT-3 gelernt, ob hinter dem Wort ‚Tisch‘ wahrscheinlicher das Wort ‚decken‘ oder ‚rücken‘ in den Datensätzen folgt, verstanden hat das Modell den Unterschied zwischen ‚Tisch decken‘ und ‚Tisch rücken‘ nach allem, was man weiß, allerdings nicht.
Neuronale Netze auf neuromorphen Computern
Um den Energieverbrauch von Computern und insbesondere von KI-Anwendungen zu senken, verfolgen zahlreiche Forschungseinrichtungen seit wenigen Jahren ein völlig neues Konzept, wie Computer künftig rechnen könnten. Das Konzept ist unter dem Begriff neuromorphes Computing bekannt. Das klingt zwar ähnlich wie künstliches neuronales Netz, hat damit aber zunächst nicht viel zu tun. Denn künstliche neuronale Netze laufen heute auf herkömmlichen digitalen Rechnern. Das heißt die Software, genauer gesagt der Algorithmus, nimmt sich zwar die Arbeitsweise des Gehirns zum Vorbild, als Hardware dienen aber digitale Computer. Sie arbeiten die Rechenschritte des neuronalen Netzes sequenziell, also einen nach dem anderen ab, und trennen vor allem zwischen Prozessor und Arbeitsspeicher. „Alleine der Datentransfer zwischen diesen beiden Bauteilen verschlingt große Mengen an Energie, wenn ein neuronales Netz Hunderte Milliarden Parameter, sprich Synapsen, mit bis zu einem Terabyte an Daten trainiert“, sagt Florian Marquardt, Direktor am Max-Planck-Institut für die Physik des Lichts und Professor an der Universität Erlangen.
Ganz anders das menschliche Gehirn, das sich evolutionär wahrscheinlich nie durchgesetzt hätte, wenn es mit einer ähnlichen Energieeffizienz arbeiten würde wie Rechner mit Siliziumtransistoren. Es hätte nämlich vermutlich wegen Überhitzung versagt. Das Gehirn kennzeichnet, dass es die zahlreichen Schritte eines Denkvorgangs parallel und nicht sequenziell abarbeitet. Und die Nervenzellen, genauer gesagt die Synapsen, sind Prozessor und Arbeitsspeicher in einem. Als Kandidaten für die neuromorphen Pendants zu unseren Nervenzellen werden weltweit verschiedene Systeme gehandelt, unter anderem photonische Schaltkreise, die mit Licht statt Elektronen rechnen. Deren Bauteile dienen gleichzeitig als Schaltelemente und Speicherzellen.Eine selbstlernende physikalische Maschine optimiert ihre Synapsen eigenständig Kugel wird von der korrigierten Position aus wieder zurück auf die andere Seite geschickt und folgt dabei der leicht verschobenen, ansonsten aber gleichen Bahn wie auf dem Hinweg (6). Sie verrückt die rote Kugel auf der Stange nun erneut, aber wegen der Korrektur am Umkehrpunkt bleibt die rote Kugel letztlich an einer etwas anderen Position stehen, als sie zu Beginn des gesamten Vorgangs positioniert war. Die ‚Synapse‘, in Gestalt dieser roten Kugel, wird also an das berichtigte Ergebnis angepasst und lernt auf diese Weise. In der Praxis würde eine selbstlernende physikalische Maschine sicherlich nicht als Billardabakus konstruiert, nicht zuletzt weil sie sich mit mehr als 100 Milliarden Synapsen und Billiarden Trainingsdaten technisch kaum in den Griff bekommen ließe.
Gemeinsam mit Víctor López-Pastor, Doktorand am Max-PlanckInstitut für die Physik des Lichts, hat Florian Marquardt nun eine effiziente Trainingmethode für neuromorphe Computer ersonnen. „Wir haben das Konzept einer selbstlernenden physikalischen Maschine entwickelt“, erklärt Florian Marquardt. „Die Kernidee besteht darin, das Training in Form eines physikalischen Prozesses auszuführen, bei dem die Parameter der Maschine durch den Prozess selbst optimiert werden.“ Beim Anlernen von konventionellen künstlichen neuronalen Netzen ist ein Feedback von außen nötig, um die Stärke der vielen Milliarden synaptischen Verbindungen anzupassen. „Dass wir dieses Feedback nicht brauchen, macht das Training viel effizienter“, sagt Florian Marquardt. Eine künstliche Intelligenz auf einer selbstlernenden physikalischen Maschine zu implementieren und zu trainieren, würde dabei nicht nur Energie, sondern auch Rechenzeit sparen. „Unsere Methode funktioniert unabhängig davon, welcher physikalische Prozess in der selbstlernenden Maschine stattfindet, und wir müssen den genauen Prozess nicht einmal kennen“, erklärt Florian Marquardt. „Der Prozess muss aber ein paar Bedingungen erfüllen.“ Die wichtigste: Er muss sich umkehren lassen, also möglichst ohne Energieverlust vorwärts und rückwärts laufen. „Außerdem muss der physikalische Prozess nicht-linear sein, also hinreichend komplex“, sagt Florian Marquardt. Nur nicht-lineare Prozesse können die komplizierten Transformationen zwischen eingegeben Daten und Ergebnissen bewerkstelligen. Eine Flipperkugel, die ohne Zusammenprall mit einer zweiten über eine Platte rollt, wäre eine lineare Aktion. Wenn sie aber von einer zweiten abgelenkt wird, wird die Sache nicht-linear.
Praxistest in einem optischen neuromorphen Computer
Beispiele für umkehrbare, nicht-lineare Prozesse finden sich unter anderem in der Optik. In der Tat arbeiten Víctor López-Pastor und Florian Marquardt bereits mit einem experimentellen Team zusammen, das einen optischen neuromorphen Computer entwickelt. Diese Maschine verarbeitet Information in Form überlagerter Lichtwellen, wobei geeignete Bauteile die Art und Stärke der Wechselwirkung regulieren. In der Kooperation wollen die Forschenden das Konzept der selbstlernenden physikalischen Maschine praktisch realisieren. „Wir hoffen, dass wir in drei Jahren die erste selbstlernende physikalische Maschine präsentieren können“, sagt Florian Marquardt. Bis dahin dürfte es neuronale Netze geben, die mit noch wesentlich mehr Synapsen denken als die heutigen und mit deutlich größeren Datenmengen trainiert werden. Dann dürfte auch der Bedarf noch größer sein, neuronale Netze nicht mehr in herkömmlichen digitalen Computern zu implementieren, sondern sie durch neuromorphe Rechner zu ersetzen und diese effizient zu trainieren. „Wir sind daher zuversichtlich, dass selbstlernende physikalische Maschinen dann gute Chancen haben, bei der Weiterentwicklung von künstlicher Intelligenz eingesetzt zu werden“, sagt der Physiker.
PH/MPG