Momentan liegt es im Trend, AI (Artificial Intelligence) überall integrieren zu wollen. Die am meisten verbreitete AI-Technologien sind heute neuronale Netzwerke, die durch unzählige Iterationen lernen – ein energieintensiver Prozess. Dies soll sich bald ändern mit neuromorphen Chips, deren Architektur vom menschlichen Hirn inspiriert ist. Und 100-mal weniger Energie verbrauchen.

Die erste künstliche neuronale Zelle wurde schon angedacht, bevor der erste Computer überhaupt fertiggestellt war. Ein Neurophysiologe und ein Logiker entwickelten 1943 zusammen die nach ihnen benannte McCulloch-Pitts-Zelle. Damals war ein künstliches Neuron noch eher ein rein logisch-mathematisches Modell, dem biologische Nervenzellen als Inspiration dienten.

Wie bei einem natürlichen Neuron nimmt seine künstliche Kopie über verschiedene Inputs verschiedene Gewichte auf (= das biologische Neuron nimmt elektrochemische Signale über die Dendriten auf). Wenn deren Summe ein bestimmtes Schwellenpotential überschreitet, wird ein Output ausgelöst (= das biologische Neuron gibt sein Aktionspotential über Botenstoffe/ Neurotransmitter chemisch an andere Zellen weiter).

Bei einem biologischen Neuron nehmen die Dendriten elektrochemische Signale auf, und wenn diese stark genug sind, löst das Axon sein Aktionspotential aus, welches über Synapsen an weitere Zellen abgegeben wird.

Bei einem biologischen Neuron nehmen die Dendriten elektrochemische Signale auf, und wenn diese stark genug sind, löst das Axon sein Aktionspotential aus, welches über Synapsen an weitere Zellen abgegeben wird.

Ein künstliches Neuron funktioniert genau gleich: wenn die verschiedenen Inputs (individuell gewichtet) ein Schwellenpotential überschreiten, wird der Output ausgelöst.

Ein künstliches Neuron funktioniert genau gleich: wenn die verschiedenen Inputs (individuell gewichtet) ein Schwellenpotential überschreiten, wird der Output ausgelöst.

Beeindruckt von dem von McCulloch und Pitts erdachten Modell baute Marvin Minsky 1951 das erste künstliche neuronale Netzwerk mit 40 Neuronen. Es simulierte eine Ratte in einem Labyrinth, dessen Ausweg das Netzwerk durch Trial und Error finden musste. Durch ein Versehen wurden ausserdem mehrere virtuelle Ratten in das Labyrinth eingeschleust, die voneinander lernten. Minsky hegte seither die Hoffnung, dass irgendwann ein genug gigantisches neuronales Netzwerk genauso aus Versehen echte Intelligenz entwickeln würde.

Jeder Computerwissenschaftler weiss, dass ein Computer nur den Algorithmus ausführt, für den er programmiert wurde. Daraus könnte man ableiten, dass der Computer nur tun und wissen kann, was der Programmierer auch weiss. Dieser Grundsatz wurde 1959 definitiv über Bord geworfen mit Arthur Samuels Programm, das Dame spielen lernte.

Während Samuel anfangs noch sein Programm schlagen konnte, lernte das Programm aus den Niederlagen und liess ihn nach ein paar Monaten kein einziges Spiel mehr gewinnen.

Während Samuel anfangs noch sein Programm schlagen konnte, lernte das Programm aus den Niederlagen und liess ihn nach ein paar Monaten kein einziges Spiel mehr gewinnen.

Der „AI Winter“ verhinderte jegliche Weiterentwicklung

Neuronale Netzwerke und AI-Technologien im allgemeinen wurden in den 80er Jahren über ein Jahrzehnt lang nicht mehr weiterverfolgt. Hauptgrund war, dass man damals (wie heute) glaubte, dass Software und Roboter die Menschen in der Arbeitswelt vollständig ersetzen würden. Diese unrealistische Erwartung wurde (offensichtlich) nicht mal ansatzweise erfüllt. Private und öffentliche Investitionen fielen aus und es kam zum sogenannten “AI Winter”, der Begriff AI wurde sogar zum Tabuwort in der Industrie.

Der mehr als eine Dekade andauernde AI Winter wurde erst in den 90er-Jahren durchbrochen, und zwar vor allem durch Videospiele. Diese sind auf AI angewiesen, schon alleine um für Menschen einen interessanten Gegenspieler zu simulieren. Vor allem aber trieben Videospiele auch die Entwicklung der Hardware voran, wodurch die alte Theorie der neuronalen Netzwerke erst richtig funktionieren konnte.

Unergründliche künstliche Intelligenz

Mit leistungsfähigerer, günstigerer Hardware konnten künstliche neuronale Netzwerke erheblich grösser werden und auch anspruchsvollere Probleme lösen, zum Beispiel Bilderkennung. Zum Einsatz kommt hier das sogenannte Deep Learning, welches ein mehrschichtiges neuronales Netzwerk benutzt.

Verschiedene Neuronen werden zu einem neuronalen Netzwerk verknüpft. Ausschlaggebend für Deep Neural Networks sind die versteckten Schichten zwischen Input und Output, welche ein komplexes Problem weiter zerlegen können.

Verschiedene Neuronen werden zu einem neuronalen Netzwerk verknüpft. Ausschlaggebend für Deep Neural Networks sind die versteckten Schichten zwischen Input und Output, welche ein komplexes Problem weiter zerlegen können.

Anstatt nur Neuronen für den Input und den Output miteinander zu verbinden, werden mehrere Schichten von Neuronen dazwischen gelegt – die sogenannten “Hidden Layers”, welche den Input weiter zerlegen und so beliebig komplexe Probleme lösen können. Zum Beispiel gruppiert ein Deep Neural Network über mehrere Schichten hinweg Pixel in Formen und Farben und ordnet diese schliesslich einem Objekt zu. Ironischerweise kann ein komplexes Netzwerk aber gerade dazu führen, dass diese Vorgänge nicht mehr nachvollzogen werden können und das genaue Funktionieren der künstlichen Intelligenz genauso mysteriös wird wie unsere eigene.

Training und Inference als Energiefresser

Deep Learning ist rechenintensiv. Zuerst muss ein neuronales Netzwerk trainieren. Zum Beispiel analysiert eine Gesichtserkennungssoftware unzählige von Bildern und passt die Gewichtungen in seinen Neuronen an, bis die Resultate vom zuständigen Menschen oder Algorithmus als richtig anerkannt werden. Dieses Training ist höchst rechenintensiv, denn das Deep Neural Network erfährt nicht, was es genau falsch macht. Es muss die Gewichtungen in seinen Neuronenschichten mit Trial und Error so lange anpassen, bis es das gewünschte Resultat erzielt.

Danach muss das Gelernte dann auch noch angewendet werden. Diese sogenannte Inference ist ebenfalls sehr rechenintensiv, denn die im vorherigen Training angelegten Datenbestände dienen nun als die Erfahrung, auf die das Deep Neural Network zugreift, wenn es ein Problem lösen will. So konnte 2016 zum ersten mal Googles DeepMind einen Profi-Go-Spieler schlagen.

Rechenintensiv bedeutet auch energieintensiv, und das ist kein unerhebliches Problem. Deep Neural Networks haben die Labore längst verlassen und werden breit angewendet, bei Bilderkennung, Stimmerkennung, Sprachverständnis oder für das Aufspüren von Geldwäscherei.

GPUs ermöglichten die Deep Learning Revolution

Das Problem der Energieineffizienz künstlicher neuronaler Netzwerke wird aktiv angegangen. Denn wenn dies behoben werden kann, könnten Neuronale Netzwerke auch effizienter funktionieren. Ein erster Lösungsansatz ist der Einsatz von GPUs (graphics processing unit), welche in Grafikkarten eingebaut sind. Im Gegensatz zum klassischen CPU (central processing unit) sind GPUs physisch dazu gebaut, hunderttausende von Prozessen gleichzeitig laufen zu lassen.

Die in vielen Laptops und Computern verwendeten Intel i7 CPUs haben nur vier Cores, die GTX 1080 von NVIDIA Grafikarte hat 1536 - sie nimmt aber auch wesentlich mehr Platz ein.

Die in vielen Laptops und Computern verwendeten Intel i7 CPUs haben nur vier Cores, die GTX 1080 von NVIDIA Grafikarte hat 1536 – sie nimmt aber auch wesentlich mehr Platz ein.

Unsere Gehirne haben durchschnittlich 100 milliarden Neuronen und dienten als Inspiration für die künstlichen neuronalen Netzwerke. Firmen wie IBM, Digital Reasoning oder Google unterhalten Systeme aus viel mehr Neuronen. Insofern ist es keine Überraschung, dass GPUs mit ihrem multi-core System eine Deep Learning Revolution ermöglichten.

Schliesslich wurden aber GPUs nicht für AI-Anwendungen entwickelt, sondern für Grafikverarbeitung. Wie CPUs sind sie in die klassische von Neumann Architektur integriert, wo Prozessor, Speicher, Memory und Input/Output getrennte Einheiten sind. Deshalb entsteht ein Engpass, wenn beim Training oder Inference massenhaft Daten geschrieben oder gelesen werden müssen.

Wie unser Gehirn: Neuromorphe Chips

Da Deep Learning Software vom menschlichen Gehirn inspiriert ist, macht es Sinn, auch die Hardware dem menschlichen Hirn anzupassen: sogenannte neuromorphe (= “nerven-geformte”) Chips. Der erste Vorstoss kam hier von IBM 2014 mit ihrem TrueNorth Chip, der Millionen von physischen Neuronen und Synapsen enthielt. Er war mit seinem einen Kilohertz mehrere Millionen Mal langsamer als ein gewöhnlicher CPU, die sich schon damals im Gigahertz-Bereich bewegten. Aber weil er für das parallele Abwickeln von Millionen von Prozessen gleichzeitig gebaut wurde, konnte TrueNorth die Geschwindigkeit und Energieeffizienz beim lösen von Problemen über neuronale Netzwerke erheblich verbessern.

Der neuromorphe Testchip von IBM, TrueNorth.

Der neuromorphe Testchip von IBM, TrueNorth.

Apple ging 2017 einen Schritt weiter, indem die Firma in ihren neuen iPhones (8, 8 Plus und X) den A11 Bionic Chip integrierte, der zur neuen Gesichtserkennungsfunktion eine Neural Engine eingebaut hatte, die 600 milliarden Operationen gleichzeitig ausführen kann – ein neuromorpher Chip als Massenkonsumgut.

Der neueste Durchbruch im Bereich neuromorpher Chips ist Akida, entwickelt von einer Firma, die sich passenderweise brainchip nennt. Dieser soll sowohl für Training als auch Anwendungen erheblich energieeffizienter und schneller (Faktor 100) als IBMs TrueNorth Testchip sein.

Datenzentren gehören zu den am schnellsten wachsenden Energieverbrauchern: 3% des globalen Verbrauchs 2017, Tendenz steigend. Und die grössten (an Marktkapitalisierung gemessenen) Firmen der Welt machen ihr Geschäft mit Daten – indem sie diese auswerten, gruppieren und nutzen oder verkaufen. Deep Learning dürfte bei diesem Datamining vermehrt zum Einsatz kommen, insbesondere beim Analysieren und Gruppieren der Daten.  Wenn sie dabei mit Hilfe von neuromorphen Chips wenigstens weniger Energie verbrauchen, ist dies ein relevanter Fortschritt. Dass der Industriezweig des Datamining in freien Demokratien aber auch energietechnisch fragwürdig ist, sollte Anstoss für weitere Regulierungen sein.