Long Short-Term Memory: Netzwerke mit Langzeitgedächtnis
Long Short-Term Memory (LSTM) ist eine Möglichkeit, neuronale Netzwerke zu trainieren und wichtige Informationen langfristig zu speichern. Die Technik nutzt dafür einen Kurzzeit- und einen Langzeitspeicher und ist von entscheidender Bedeutung für die Weiterentwicklung von künstlicher Intelligenz.
Was ist Long Short-Term Memory (LSTM)?
Bei der Long Short-Term Memory (LSTM) handelt es sich um eine Technik aus der Informatik, die genutzt wird, um Informationen innerhalb eines neuronalen Netzwerks über einen längeren Zeitraum zu speichern. Dies hat vor allem bei der Verarbeitung von sequenziellen Daten eine große Bedeutung. Durch die Long Short-Term Memory kann das Netz auf frühere Ereignisse zurückgreifen und diese für neue Berechnungen berücksichtigen. Dadurch grenzt es sich insbesondere von Recurrent Neural Networks (RNN) ab oder kann diese ideal ergänzen. Statt eines einfachen „Kurzzeitgedächtnisses“ verfügt die LSTM über ein zusätzliches „Langzeitgedächtnis“, in dem ausgewählte Informationen über einen längeren Zeitraum gespeichert werden.
Netzwerke mit Long Short-Term Memory können Informationen also über lange Zeiträume bewahren und dadurch langfristige Abhängigkeiten erkennen. Dies ist insbesondere im Bereich Deep Learning und KI von großer Bedeutung. Die Basis dafür sind die sogenannten Tore oder Gates, deren Funktionsweise wir Ihnen im weiteren Verlauf dieses Artikels noch näher erklären. Die Netzwerke liefern effiziente Modelle für die Vorhersage und Verarbeitung auf Basis von Zeitreihendaten.
- In Sekunden zur Online-Präsenz
- Mehr Wachstum mit KI-Marketing
- Zeit und Ressourcen sparen
Aus welchen Elementen besteht eine LSTM-Zelle?
Eine Zelle, die über Long Short-Term Memory verfügt, besteht aus unterschiedlichen Bausteinen, die dem Netzwerk verschiedene Optionen bieten. Dieses muss die Möglichkeit haben, Informationen über einen langen Zeitraum zu speichern und sie bei Bedarf mit neuen Informationen zu verknüpfen. Gleichzeitig ist es wichtig, dass die Zelle unwichtiges oder überholtes Wissen eigenständig aus dem „Gedächtnis“ löscht. Aus diesem Grund besteht sie aus vier unterschiedlichen Komponenten:
- Input Gate: Das Eingangstor entscheidet, welche neuen Informationen auf welche Weise in den Speicher aufgenommen werden sollen.
- Forget Gate: Das „Tor des Vergessens“ bestimmt, welche Informationen in einer Zelle gespeichert und welche dort wieder entfernt werden sollen.
- Output Gate: Das Ausgangstor legt fest, wie Werte aus einer Zelle ausgegeben werden. Die Entscheidung basiert dabei auf dem aktuellen Zustand und den jeweiligen Eingangsinformationen.
Die vierte Komponente ist das Zellinnere. Dieses unterliegt einer eigenen Verknüpfungslogik, die regelt, wie die anderen Komponenten interagieren und wie mit Informationsflüssen und Speichervorgängen verfahren werden soll.
Wie funktioniert Long Short-Term Memory?
Ähnlich wie das bereits angesprochene Recurrent Neural Network oder das simplere Feedforward Neural Network (FNN) agieren auch Zellen mit Long Short-Term Memory in Schichten. Im Gegensatz zu anderen Netzwerken speichern sie Informationen allerdings über lange Zeiträume und können diese nachträglich verarbeiten oder abrufen. Dafür nutzt jede LSTM-Zelle die oben genannten drei Tore sowie eine Art Kurzzeitgedächtnis und ein Langzeitgedächtnis.
- Das Kurzzeitgedächtnis, also der Speicher, in dem kurzzeitig Informationen aus vorherigen Berechnungsschritten abgelegt werden, ist auch aus anderen Netzwerken bekannt. Er nennt sich im Bereich der Long Short-Term Memory Hidden State. Anders als andere Netzwerke kann eine LSTM-Zelle Informationen aber auch langfristig behalten. Diese werden dazu im sogenannten Cell State hinterlegt. Neue Informationen durchlaufen nun die drei Tore.
- Im Input Gate wird der aktuelle Input mit dem Hidden State und der Gewichtung des letzten Durchlaufs multipliziert. So entscheidet das Eingangstor, wie wertvoll der neue Input ist. Wichtige Informationen werden dann mit dem bisherigen Cell State addiert und so zum neuen Cell State.
- Im Forget Gate wird entschieden, welche Informationen weiterverwendet und welche entfernt werden sollen. Berücksichtigt werden dafür der letzte Hidden State und der aktuelle Input. Mithilfe einer Sigmoid-Funktion (Schwanenhalsfunktion), die Werte zwischen 0 und 1 ausgibt, wird diese Entscheidung getroffen. 0 bedeutet, dass eine vorherige Information vergessen wird, während 1 die vorherige Information als aktuellen Status beibehält. Das Ergebnis wird mit dem aktuellen Cell State multipliziert. Werte mit 0 fallen somit raus.
- Der letztendliche Output wird dann im Ausgangstor berechnet. Dafür werden der Hidden State und die Sigmoid-Funktion genutzt. Im Anschluss wird der Cell State mit einer tanh-Funktion (hyperbolischer Tangens) aktiviert und multipliziert, um zu bestimmen, welche Information durch das Ausgangstor gelangen soll.
Welche unterschiedlichen Architekturen gibt es?
Während diese Funktionsweise bei allen Netzwerken mit Long Short-Term Memory ähnlich ist, gibt es teilweise gravierende Unterschiede bei der Architektur von LSTM-Varianten. Weit verbreitet sind zum Beispiel sogenannte Peephole LSTMs, die ihren Namen dem Umstand verdanken, dass die einzelnen Gates den Status der jeweiligen Zelle einsehen können. Der Begriff „Peephole“ bedeutet soviel wie „Guckloch“. Eine Alternative sind Peephole konvolutionale LSTMs, die neben einer Matrixmultiplikation eine diskrete Faltung verwenden, um die Aktivität eines Neurons zu berechnen.
- 100 % DSGVO-konform und sicher in Deutschland gehostet
- Die leistungsstärksten KI-Modelle auf einer Plattform
- Kein Vendor Lock-in durch Open Source
Was sind die wichtigsten Anwendungsgebiete von Long Short-Term Memory?
Unzählige Anwendungen setzen mittlerweile ganz oder teilweise auf neuronale Netzwerke mit Long Short-Term Memory. Die Einsatzgebiete sind dabei sehr vielschichtig. Die Technik leistet einen wertvollen Beitrag in folgenden Bereichen:
- automatisierte Textgenerierung
- Analyse von Zeitreihendaten
- Spracherkennung
- Prognose von Börsenentwicklungen
- Komposition
Auch für die Identifizierung von Anomalien zum Beispiel bei Betrugsversuchen oder Angriffen auf Netzwerke wird Long Short-Term Memory genutzt. Entsprechende Anwendungen können auch Medien wie Filme, Serien, Bands oder Bücher anhand von Nutzerdaten empfehlen oder Videos, Bilder oder Songs analysieren. So lässt sich auf einfache Weise nicht nur die Sicherheit erhöhen, sondern auch der Aufwand erheblich reduzieren.
Zahlreiche große Konzerne nutzen Long Short-Term Memory für ihre Services und Produkte. Google verwendet entsprechende Netzwerke für seine smarten Assistenzsysteme, das Übersetzungsprogramm Google Translate, die Spielsoftware AlphaGo oder die Spracherkennung in Smartphones. Die beiden sprachgesteuerten Assistenten Siri (Apple) und Alexa (Amazon) basieren ebenso auf Long Short-Term Memory wie die Tastaturvervollständigung von Apple.