Was ist Supervised Learning?
Beim „Supervised Learning“ wird ein KI-Modell anhand von gekennzeichneten Daten trainiert, Vorhersagen oder Klassifizierungen für neue, unbekannte Daten zu treffen. Lesen Sie weiter, um mehr über Supervised Learning zu erfahren.
Supervised Learning im Überblick
Beim Machine Learning geht es darum, dass Computer Muster erkennen und Regeln erlernen. Statt nur auf die Eingabe eines menschlichen Nutzenden reagieren zu können, sollen Maschinen so in der Lage sein, selbstständig Entscheidungen zu treffen – basierend auf den Regeln, die sie gelernt haben. So können Algorithmen beispielsweise lernen, Spam korrekt zu erkennen, oder einen Bildinhalt verstehen. Für das Anlernen verwenden Entwickelnde verschiedene Methoden. Wahrscheinlich am häufigsten im Einsatz ist Supervised Learning, also das überwachte Lernen.
Beim Supervised Machine Learning stellen Entwickelnde den Algorithmen ein vorbereitetes Set an Daten als Trainingsquelle zur Verfügung. Das Ergebnis ist somit bereits bekannt. Die Aufgabe der Algorithmen liegt nur darin, das Muster zu erkennen: Warum gehört diese Information in Kategorie A und nicht in Kategorie B?
Überwachtes Lernen wird also für solche Algorithmen eingesetzt, die natürliche Daten (Fotos, Handschriften, Sprache usw.) kategorisieren sollen. Zudem sind auch sogenannte Regressionsprobleme ein typisches Anwendungsfeld für Supervised Learning. Hierbei sollen die Algorithmen Vorhersagen treffen können, beispielsweise über Preisentwicklungen oder Kundenwachstum.
Eine Mischform stellt Semi-supervised Learning dar. Bei dieser Lernmethode wird nur ein Teil des Datensatzes mit Labeln versehen. Der Rest bleibt unkategorisiert und soll von den Algorithmen selbstständig zugeordnet werden. Ein Beispiel hierfür findet man bei der Gesichtserkennung von Facebook. Es reicht aus, ein paar Bilder mit den Namen von Freunden zu versehen. Die restlichen findet der Algorithmus dann von allein.
Überwachtes Lernen anhand eines Beispiels erklärt
Nehmen wir beispielhaft an, man würde Algorithmen trainieren wollen, Katzenbilder von Hundebildern zu unterscheiden. Die Entwickelnden würden dafür dann ein sehr großes Datenset vorbereiten. Dieses enthielte Bilder, die alle bereits ein Label besitzen, also einer Kategorie angehören. Man könnte sich hierbei drei verschiede Gruppen vorstellen: Hund, Katze, Sonstiges. Wichtig ist, dass die Datensammlung auch eine möglichst große Varianz aufweist. Einfach gesprochen: Hat man nur Bilder von schwarzen Katzen in seinem Trainingsset, wird der Algorithmus davon ausgehen, dass alle Katzen ein schwarzes Fell besitzen. Das Datenset sollte die tatsächliche Bandbreite an Variationen also möglichst gut abbilden.
Beim Training erhält der Algorithmus zunächst die Inhalte (und zwar unsortiert), trifft selbstständig eine Entscheidung und vergleicht diese dann mit dem von den Entwickelnden vorgegebenen Output. Das System überprüft sein eigenes Ergebnis mit dem korrekten – und zieht daraus Schlüsse, die sich auf die nächsten Beurteilungen während des Trainings auswirken. Das Training läuft so lange, bis die Maschine mit seinen Beurteilungen nah genug an die korrekten Ergebnisse herangekommen ist.
Vor- und Nachteile von Supervised Machine Learning
Für welchen Lehrmethode man sich entscheiden sollte, hängt stark von den späteren Aufgaben der Algorithmen ab. Für Kategorisierungs- und Regressionsprobleme ist Supervised Learning den anderen Methoden vorzuziehen. Generell kann man mit dem überwachten Lernen Algorithmen so trainieren, dass diese perfekt für das Einsatzgebiet vorbereitet sind. Da man die komplette Kontrolle über das Trainingsmaterial behält, braucht man nur genügend Input und Zeit, um die Algorithmen richtig einzustellen. Die Betonung liegt hier klar auf Input: Die Zusammenstellung muss großflächig angelegt sein. Da beim überwachten Lernen jedes Element auch mit einem Etikett versehen sein muss, ist hier ein erheblicher Aufwand für Entwickelnde gegeben.
Der Aufwand ist zwar relativ hoch, dafür kann man aber auch relativ einfach nachvollziehen, was vorgeht. Während beim Unsupervised Learning vieles unklar bleibt, weil die Algorithmen ohne wirkliche Anweisungen für sich arbeiten, ist beim Supervised Learning genau festgelegt, was die Maschine tut. Aber auch das kann wieder ein Nachteil sein: Die angelernten Algorithmen arbeiten dann auch innerhalb der Restriktionen, die man ihnen auferlegt hat. Kreative Lösungsansätze kann man so nicht erwarten.
- In Sekunden zur Online-Präsenz
- Mehr Wachstum mit KI-Marketing
- Zeit und Ressourcen sparen
Unterschiede zu Unsupervised Learning und Semi-supervised Learning
Neben dem Supervised Learning gibt es auch noch Unsupervised Learning und Semi-supervised Learning. Im Folgenden gehen wir jeweils auf die Unterschiede zwischen diesen beiden Lernverfahren und Supervised Learning ein.
Supervised Learning vs. Unsupervised Learning
Während Supervised Learning Datensätze verwendet, bei denen sowohl die Eingaben als auch die zugehörigen Ausgaben bekannt sind, sind beim Unsupervised Learning nur die Eingaben bekannt. Dementsprechend zielt Unsupervised Learning im Gegensatz zu Supervised Learning darauf ab, unbekannte Muster oder Strukturen in den Daten zu entdecken. Daher eignet sich Unsupervised Learning auch für andere Arten von Aufgaben als Supervised Learning, zum Beispiel fürs Clustering (Gruppierung von Datenpunkten, ohne sie in Kategorien einzusortieren).
Da die Ausgaben des Trainingssets beim Unsupervised Learning nicht gekennzeichnet sind, entsteht für die Entwickelnden ein viel kleinerer Aufwand als beim Supervised Learning – allerdings sind dafür sowohl der Trainingsprozess als auch das Endergebnis viel undurchsichtiger. Es ist also schwer, die Leistung und die Genauigkeit der trainierten Modelle zu bewerten.
Supervised Learning vs. Semi-supervised Learning
Ein großer Nachteil des Supervised Learnings ist der erhebliche Zeitaufwand, den Entwickelnde in die Kennzeichnung der Daten investieren müssen. Semi-supervised Learning verwendet sowohl gekennzeichnete als auch ungekennzeichnete Daten, um diesem Nachteil etwas entgegenzuwirken. Dabei lernt das Modell zuerst aus den gekennzeichneten Daten und verbessert sich dann weiter durch die Nutzung der ungekennzeichneten Daten, indem es Muster und Strukturen erkennt.
Der Hauptvorteil von Semi-supervised Learning ist die Effizienz, da weniger Daten gelabelt werden müssen und das Verfahren immer noch eine relativ hohe Genauigkeit aufweisen kann. Semi-supervised Learning kann also für ähnliche Klassifizierungsprobleme eingesetzt werden wie Supervised Learning, aber versucht den Trainingsaufwand zu optimieren. Allerdings kann die Komplexität der Modellbildung und die Abstimmung der Balance zwischen gelabelten und ungelabelten Daten eine Herausforderung darstellen.
Weitere Lernverfahren
Supervised, Unsupervised und Semi-supervised Learning sind nicht einzigen Machine-Learning-Verfahren die eingesetzt werden, um künstliche Intelligenzen zu trainieren.
Deep Learning ist ein Lernverfahren, wobei bereits trainierte Modelle anhand ihrer Eingaben dazulernen und sich stets weiterentwickeln. Solche Modelle basieren auf neuronalen Netzen, die dem menschlichen Gehirn nachempfunden sind.
Zusätzlich gibt es noch Reinforcement Learning, wobei ein Computer durch Versuch und Irrtum lernt, welche Entscheidungen die richtigen sind. Ziel davon ist es, eine „Policy“ (Politik) zu entwickeln, die die besten Entscheidungen trifft, um langfristig das optimale Ergebnis zu bekommen. Ein Beispiel dafür ist eine KI, die lernt, ein Videospiel zu spielen. Die KI erhält von der Trainingsumgebung Feedback auf jede Entscheidung und entwickelt dadurch Spielstrategien.
Supervised Learning ist deswegen eine so populäre Variante beim Anlernen von Algorithmen, weil Entwickelnde die komplette Kontrolle behalten. Während bei anderen Lehrvarianten Ergebnisse oft unklar bleiben, ist beim Supervised Machine Learning am Anfang ganz klar, was am Ende des Lernprozesses stehen soll. Dafür ist der Aufwand für die Lehrenden aber entsprechend hoch.