Schon seit Ewigkeiten hört man immer wieder von künstlicher Intelligenz (KI) und der bevorstehenden Übernahme der Welt. Wer hätte gedacht, dass es nun vor allem in kreativen Bereichen, wie dem Erstellen von Texten und Bildern, anfängt.
Zugegebenermaßen, GPT-3 ist nicht gerade der aussagekräftigste Name, um zu verstehen, was genau dahintersteckt, aber derzeit ist es tatsächlich die bekannteste sprachverarbeitende KI des Internets.
Vor allem durch den Einsatz in ChatGPT wurde es mittlerweile schon in manchen Schulen verboten, hat verschiedenste Internettexte geschrieben und soll sogar Microsoft helfen, die Suchmaschine Bing zu revolutionieren.
Was also ist GPT-3? Was kann es? Und ist das wirklich die Zukunft der AI (Artificial Intelligence)? Diese und weitere Fragen haben wir in diesem Beitrag beantwortet.
Was ist GPT-3 eigentlich?
GPT-3 (Generative Pre-Trained Transformer-3) ist ein Sprachverarbeitungsmodell, das einen riesigen Datensatz verwendet, um verschiedenste Arten von Text zu erzeugen. Darunter fallen Anwendungsbereiche, wie Texte zu erstellen, zusammenzufassen, sie zu vereinfachen oder sie zu übersetzen.
Es wurde von OpenAI entwickelt und kann mit einer relativ kleinen Menge an Eingabetext (spezifischen Befehlen, sogenannte Prompts) große Mengen an anspruchsvollen und relevanten maschinell generierten Texten.
Das neuronale Netz in GPT-3 hat über 175 Milliarden Parameter für maschinelles Lernen. Zum Vergleich: Turing Natural Language Generation (NLG) war mit 17 Milliarden Parameter vor GPT-3 das größte von Microsoft trainierte Sprachmodell.
Ja, du hast richtig gelesen, wir sprechen hier von einem Faktor 10.
Das neuronale Netzwerk von GPT-3 ist somit das größte, das je produziert wurde (Stand: Anfang 2023). Damit ist GPT-3 besser als jedes frühere Modell, wenn es darum geht, Texte zu produzieren, die wie von Menschen geschrieben wirken.
Was kannst du mit GPT-3 machen?
GPT-3 verarbeitet Texteingaben, um eine Vielzahl von Aufgaben durchzuführen. So kann die natürliche menschliche Sprache verstanden und darauf in Textform reagiert werden.
Und genau das ist auch ein großer Unterschied zu den vergangenen Modellen.
Die Erstellung von Inhalten, die für Menschen verständlich sind, war vorher eine Herausforderung für Maschinen, die die Komplexität und die Nuancen unserer Sprache nicht erkannt haben.
GPT-3 ist genau darauf trainiert, menschliche Texte zu verstehen und zu erstellen.
Somit kann alles erstellt werden, was eine Textstruktur hat – nicht nur Texte in menschlicher Sprache. Das KI-Modell kann auch Textzusammenfassungen und sogar Programmiercode erzeugen.
Deshalb gibt es mittlerweile im Internet eine Reihe von Artikeln, Gedichten, Geschichten, Nachrichten und Dialoge, die maschinell erstellt wurden – und das alles mit relativ wenig Aufwand (Eingabetext).
Ein paar Beispiele, die du mit GPT-3 generieren kannst:
- sekundenschnelles Zusammenfassen von Texten, Büchern und Artikeln
- Erstellung von Blogbeiträgen und anderen Texten
- automatische Antworten (Chats) generieren, indem es auf einen Text, den eine beliebige Person in den Computer eingibt, mit einem neuen, dem Kontext entsprechenden Textstück antwortet
- Analyse und Zusammenfassung von komplexen Dokumenten (z.B. Verträge)
- ohne Programmierkenntnisse durch die Eingabe von Befehlen Code generieren lassen
- Fehler in bestehendem Code finden
- zwischen Programmiersprachen übersetzen
Wie funktioniert GPT-3?
GPT-3 ist ein Sprachvorhersagemodell. Das bedeutet, dass es über ein maschinelles Lernmodell in Form eines neuronalen Netzwerks verfügt. Dieses kann den eingegebenen Text in das umwandeln, was es als das nützlichste Ergebnis ”vorhersagt”.
Dafür wurde das System mit einer riesigen Menge an Internettexten trainiert, um Muster zu erkennen. Diesen Prozess nennt man generatives Pre-Training. GPT-3 wurde mit mehreren Datensätzen trainiert, die jeweils unterschiedlich gewichtet wurden, darunter Common Crawl, WebText2 und Wikipedia.
GPT-3 wurde zunächst durch eine überwachte Testphase und dann durch eine Verstärkungsphase trainiert. Beim Training von ChatGPT stellt ein Team von Ausbildern dem Sprachmodell eine Frage mit der Vorgabe einer korrekten Ausgabe.
Wenn das Modell falsch antwortet, korrigieren die Trainer das Modell, um ihm die richtige Antwort beizubringen. Das Modell kann auch mehrere Antworten geben, die von den Ausbildern von der besten bis zur schlechtesten eingestuft werden.
Dieser Schritt hat im Wesentlichen dazu beigetragen, dass sich die Ergebnisse sehr menschlich ”anfühlen”.
GPT-3 hat mehr als 175 Milliarden Parameter für maschinelles Lernen und ist damit deutlich größer als seine Vorgänger - frühere große Sprachmodelle wie Bidirectional Encoder Representations Transformers (BERT) und Turing NLG. Parameter sind die Teile eines großen Sprachmodells, die seine Fähigkeiten bei einem Problem wie der Texterstellung definieren. Die Leistung eines großen Sprachmodells nimmt im Allgemeinen zu, je mehr Daten und Parameter dem Modell hinzugefügt werden.
Somit stellt GPT-3 seine Vorgänger in Bezug auf die Anzahl der Parameter in den Schatten.
Wenn ein Benutzer eine Texteingabe macht, analysiert das System die Sprache und verwendet einen Textprädiktor, der auf seinem Training basiert, um die wahrscheinlichste Ausgabe zu erstellen.
Das Modell kann fein abgestimmt werden, aber auch ohne viel zusätzliches Tuning oder Training erzeugt das Modell qualitativ hochwertigen Ausgabetext, der sich ähnlich anfühlt wie das, was Menschen produzieren würden.
Genug Information, wie sieht das Ganze in der Praxis aus?
4 Beispiele für Anwendungen mit GPT-3
ChatGPT
Eines der bemerkenswertesten Beispiele für die Umsetzung von GPT-3 ist das ChatGPT-Sprachmodell.
ChatGPT ist eine Variante des GPT-3-Modells, die für den menschlichen Dialog optimiert ist, d. h. es kann Folgefragen stellen, Fehler zugeben, falsche Prämissen infrage stellen und in Echtzeit kommunizieren.
ChatGPT wurde während seiner Forschungsvorschau der Öffentlichkeit kostenlos zur Verfügung gestellt, um Benutzerfeedback zu sammeln. ChatGPT wurde u. a. entwickelt, um die Möglichkeit schädlicher oder betrügerischer Antworten zu verringern.
Dall-E
Ein weiteres bekanntes Beispiel ist Dall-E. Dall-E ist ein künstliches neuronales Netzwerk zur Bilderzeugung, das auf einer 12-Milliarden-Parameter-Version von GPT-3 basiert.
Dall-E wurde mit einem Datensatz von Text-Bild-Paaren trainiert und kann Bilder aus vom Benutzer eingegebenen Textaufforderungen erzeugen. Dall-E wurde ebenfalls von OpenAI entwickelt.
Kurzgesagt: Es generiert ein Bild aus deiner Texteingabe. Je konkreter diese ist, desto besser wird das Bild.
Hier zum Beispiel mit der Eingabe ”Ein Ölgemälde von Matisse, das einen humanoiden Roboter beim Schachspielen zeigt”:
OpenAI Playground
Der OpenAI Playground ist ein webbasiertes Tool, mit dem du ganz einfach Prompts testen und dich mit der Funktionsweise der GPT-3 API vertraut machen kannst.
Ähnlich wie ChatGPT funktioniert es, ohne eine einzige Zeile Code zu schreiben. Du kannst Befehle vorgeben und erhältst eine Antwort.
Im Gegensatz zu ChatGPT gibt es aber noch einige Dinge mehr, die man im Playground tun kann.
Jasper AI
Jasper ist ein AI-Textgenerator mit über 3.000 5-Sterne-Bewertungen. Das Tool ist am besten geeignet für das Schreiben von Blogbeiträgen, Social-Media-Inhalten und Marketingtexten.
Jasper verspricht, Inhalte 10x schneller mit künstlicher Intelligenz (in diesem Fall mithilfe von GPT-3) zu erstellen.
Wo GPT-3 überzeugt und wo nicht (Stärken & Schwächen)
Wie du siehst, ist GPT-3 tatsächlich beeindruckend, aber das bedeutet nicht, dass es frei von Fehlern ist.
Unserer Meinung nach gibt es folgende Stärken und Schwächen:
GPT-3 Stärken
- GPT-3 hat eine breite Palette von Anwendungsmöglichkeiten. Es ist aufgabenunabhängig, d. h. es kann eine große Bandbreite von Aufgaben ohne Feinabstimmung durchführen.
- Das Analysieren und Zusammenfassen von großen Datenmengen erfolgt in Rekordzeit.
- Wenn man die KI mit eigenen Daten trainiert, können auch komplexere Aufgaben im Unternehmenskontext erfüllt werden: zum Beispiel im Customer Support zur Beantwortung von Kundenanfragen.
- Ideengenerierung am Anfang eines Projektes. Anstatt mit einem leeren Blatt Papier können Texte mit einer Grundlage an Ideen bzw. Struktur gestartet werden.
- GPT-3 ist hardwareunabhängig: Die KI braucht keine lokale Rechenleistung und funktioniert dadurch auf jedem PC, Laptop oder Smartphone.
- Für eine KI hat es ein erstaunlich gutes Verständnis von Ethik und Moral. Legt man etwa ethische Theorien oder Situationen vor, ist es in der Lage, eine durchdachte Antwort zu geben, die Gefühle und Emotionen von Menschen berücksichtigt.
GPT-3 Schwächen
- Fixer Datensatz. GPT-3 lernt nicht weiter. Es wurde vortrainiert, d. h. es verfügt nicht über ein Langzeitgedächtnis, das aus jeder Interaktion lernt. So hat es z.B. nur ein begrenztes Wissen über die Welt nach 2021.
- GPT-3 hat eine begrenzte Eingabegröße. Das bedeutet, dass nicht unlimitiert viel Text als Eingabe für die Ausgabe bereitgestellt werden kann. Somit ist die Anwendung limitiert.
- Kein Fact Checking - Die KI präsentiert dir die Informationen mit absoluter Überzeugung und Sicherheit. Es kann aber nicht sichergestellt werden, ob die bereitgestellten Texte auch wirklich so stimmen bzw. Sinn ergeben.
- Mangelnde Erklärung, warum Dinge ausgegeben werden. Es gibt keine Fähigkeit zu erklären und zu interpretieren, warum bestimmte Eingaben zu bestimmten Ausgaben führen.
Die Bereiche, in denen uns das Modell bisher am meisten überzeugt hat, sind das Programmieren und die Möglichkeit, komplizierte Sachverhalte zusammenzufassen.
Der größte Malus ist die Sicherheit, mit der einem auch Schwachsinn präsentiert werden kann. Hinterfrage also immer alle Antworten, die dir die KI gibt.
Gibt es GPT-3 Alternativen?
GPT-3 hat sich mittlerweile einen Namen gemacht, ist aber nicht die einzige künstliche Intelligenz, die dazu in der Lage ist.
Googles LaMDA machte letztes Jahr Schlagzeilen, als ein Softwareingenieur freigestellt wurde, weil er behauptet hat, dass der KI-Algorithmus des Konzerns ein Bewusstsein und eine Seele hat.
Es gibt noch viele andere Beispiele für KI, die von Microsoft, Amazon und der Stanford University entwickelt wurden.
Diese haben aber bisher alle viel weniger Aufmerksamkeit erhalten als OpenAI oder Google.
GPT-3 Fazit
GPT-3, das Sprachverarbeitungsmodell von OpenAI, ist das bislang größte künstliche neuronale Netz, das je geschaffen wurde.
Es verwendet viele verschiedene Datensätze, um Texteingaben zu verstehen, zu verarbeiten und Antworten in Form von menschlichen Texten zu generieren.
Mittlerweile gibt es viele Softwareanbieter, die GPT-3 als Basis für verschiedene Anwendungen einsetzen.