Chat GPT-4o vs. GPT-4 – Wie gut ist die neue Version?

Das neue GPT-4o Modell markiert einen bedeutenden Fortschritt in der KI-Entwicklung, indem es Eingaben aus Text, Audio, Bildern und Videos verarbeitet und Ausgaben in Text, Audio und Bildern generiert. Das O steht für Omni. Hier das Indroduction Video von OpenAI:

Vergleich von GPT-4o mit anderen LLMs

Mit beeindruckenden Reaktionszeiten und verbesserten Fähigkeiten in verschiedenen Sprachen und Modalitäten setzt GPT-4o neue Maßstäbe in der natürlichen Mensch-Computer-Interaktion. Diese Innovation eröffnet vielfältige Einsatzmöglichkeiten in Bereichen wie Echtzeitübersetzung und erweitertes Sprachverständnis.

Modell MMLU (%) GPQA (%) MATH (%) HumanEval (%) MGSM (%) DROP (f1)
GPT-4o 88.7 53.6 76.6 90.2 90.5 86.0
GPT-4T 86.5 48.0 72.6 87.1 88.5 83.4
GPT-4 (initial release 23-03-14) 86.8 50.4 60.1 84.9 90.7 83.1
Claude 3 Opus 81.9 35.7 58.5 84.1 74.5 80.9
Gemini Pro 1.5 N/A 48.0 57.8 67.0 74.4 78.9
Gemini Ultra 1.0 86.1 N/A 53.2 71.9 N/A 82.4
Llama3 400b 83.7 N/A 42.5 67.0 79.0 83.5

Quelle: Link

Hier sind die Bedeutungen der einzelnen Metriken, die in der Tabelle verwendet werden:

MMLU (%)Massive Multitask Language Understanding: Ein Benchmark, der die Fähigkeit eines Modells bewertet, allgemeines Wissen über verschiedene Themengebiete hinweg zu verstehen und anzuwenden. Die Ergebnisse werden in Prozent angegeben.

GPQA (%) – General-Purpose Question Answering: Ein Benchmark für die Beantwortung von Fragen zu verschiedenen Themen, die allgemeines Wissen und logisches Denken erfordern. Die Ergebnisse werden in Prozent angegeben.

MATH (%): Ein Benchmark, der die Fähigkeit eines Modells zur Lösung mathematischer Probleme bewertet. Dies umfasst sowohl arithmetische als auch algebraische Aufgaben. Die Ergebnisse werden in Prozent angegeben.

HumanEval (%) – Human Evaluation: Ein Benchmark, der die Leistung eines Modells anhand von menschlich bewerteten Aufgaben misst. Diese Aufgaben können unterschiedliche Komplexitätsgrade und Themenbereiche abdecken. Die Ergebnisse werden in Prozent angegeben.

MGSM (%) – Mathematics Grade School Math: Ein spezieller Benchmark für Grundschulmathematik. Diese Metrik misst, wie gut das Modell einfache mathematische Probleme, die in der Grundschule gelehrt werden, lösen kann. Die Ergebnisse werden in Prozent angegeben.

DROP (f1) – Discrete Reasoning Over Paragraphs: Ein Benchmark zur Bewertung der Fähigkeit eines Modells, diskrete, logische Schlussfolgerungen aus Textabschnitten zu ziehen. Die Ergebnisse werden im F1-Score angegeben, einer Metrik, die sowohl Präzision als auch Recall berücksichtigt.

Chat GPT-4o und GPT-4 im Vergleich

Eigenschaft GPT-4 GPT-4o
Eingabe Text, Bild, Sprache Text, Audio, Bild, Video
Ausgabe Text, Bild, Sprache Text, Audio, Bild
Leistung Starke Leistung auf professionellen und akademischen Benchmarks, multimodal Erbt die Eigenschaften von GPT-4, verbessert die Zugänglichkeit und Benutzerinteraktion
Geschwindigkeit Relativ langsamer Deutlich schneller (232 ms bis 320 ms Reaktionszeit)
Zugänglichkeit Nur mit GPT-Plus Abo Auch kostenlose Nutzer
Modellarchitektur Multimodal (Text und Bild) Multimodal (Text, Audio, Bild, Video), end-to-end
Anwendungen Gesundheitswesen, Bildung, Kundenservice Erweiterte Anwendungen mit besserer Interaktivität und Vielseitigkeit
Preisgestaltung GPT-4 Turbo als kostengünstigere Variante 50% günstiger als GPT-4 Turbo

Ich habe GPT-4o nun einen Tag lang ausgiebig getestet und ich kann sagen, dass besonders die Schnelligkeit überzeugt. Ich empfand GPT-4 als sehr langsam und das neue Modell ist deutlich schneller.

Die Arbeitsergebnisse im Bereich Texterstellung empfinde ich als gleichwertig, allerdings habe ich das nach keinem wissenschaftlichen System gemessen. Es ist lediglich mein individueller Eindruck.


Weitere Beiträge:

4.8/5 - (64 votes)

Schreibe einen Kommentar