Chat GPT-4o vs. GPT-4 – Wie gut ist die neue Version?

Andreas Wittmann ChatGPT 15. Mai 2024 Keine Kommentare

Das neue GPT-4o Modell markiert einen bedeutenden Fortschritt in der KI-Entwicklung, indem es Eingaben aus Text, Audio, Bildern und Videos verarbeitet und Ausgaben in Text, Audio und Bildern generiert. Das O steht für Omni. Hier das Indroduction Video von OpenAI:

Vergleich von GPT-4o mit anderen LLMs

Mit beeindruckenden Reaktionszeiten und verbesserten Fähigkeiten in verschiedenen Sprachen und Modalitäten setzt GPT-4o neue Maßstäbe in der natürlichen Mensch-Computer-Interaktion. Diese Innovation eröffnet vielfältige Einsatzmöglichkeiten in Bereichen wie Echtzeitübersetzung und erweitertes Sprachverständnis.

Modell	MMLU (%)	GPQA (%)	MATH (%)	HumanEval (%)	MGSM (%)	DROP (f1)
GPT-4o	88.7	53.6	76.6	90.2	90.5	86.0
GPT-4T	86.5	48.0	72.6	87.1	88.5	83.4
GPT-4 (initial release 23-03-14)	86.8	50.4	60.1	84.9	90.7	83.1
Claude 3 Opus	81.9	35.7	58.5	84.1	74.5	80.9
Gemini Pro 1.5	N/A	48.0	57.8	67.0	74.4	78.9
Gemini Ultra 1.0	86.1	N/A	53.2	71.9	N/A	82.4
Llama3 400b	83.7	N/A	42.5	67.0	79.0	83.5

Quelle: Link

Hier sind die Bedeutungen der einzelnen Metriken, die in der Tabelle verwendet werden:

MMLU (%) – Massive Multitask Language Understanding: Ein Benchmark, der die Fähigkeit eines Modells bewertet, allgemeines Wissen über verschiedene Themengebiete hinweg zu verstehen und anzuwenden. Die Ergebnisse werden in Prozent angegeben.

GPQA (%) – General-Purpose Question Answering: Ein Benchmark für die Beantwortung von Fragen zu verschiedenen Themen, die allgemeines Wissen und logisches Denken erfordern. Die Ergebnisse werden in Prozent angegeben.

MATH (%): Ein Benchmark, der die Fähigkeit eines Modells zur Lösung mathematischer Probleme bewertet. Dies umfasst sowohl arithmetische als auch algebraische Aufgaben. Die Ergebnisse werden in Prozent angegeben.

HumanEval (%) – Human Evaluation: Ein Benchmark, der die Leistung eines Modells anhand von menschlich bewerteten Aufgaben misst. Diese Aufgaben können unterschiedliche Komplexitätsgrade und Themenbereiche abdecken. Die Ergebnisse werden in Prozent angegeben.

MGSM (%) – Mathematics Grade School Math: Ein spezieller Benchmark für Grundschulmathematik. Diese Metrik misst, wie gut das Modell einfache mathematische Probleme, die in der Grundschule gelehrt werden, lösen kann. Die Ergebnisse werden in Prozent angegeben.

DROP (f1) – Discrete Reasoning Over Paragraphs: Ein Benchmark zur Bewertung der Fähigkeit eines Modells, diskrete, logische Schlussfolgerungen aus Textabschnitten zu ziehen. Die Ergebnisse werden im F1-Score angegeben, einer Metrik, die sowohl Präzision als auch Recall berücksichtigt.

Chat GPT-4o und GPT-4 im Vergleich

Eigenschaft	GPT-4	GPT-4o
Eingabe	Text, Bild, Sprache	Text, Audio, Bild, Video
Ausgabe	Text, Bild, Sprache	Text, Audio, Bild
Leistung	Starke Leistung auf professionellen und akademischen Benchmarks, multimodal	Erbt die Eigenschaften von GPT-4, verbessert die Zugänglichkeit und Benutzerinteraktion
Geschwindigkeit	Relativ langsamer	Deutlich schneller (232 ms bis 320 ms Reaktionszeit)
Zugänglichkeit	Nur mit GPT-Plus Abo	Auch kostenlose Nutzer
Modellarchitektur	Multimodal (Text und Bild)	Multimodal (Text, Audio, Bild, Video), end-to-end
Anwendungen	Gesundheitswesen, Bildung, Kundenservice	Erweiterte Anwendungen mit besserer Interaktivität und Vielseitigkeit
Preisgestaltung	GPT-4 Turbo als kostengünstigere Variante	50% günstiger als GPT-4 Turbo

Ich habe GPT-4o nun einen Tag lang ausgiebig getestet und ich kann sagen, dass besonders die Schnelligkeit überzeugt. Ich empfand GPT-4 als sehr langsam und das neue Modell ist deutlich schneller.

Die Arbeitsergebnisse im Bereich Texterstellung empfinde ich als gleichwertig, allerdings habe ich das nach keinem wissenschaftlichen System gemessen. Es ist lediglich mein individueller Eindruck.

Weitere Beiträge:

4.8/5 - (64 votes)

Über den Autor

Andreas Wittmann

Andreas Wittmann ist ein echter Technik-Enthusiast. Er zeichnet sich durch seine tiefe Leidenschaft für alles aus, was mit Technologie zu tun hat, insbesondere in den Bereichen Softwareentwicklung, neue Gadgets und die neuesten Trends in der IT-Branche. Seine Expertise und sein Wissen, kombiniert mit einem ständigen Streben nach Innovation, machen ihn zu einem herausragenden Kenner der Tech-Welt.

Schreibe einen Kommentar Cancel Reply