Das große KI-Duell: YouTuber lässt ChatGPT, Gemini, Perplexity und Grok antreten

KI-Modelle werden immer ausgefeilter und bieten mittlerweile viele Möglichkeiten, um Aufgaben rund um Texte, Videos und mehr erledigen zu können. Doch welche KI erledigt die ihnen aufgetragenen Aufgaben eigentlich am besten? Das wollte auch der YouTuber Mrwhosetheboss herausfinden und testete insgesamt vier KI-Modelle verschiedener Anbieter. Er bewertete die Leistung dieser in unterschiedlichen Aufgabenbereichen und brachte die künstlichen Intelligenzen auch mit komplexeren Fragestellungen ins Schwitzen.

Für das große KI-Duell entschied sich Mrwhosetheboss für die vier KIs Grok von xAI in Version 3, Google Gemini in Version 2.5 Pro, ChatGPT mit GPT-4o sowie Perplexity Sonar Pro. Zum Start beschäftigte der YouTuber die vier KI-Modelle damit, reale Probleme zu lösen, indem er ihnen die Frage stellte, „Ich fahre einen Honda Civic mit Baujahr 2017. Wie viele Aerolite 29″-Hartschalenkoffer passen in meinen Kofferraum?“

Bei der ersten Aufgabe tat sich Grok mit einer schnellen und korrekten Antwort „Zwei“ hervor. Sowohl Gemini als auch ChatGPT gaben an, dass theoretisch drei Koffer in den Kofferraum passen würden, praktisch allerdings nur zwei. Perplexity konnte mit einer theoretischen Volumenberechnung des Kofferraums, die von formlosen Objekten ausgeht, nicht punkten, und kam daher auf „Drei bis vier“.

Nur eine KI erkannte ein Glas mit getrockneten Steinpilzen

Die nächste Aufgabe bestand darin, Tipps zum Kuchen backen von den KIs zu bekommen. Mrwhosetheboss lud dazu ein Foto von fünf Zutaten hoch, erschwerte die Situation allerdings, indem er den Zutaten auch ein Glas mit Steinpilzen hinzufügte. Bis auf ein Modell fielen die KIs auf den Trick des YouTubers herein und identifizierten das Glas mit den getrockneten Pilzen falsch. Lediglich Grok erkannte das Objekt korrekt und lieferte sogar die Info, dass es sich um ein Produkt von Waitrose, einer Premium-Supermarktkette in Großbritannien, handle.

Im weiteren Verlauf seines Tests wurden die KI-Modelle zu Aufgaben bezüglich Mathematik, Buchhaltung, Produktempfehlungen, Übersetzungen von Sprachen, Logik und mehr befragt. Allen KIs war gemeinsam, dass sie dazu neigten, zu halluzinieren: Sie erfanden Informationen, die nicht existierten. Am Ende konnte sich ChatGPT mit 29 Punkten vor Grok mit 24 Punkten durchsetzen. Auf Platz 3 landete Gemini mit 22 Punkten, und am schlechtesten schnitt Perplexity mit 19 Punkten ab. Das gesamte Video mit Mrwhosetheboss’ KI-Duell haben wir euch unter dem Artikel eingebunden.

Fotos: Mrwhosetheboss/YouTube.

Vorheriger ArtikeliOS 26: Beats- und AirPods-Kopfhörer schalten sich bei Schlaf automatisch aus

Nächster ArtikelApple Arcade: Blockbreaker-Game Angry Birds Bounce neu im Spiele-Abo

Mel

Ich bin seit 2011 Teil des appgefahren-Redaktionsteams und war schon immer an Innovationen im Tech-Bereich und Gadgets interessiert. Wann immer es praktisches Outdoor-Zubehör oder interessante Foto-Apps gibt, bin ich Feuer und Flamme, denn auch in meiner Freizeit bin ich gerne mit dem Rad oder der iPhone-Kamera unterwegs. Seit einiger Zeit nutze ich aktiv das Fediverse und berichte über neue Apps, Dienste und Entwicklungen.

Kommentare 5 Antworten

Jordanika sagt:

6. Juli 2025 um 07:00 Uhr

Ich nutze Perplexity, Copilot und ChatGPT im täglichen gebrauch. Das Ergebnis hier deckt sich auch mit meinen Erfahrungen. Fragen zur Geschichte, komplexe Problemstellungen bis hin zur Blutbildanalyse. Perplexity ist klar auf dem letzten Platz. Falsche und unbefriedigende Antwort sind hier sehr oft vorhanden. Bei Copilot habe ich, übertrieben formuliert, den Eindruck, von einem Influencer betreut zu werden. Mein Subjektives Ergebnis, ChatGPT ist die KI meiner Wahl. Zumindest im Moment.

Antworten
tractor sagt:

6. Juli 2025 um 10:05 Uhr

Spannend! Ich hatte (für mich) den Eindruck, Perplexity sei am souveränsten – aber das ist wohl schlicht nicht so. Das Gute ist ja, das man ja für wichtige Fragen soviel Möglichkeiten hat, verschiedene KI zu nutzen.

Antworten
tom_hmr sagt:

6. Juli 2025 um 15:22 Uhr

Perplexity ist für mich eigentlich gar keine KI, weil man da selber wählen kann mit welcher KI (Sonnet, Grok, ChatGPT etc..)sie laufen soll, außer man stellt auf AUTO, wo ich wieder nicht weiß was sie nimmt…

Antworten
Simply sagt:

7. Juli 2025 um 07:22 Uhr

Und wer wollte Perplexity nochmal kaufen?

Antworten
Kucki sagt:

7. Juli 2025 um 22:08 Uhr

Hallo,
ihr solltet mal das neue Urteil berücksichtigen, ein US Gericht hat Open AI verpflichtet, gelöschte ChatGPT Chats auf unbestimmte Zeit zu speichern und das dauerhaft, auch dann, wenn sie eigentlich gelöscht wurden. Ungeachtet unserer DSGVO. Open AI darf die Chats nicht löschen, das sie durch das US Gericht rechtlich zur Aufbewahrung gezwungen werden. Diese Verläufe werden rechtlich vorgehalten. Somit kommt es zu einem Rechtskonflikt. Selbst VPN Nutzung verhindert keine Datenspeicherung. Es bleibt also spannend, wie der Europäische Datenschutzausschuss (EDSA) darauf reagiert und was bedeutet das für Apple Intelligence???
https://www.merkur.de/multimedia/chatgpt-private-chats-werden-jetzt-unbefristet-gespeichert-93775666.html

Antworten

Schreibe einen Kommentar Antworten abbrechen

Sebastian

Gibt es denn keinen Rauchmelder mehr, der die Funktionalität eines Google Nest Protect hat? Dafür zahle ich auch gerne mehr als 80€!

→ Anker startet neuen Eufy Rauchmelder E10 für satte 79,99 Euro
zeroG

@dh: Ja, guck mal nach dem Heiman mit Matter over Thread, kostet aktuell 37 Euro bei Amazon.

→ Anker startet neuen Eufy Rauchmelder E10 für satte 79,99 Euro
Fritz

Open Claw kann schnell vom „heißen Shice“ zur dampfenden K**** werden, wenn er die falschen Zugriffsrechte hat (oder sich selbst erteilt), ob...

→ SwitchBot AI Hub kombiniert verschiedene KI-Modelle miteinander
Chief

Also diese 162,40€, sehe ich auch nicht bei Amazon. Egal welche Fabre ich auswähle.

→ Apples Beats Studio Pro jetzt zum neuen Tiefstpreis erhältlich
Chief

Und nach 10 Jahren wieder 80€ zahlen.

→ Anker startet neuen Eufy Rauchmelder E10 für satte 79,99 Euro

Das große KI-Duell: YouTuber lässt ChatGPT, Gemini, Perplexity und Grok antreten

Nur eine KI erkannte ein Glas mit getrockneten Steinpilzen

Fotos: Mrwhosetheboss/YouTube.

Mehr zum Thema KI

Kommentare 5 Antworten

Schreibe einen Kommentar Antworten abbrechen