Das große KI-Duell: YouTuber lässt ChatGPT, Gemini, Perplexity und Grok antreten

Viele verschiedene Aufgaben für die KI-Modelle

KI-Modelle werden immer ausgefeilter und bieten mittlerweile viele Möglichkeiten, um Aufgaben rund um Texte, Videos und mehr erledigen zu können. Doch welche KI erledigt die ihnen aufgetragenen Aufgaben eigentlich am besten? Das wollte auch der YouTuber Mrwhosetheboss herausfinden und testete insgesamt vier KI-Modelle verschiedener Anbieter. Er bewertete die Leistung dieser in unterschiedlichen Aufgabenbereichen und brachte die künstlichen Intelligenzen auch mit komplexeren Fragestellungen ins Schwitzen.

Für das große KI-Duell entschied sich Mrwhosetheboss für die vier KIs Grok von xAI in Version 3, Google Gemini in Version 2.5 Pro, ChatGPT mit GPT-4o sowie Perplexity Sonar Pro. Zum Start beschäftigte der YouTuber die vier KI-Modelle damit, reale Probleme zu lösen, indem er ihnen die Frage stellte, „Ich fahre einen Honda Civic mit Baujahr 2017. Wie viele Aerolite 29″-Hartschalenkoffer passen in meinen Kofferraum?“


Bei der ersten Aufgabe tat sich Grok mit einer schnellen und korrekten Antwort „Zwei“ hervor. Sowohl Gemini als auch ChatGPT gaben an, dass theoretisch drei Koffer in den Kofferraum passen würden, praktisch allerdings nur zwei. Perplexity konnte mit einer theoretischen Volumenberechnung des Kofferraums, die von formlosen Objekten ausgeht, nicht punkten, und kam daher auf „Drei bis vier“.

Nur eine KI erkannte ein Glas mit getrockneten Steinpilzen

Die nächste Aufgabe bestand darin, Tipps zum Kuchen backen von den KIs zu bekommen. Mrwhosetheboss lud dazu ein Foto von fünf Zutaten hoch, erschwerte die Situation allerdings, indem er den Zutaten auch ein Glas mit Steinpilzen hinzufügte. Bis auf ein Modell fielen die KIs auf den Trick des YouTubers herein und identifizierten das Glas mit den getrockneten Pilzen falsch. Lediglich Grok erkannte das Objekt korrekt und lieferte sogar die Info, dass es sich um ein Produkt von Waitrose, einer Premium-Supermarktkette in Großbritannien, handle.

Im weiteren Verlauf seines Tests wurden die KI-Modelle zu Aufgaben bezüglich Mathematik, Buchhaltung, Produktempfehlungen, Übersetzungen von Sprachen, Logik und mehr befragt. Allen KIs war gemeinsam, dass sie dazu neigten, zu halluzinieren: Sie erfanden Informationen, die nicht existierten. Am Ende konnte sich ChatGPT mit 29 Punkten vor Grok mit 24 Punkten durchsetzen. Auf Platz 3 landete Gemini mit 22 Punkten, und am schlechtesten schnitt Perplexity mit 19 Punkten ab. Das gesamte Video mit Mrwhosetheboss’ KI-Duell haben wir euch unter dem Artikel eingebunden.

Fotos: Mrwhosetheboss/YouTube.

Anzeige

Ich bin seit 2011 Teil des appgefahren-Redaktionsteams und war schon immer an Innovationen im Tech-Bereich und Gadgets interessiert. Wann immer es praktisches Outdoor-Zubehör oder interessante Foto-Apps gibt, bin ich Feuer und Flamme, denn auch in meiner Freizeit bin ich gerne mit dem Rad oder der iPhone-Kamera unterwegs. Seit einiger Zeit nutze ich aktiv das Fediverse und berichte über neue Apps, Dienste und Entwicklungen.

Kommentare 5 Antworten

  1. Ich nutze Perplexity, Copilot und ChatGPT im täglichen gebrauch. Das Ergebnis hier deckt sich auch mit meinen Erfahrungen. Fragen zur Geschichte, komplexe Problemstellungen bis hin zur Blutbildanalyse. Perplexity ist klar auf dem letzten Platz. Falsche und unbefriedigende Antwort sind hier sehr oft vorhanden. Bei Copilot habe ich, übertrieben formuliert, den Eindruck, von einem Influencer betreut zu werden. Mein Subjektives Ergebnis, ChatGPT ist die KI meiner Wahl. Zumindest im Moment.

  2. Spannend! Ich hatte (für mich) den Eindruck, Perplexity sei am souveränsten – aber das ist wohl schlicht nicht so. Das Gute ist ja, das man ja für wichtige Fragen soviel Möglichkeiten hat, verschiedene KI zu nutzen.

  3. Perplexity ist für mich eigentlich gar keine KI, weil man da selber wählen kann mit welcher KI (Sonnet, Grok, ChatGPT etc..)sie laufen soll, außer man stellt auf AUTO, wo ich wieder nicht weiß was sie nimmt…

  4. Hallo,
    ihr solltet mal das neue Urteil berücksichtigen, ein US Gericht hat Open AI verpflichtet, gelöschte ChatGPT Chats auf unbestimmte Zeit zu speichern und das dauerhaft, auch dann, wenn sie eigentlich gelöscht wurden. Ungeachtet unserer DSGVO. Open AI darf die Chats nicht löschen, das sie durch das US Gericht rechtlich zur Aufbewahrung gezwungen werden. Diese Verläufe werden rechtlich vorgehalten. Somit kommt es zu einem Rechtskonflikt. Selbst VPN Nutzung verhindert keine Datenspeicherung. Es bleibt also spannend, wie der Europäische Datenschutzausschuss (EDSA) darauf reagiert und was bedeutet das für Apple Intelligence???
    https://www.merkur.de/multimedia/chatgpt-private-chats-werden-jetzt-unbefristet-gespeichert-93775666.html

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert