KI-Modelle werden immer ausgefeilter und bieten mittlerweile viele Möglichkeiten, um Aufgaben rund um Texte, Videos und mehr erledigen zu können. Doch welche KI erledigt die ihnen aufgetragenen Aufgaben eigentlich am besten? Das wollte auch der YouTuber Mrwhosetheboss herausfinden und testete insgesamt vier KI-Modelle verschiedener Anbieter. Er bewertete die Leistung dieser in unterschiedlichen Aufgabenbereichen und brachte die künstlichen Intelligenzen auch mit komplexeren Fragestellungen ins Schwitzen.
Für das große KI-Duell entschied sich Mrwhosetheboss für die vier KIs Grok von xAI in Version 3, Google Gemini in Version 2.5 Pro, ChatGPT mit GPT-4o sowie Perplexity Sonar Pro. Zum Start beschäftigte der YouTuber die vier KI-Modelle damit, reale Probleme zu lösen, indem er ihnen die Frage stellte, „Ich fahre einen Honda Civic mit Baujahr 2017. Wie viele Aerolite 29″-Hartschalenkoffer passen in meinen Kofferraum?“
Bei der ersten Aufgabe tat sich Grok mit einer schnellen und korrekten Antwort „Zwei“ hervor. Sowohl Gemini als auch ChatGPT gaben an, dass theoretisch drei Koffer in den Kofferraum passen würden, praktisch allerdings nur zwei. Perplexity konnte mit einer theoretischen Volumenberechnung des Kofferraums, die von formlosen Objekten ausgeht, nicht punkten, und kam daher auf „Drei bis vier“.
Nur eine KI erkannte ein Glas mit getrockneten Steinpilzen
Die nächste Aufgabe bestand darin, Tipps zum Kuchen backen von den KIs zu bekommen. Mrwhosetheboss lud dazu ein Foto von fünf Zutaten hoch, erschwerte die Situation allerdings, indem er den Zutaten auch ein Glas mit Steinpilzen hinzufügte. Bis auf ein Modell fielen die KIs auf den Trick des YouTubers herein und identifizierten das Glas mit den getrockneten Pilzen falsch. Lediglich Grok erkannte das Objekt korrekt und lieferte sogar die Info, dass es sich um ein Produkt von Waitrose, einer Premium-Supermarktkette in Großbritannien, handle.
Im weiteren Verlauf seines Tests wurden die KI-Modelle zu Aufgaben bezüglich Mathematik, Buchhaltung, Produktempfehlungen, Übersetzungen von Sprachen, Logik und mehr befragt. Allen KIs war gemeinsam, dass sie dazu neigten, zu halluzinieren: Sie erfanden Informationen, die nicht existierten. Am Ende konnte sich ChatGPT mit 29 Punkten vor Grok mit 24 Punkten durchsetzen. Auf Platz 3 landete Gemini mit 22 Punkten, und am schlechtesten schnitt Perplexity mit 19 Punkten ab. Das gesamte Video mit Mrwhosetheboss’ KI-Duell haben wir euch unter dem Artikel eingebunden.


Ich nutze Perplexity, Copilot und ChatGPT im täglichen gebrauch. Das Ergebnis hier deckt sich auch mit meinen Erfahrungen. Fragen zur Geschichte, komplexe Problemstellungen bis hin zur Blutbildanalyse. Perplexity ist klar auf dem letzten Platz. Falsche und unbefriedigende Antwort sind hier sehr oft vorhanden. Bei Copilot habe ich, übertrieben formuliert, den Eindruck, von einem Influencer betreut zu werden. Mein Subjektives Ergebnis, ChatGPT ist die KI meiner Wahl. Zumindest im Moment.
Spannend! Ich hatte (für mich) den Eindruck, Perplexity sei am souveränsten – aber das ist wohl schlicht nicht so. Das Gute ist ja, das man ja für wichtige Fragen soviel Möglichkeiten hat, verschiedene KI zu nutzen.
Perplexity ist für mich eigentlich gar keine KI, weil man da selber wählen kann mit welcher KI (Sonnet, Grok, ChatGPT etc..)sie laufen soll, außer man stellt auf AUTO, wo ich wieder nicht weiß was sie nimmt…
Und wer wollte Perplexity nochmal kaufen?
Hallo,
ihr solltet mal das neue Urteil berücksichtigen, ein US Gericht hat Open AI verpflichtet, gelöschte ChatGPT Chats auf unbestimmte Zeit zu speichern und das dauerhaft, auch dann, wenn sie eigentlich gelöscht wurden. Ungeachtet unserer DSGVO. Open AI darf die Chats nicht löschen, das sie durch das US Gericht rechtlich zur Aufbewahrung gezwungen werden. Diese Verläufe werden rechtlich vorgehalten. Somit kommt es zu einem Rechtskonflikt. Selbst VPN Nutzung verhindert keine Datenspeicherung. Es bleibt also spannend, wie der Europäische Datenschutzausschuss (EDSA) darauf reagiert und was bedeutet das für Apple Intelligence???
https://www.merkur.de/multimedia/chatgpt-private-chats-werden-jetzt-unbefristet-gespeichert-93775666.html