AI News
model-releasesimonw ·

Qwen3.6-35B-A3B generiert bessere SVGs als Claude Opus 4.7 in Pelikan-Benchmark

Simon Willison vergleicht die neuen Modelle Qwen3.6-35B-A3B von Alibaba und Claude Opus 4.7 von Anthropic anhand seines informellen "Pelikan auf Fahrrad"-Benchmarks. Das lokal auf seinem MacBook laufende Qwen-Modell erzeugte dabei überraschenderweise bessere SVG-Grafiken als Anthropics neues Flaggschiff-Modell.

Einordnung

Diese Beobachtung ist bemerkenswert, da sie zeigt, dass ein kleineres, lokal laufbares Modell (35B Parameter) bei spezifischen kreativen Aufgaben wie SVG-Generierung besser abschneiden kann als ein großes, cloud-basiertes Modell. Simon Willisons "Pelikan-Benchmark" mag humorvoll gemeint sein, aber er deckt durchaus wichtige Aspekte der multimodalen Kreativität und räumlichen Vorstellungskraft von KI-Modellen auf. Die Ergebnisse werfen interessante Fragen über die Bewertung von Modellleistung auf. Während traditionelle Benchmarks oft auf logisches Denken oder Faktenwissen fokussieren, zeigen kreative Aufgaben wie diese andere Stärken und Schwächen auf. Dass ein quantisiertes, lokal laufbares Modell hier punktet, unterstreicht auch die wachsende Bedeutung effizienter, dezentraler KI-Systeme.
Quelle: simonw