Papers
Lyra 2.0: Erkundbare generative 3D-Welten durch kameragesteuerte Video-zu-3D-Rekonstruktion
Forscher präsentieren Lyra 2.0, ein Framework zur Erstellung persistenter, erkundbarer 3D-Welten durch kameragesteuerte Videogenerierung und nachfolgende 3D-Rekonstruktion. Das System löst die Probleme des räumlichen Vergessens und zeitlichen Driftens bei der Langzeit-Videogenerierung durch Geometrie-basiertes Information Routing und Training mit selbst-augmentierten Verläufen.
Mehr lesen →SceneCritic: Symbolischer Evaluator für 3D-Innenraumszenen überwindet KI-Bewertungsprobleme
Forscher stellen SceneCritic vor, einen symbolischen Evaluator für 3D-Innenraumszenen, der die Probleme von LLM/VLM-basierten Bewertungen löst. Das System nutzt eine strukturierte räumliche Ontologie (SceneOnto) aus realen Datensätzen und kann semantische, geometrische und orientierungsbezogene Kohärenz objektiv bewerten.
Mehr lesen →Causal Diffusion Models: Neue Methode für kontrafaktische Vorhersagen in Längsschnittdaten
Forscher stellen das erste Diffusionsmodell vor, das speziell für die Vorhersage kontrafaktischer Ergebnisse in sequenziellen Behandlungsdaten entwickelt wurde. Das Causal Diffusion Model (CDM) übertrifft bestehende Methoden um 15-30% bei der Verteilungsgenauigkeit und bietet robuste Unsicherheitsquantifizierung ohne explizite Störfaktor-Anpassungen.
Mehr lesen →DDTree: Neuer Ansatz beschleunigt Spekulative Dekodierung mit Diffusions-Draft-Bäumen
Forscher stellen DDTree vor, eine Methode die Block-Diffusions-Drafting mit Baum-Strukturen kombiniert, um die spekulative Dekodierung von Sprachmodellen zu beschleunigen. DDTree konstruiert Draft-Bäume direkt aus den Positionsverteilungen eines Block-Diffusions-Drafters und übertrifft damit bestehende Ansätze wie EAGLE-3.
Mehr lesen →Text2Model und Text2Zinc: KI-Copiloten für automatische Modellgenerierung aus Textbeschreibungen
Forscher stellen Text2Model und Text2Zinc vor - ein System aus KI-Copiloten und ein Cross-Domain-Dataset, die natürlichsprachige Beschreibungen von Optimierungsproblemen automatisch in formale mathematische Modelle übersetzen. Das System nutzt MiniZinc als solver-agnostische Modellierungssprache und vergleicht verschiedene LLM-Strategien von Zero-Shot bis zu agentischen Ansätzen.
Mehr lesen →Umfassende Analyse von Halluzinationen in Video-Large-Language-Models
Ein systematischer Survey kategorisiert Halluzinationen in Video-LLMs in zwei Haupttypen: dynamische Verzerrung und Inhaltsfabrikation. Die Studie analysiert Ursachen, Bewertungsmethoden und Lösungsansätze für diese persistenten Herausforderungen in der Video-Sprach-Modellierung.
Mehr lesen →DINO-Explorer: KI-System entdeckt autonome Unterwasser-Phänomene mit semantischer Vorhersage
Forscher haben DINO-Explorer entwickelt, ein KI-System für autonome Unterwasserfahrzeuge, das wichtige marine Ereignisse in Echtzeit erkennt. Das System nutzt ein gefrorenes DINOv3-Foundation-Model und kompensiert Eigenbewegungen, um echte Umweltanomalien von kamerabedingten Veränderungen zu unterscheiden.
Mehr lesen →GraG: Schnelle 3D-Rekonstruktion von Hand-Objekt-Interaktionen aus monokularen Videos
Forscher stellen GraG vor, eine Methode zur schnellen 3D-Rekonstruktion dynamischer Hand-Objekt-Interaktionen aus einzelnen Videos. Das Verfahren nutzt eine kompakte Sum-of-Gaussians-Darstellung und erreicht 6,4x schnellere Verarbeitung bei 13,4% besserer Objektrekonstruktion und über 65% geringeren Handfehlern.
Mehr lesen →TCL: Neues Framework für effiziente Tensor-Optimierung über verschiedene Hardware-Plattformen
Forscher stellen TCL vor, ein Deep Learning Compiler-Framework, das Tensor-Programme 16,8x schneller optimiert als bestehende Methoden. Das System nutzt aktives Lernen, Mamba-basierte Kostenmodelle und kontinuierliche Wissensdestillation für plattformübergreifende Optimierung.
Mehr lesen →VideoFlexTok: Neue flexible Video-Tokenisierung für effizientere KI-Modelle
Forscher stellen VideoFlexTok vor, eine neuartige Video-Tokenisierung, die Videos in variabler Länge mit einem Coarse-to-Fine-Ansatz darstellt. Die Methode ermöglicht es, mit 5x kleineren Modellen vergleichbare Qualität zu erreichen und lange Videos mit deutlich weniger Tokens zu generieren.
Mehr lesen →VFA: Neue Optimierung für Flash Attention reduziert Vektor-Operationen drastisch
Forscher stellen Vector Relieved Flash Attention (VFA) vor, eine hardware-freundliche Methode zur Optimierung von Flash Attention. VFA reduziert rechenintensive Vektor-Operationen durch clevere Vorberechnung des globalen Maximums und erzielt damit bis zu doppelte Geschwindigkeitsgewinne auf moderner Hardware.
Mehr lesen →Schwerwiegende Sicherheitslücken bei KI-Bilderkennung durch winzige Störungen aufgedeckt
Forscher haben entdeckt, dass rekonstruktionsbasierte Detektoren für KI-generierte Bilder extrem anfällig für adversarielle Angriffe sind. Durch kaum sichtbare Störungen können solche Systeme praktisch vollständig ausgetrickst werden, wobei die Erkennungsgenauigkeit auf nahezu null sinkt.
Mehr lesen →Neuer Datensatz für komplexe markerlose 4D-Bewegungserfassung
Forscher haben einen neuen Datensatz für markerlose 4D-Bewegungserfassung vorgestellt, der realistische Multi-Person-Szenarien mit komplexen Interaktionen, Verdeckungen und schnellen Positionswechseln abbildet. Benchmarks zeigen erhebliche Leistungseinbußen aktueller Modelle unter diesen realistischen Bedingungen.
Mehr lesen →GF-Score: Neues Framework für faire Bewertung der Robustheit von KI-Modellen
Forscher stellen den GF-Score vor, ein Framework zur Bewertung der adversarialen Robustheit von neuronalen Netzwerken auf Klassenebene. Das System identifiziert Fairness-Probleme bei der Robustheit verschiedener Klassen und eliminiert die Notwendigkeit teurer adversarialer Angriffe durch ein Selbstkalibrierungsverfahren.
Mehr lesen →KI-News direkt ins Postfach
Jeden Morgen um 8:30 Uhr — die wichtigsten KI-Nachrichten zusammengefasst.