Meta funktioniert mit Emu Video und Emu Edit: Generative KI-Tricks für GIFs, Fotos und 4-Sekunden-Videos

Meta kündigt durch a an Blogeintrag dass sie damit beschäftigt sind, an neuen Forschungsarbeiten zu „kontrollierter Bildbearbeitung, die ausschließlich auf Textanweisungen basiert, und einer Methode zur Text-zu-Video-Generierung basierend auf Diffusionsmodellen“ zu arbeiten.

Vereinfacht ausgedrückt bedeutet dies, dass sie generative KI-Tools für Facebook und Instagram integrieren möchten. Die Projekte, die Meta entwickelt, heißen Emu Video und Emu Edit.

Was ist Emu-Video?

Dieses Tool dient, wie der Name schon sagt, zum Generieren von Videos. Meta beschreibt es als „eine einfache Methode zur Text-zu-Video-Generierung basierend auf Diffusionsmodellen“. Emu Video sollte auf eine Vielzahl von Eingaben reagieren: nur Text, nur Bild und sowohl Text als auch Bild. Der Prozess ist in zwei Schritte unterteilt, stellt Meta klar: Zuerst werden Bilder generiert, die auf einer Textaufforderung basieren, und dann werden Videos generiert, die sowohl auf dem Text als auch auf dem generierten Bild basieren.

Was ist Emu Edit?

Dieser soll eine „präzise Bildbearbeitung“ über Erkennungs- und Generierungsaufgaben ermöglichen. Wie Meta sagt, ist der Einsatz generativer KI oft ein Prozess und keine einzelne Aufgabe.

„Emu Edit ist in der Lage, mithilfe von Anweisungen eine Freiformbearbeitung durchzuführen, die Aufgaben wie lokale und globale Bearbeitung, Entfernen und Hinzufügen eines Hintergrunds, Farb- und Geometrietransformationen, Erkennung und Segmentierung und mehr umfasst.“ Aktuelle Methoden tendieren häufig dazu, verschiedene Bearbeitungsaufgaben entweder zu stark zu modifizieren oder zu wenig Leistung zu erbringen. Wir argumentieren, dass das primäre Ziel nicht nur darin bestehen sollte, ein „glaubwürdiges“ Bild zu erzeugen. Stattdessen sollte sich das Modell darauf konzentrieren, nur die Pixel präzise zu ändern, die für die Bearbeitungsanforderung relevant sind. Im Gegensatz zu vielen heutigen generativen KI-Modellen folgt Emu Edit den Anweisungen genau und stellt sicher, dass Pixel im Eingabebild, die nichts mit den Anweisungen zu tun haben, unberührt bleiben. Wenn Sie beispielsweise den Text „Aloha!“ hinzufügen „Bei einer Baseballkappe sollte die Kappe selbst unverändert bleiben“, sagt das Meta-Team.

Die möglichen Anwendungsfälle

Der Weg, der vor uns liegt, ist für Meta definitiv KI-gesteuert.

„Obwohl es sich bei dieser Arbeit derzeit um reine Grundlagenforschung handelt, sind die möglichen Anwendungsfälle klar erkennbar. Stellen Sie sich vor, Sie erstellen im Handumdrehen Ihre eigenen animierten Sticker oder cleveren GIFs, um sie im Gruppenchat zu versenden, anstatt nach dem perfekten Medium für Ihre Antwort suchen zu müssen. Oder bearbeiten Sie Ihre eigenen Fotos und Bilder, keine technischen Kenntnisse erforderlich. Oder verleihen Sie Ihren Instagram-Posts zusätzlichen Schwung, indem Sie statische Fotos animieren. Oder etwas völlig Neues generieren“, schließt der Blogbeitrag.

source site-33