banner
Nachrichtenzentrum
Hochwertiger Rohstoff, strenge Qualitätskontrolle

Revolutionierung der Szenenrekonstruktion mit Break

Sep 01, 2023

Der Mensch besitzt von Natur aus die Fähigkeit, komplizierte Szenen in ihre Einzelteile zu zerlegen und sie sich in verschiedenen Szenarien vorzustellen. Man könnte sich leicht dieselbe Kreatur in verschiedenen Haltungen und an verschiedenen Orten vorstellen oder sich dieselbe Schüssel in einer neuen Umgebung vorstellen, wenn man einen Schnappschuss eines Keramikkunstwerks nimmt, das eine Kreatur zeigt, die auf einer Schüssel liegt. Heutige generative Modelle benötigen jedoch bei Aufgaben dieser Art Hilfe. Aktuelle Forschungsergebnisse schlagen vor, groß angelegte Text-zu-Bild-Modelle zu personalisieren, indem neu hinzugefügte spezielle Texteinbettungen optimiert oder die Modellgewichte bei vielen Bildern einer einzelnen Idee fein abgestimmt werden, um die Synthese von Instanzen dieses Konzepts in einzigartigen Situationen zu ermöglichen.

In dieser Studie stellen Forscher der Hebräischen Universität Jerusalem, Google Research, der Reichman University und der Universität Tel Aviv ein neuartiges Szenario für die Zerlegung von Textszenen vor: Ihr Ziel besteht darin, ein einzelnes Bild einer Szene anzunehmen, das mehrere Konzepte unterschiedlicher Art enthalten könnte Trennen Sie für jede Idee ein bestimmtes Text-Token. Dies ermöglicht die Erstellung innovativer Bilder aus verbalen Aufforderungen, die bestimmte Konzepte oder Kombinationen mehrerer Themen hervorheben. Die Ideen, die sie aus der Anpassungsaktivität lernen oder extrahieren möchten, sind nur manchmal offensichtlich, was sie möglicherweise unklar macht. Frühere Arbeiten haben sich mit dieser Mehrdeutigkeit befasst, indem sie sich jeweils auf ein einzelnes Thema konzentrierten und eine Vielzahl von Fotografien verwendeten, um den Begriff in verschiedenen Umgebungen zu zeigen. Allerdings sind alternative Methoden erforderlich, um das Problem beim Übergang zu einer Einzelbildsituation zu lösen.

Sie schlagen insbesondere vor, dem Eingabebild eine Reihe von Masken hinzuzufügen, um weitere Informationen zu den Konzepten hinzuzufügen, die sie extrahieren möchten. Bei diesen Masken kann es sich um Freiformmasken handeln, die der Benutzer bereitstellt, oder um solche, die durch einen automatisierten Segmentierungsansatz erstellt wurden (z. B.). Die Anpassung der beiden Haupttechniken TI und DB an diese Umgebung weist auf einen Kompromiss zwischen Rekonstruktion und Bearbeitbarkeit hin. Während TI die Ideen in einem neuen Kontext nicht ordnungsgemäß neu aufbauen kann, benötigt DB aufgrund der Überanpassung mehr Kontextkontrolle. In dieser Studie schlagen die Autoren eine einzigartige Anpassungspipeline vor, die erfolgreich einen Kompromiss zwischen der Beibehaltung der erlernten Konzeptidentität und der Verhinderung einer Überanpassung findet.

Abbildung 1 bietet einen Überblick über unsere Methodik, die aus vier Hauptteilen besteht: (1) Wir verwenden einen Union-Sampling-Ansatz, bei dem jedes Mal eine neue Teilmenge der Token abgetastet wird, um das Modell für den Umgang mit verschiedenen Kombinationen erstellter Ideen zu trainieren. Zusätzlich (2) verwenden wir zur Vermeidung einer Überanpassung ein zweiphasiges Trainingsprogramm, das mit der Optimierung nur der kürzlich eingefügten Token mit einer hohen Lernrate beginnt und in der zweiten Phase mit der Optimierung der Modellgewichte mit einer reduzierten Lernrate fortfährt . Die gewünschten Ideen werden mithilfe eines (3) verdeckten Diffusionsverlusts rekonstruiert. Viertens nutzen wir einen einzigartigen Kreuzaufmerksamkeitsverlust, um die Entflechtung zwischen den erlernten Ideen zu fördern.

Ihre Pipeline enthält zwei Schritte, die in Abbildung 1 dargestellt sind. Um das Eingabebild neu zu erstellen, identifizieren sie zunächst eine Gruppe spezieller Textzeichen (sogenannte Handles), frieren die Modellgewichte ein und optimieren dann die Handles. Sie verfeinern weiterhin die Griffe und gehen in der zweiten Phase zur Feinabstimmung der Modellgewichte über. Ihre Methode legt großen Wert darauf, die Konzeptextraktion zu entwirren oder sicherzustellen, dass jeder Griff mit nur einem Zielkonzept verbunden ist. Sie verstehen auch, dass das Anpassungsverfahren nicht für jede Idee unabhängig durchgeführt werden kann, um Grafiken zu entwickeln, die Kombinationen von Ideen darstellen. Als Reaktion auf diese Entdeckung bieten wir Union Sampling an, einen Schulungsansatz, der diesem Bedarf gerecht wird und die Erstellung von Ideenkombinationen verbessert.

Dazu nutzen sie den maskierten Diffusionsverlust, eine modifizierte Variante des Standarddiffusionsverlusts. Das Modell wird aufgrund dieses Verlusts nicht bestraft, wenn ein Handle mit mehr als einem Konzept verknüpft ist, was garantiert, dass jedes benutzerdefinierte Handle seine beabsichtigte Idee liefern kann. Ihr wichtigstes Ergebnis ist, dass sie eine solche Verstrickung möglicherweise dadurch bestrafen, dass sie den Kreuzaufmerksamkeitskarten, die bekanntermaßen mit dem Szenenlayout korrelieren, zusätzlich einen Verlust auferlegen. Durch den zusätzlichen Verlust konzentriert sich jeder Griff ausschließlich auf die Bereiche, die sein Zielkonzept abdeckt. Sie bieten mehrere automatische Messungen für die Aufgabe an, um ihre Methodik mit den Benchmarks zu vergleichen.

Sie haben der Reihe nach die folgenden Beiträge geleistet: (1) Sie stellen die neuartige Aufgabe der Textszenenzerlegung vor; (2) Sie schlagen für diese Situation eine neuartige Methode vor, die durch das Erlernen einer Reihe entwirrter Konzeptgriffe ein Gleichgewicht zwischen Konzepttreue und Szenenbearbeitbarkeit herstellt; und (3) sie schlagen mehrere automatische Bewertungsmetriken vor und verwenden diese zusammen mit einer Benutzerstudie, um die Wirksamkeit ihres Ansatzes zu demonstrieren. Sie führen auch Benutzerforschung durch, was zeigt, dass auch menschliche Prüfer ihre Methodik mögen. Im letzten Teil schlagen sie mehrere Anwendungen für ihre Technik vor.

Besuche diePapierUndProjektseite.Vergessen Sie nicht, mitzumachenunser 23k+ ML SubReddit,Discord-Kanal, UndE-Mail-Newsletter , wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an[email protected]

🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an

Aneesh Tickoo ist Beratungspraktikantin bei MarktechPost. Derzeit absolviert er seinen Bachelor-Abschluss in Datenwissenschaft und künstlicher Intelligenz am Indian Institute of Technology (IIT) in Bhilai. Die meiste Zeit verbringt er mit der Arbeit an Projekten, die darauf abzielen, die Leistungsfähigkeit des maschinellen Lernens zu nutzen. Sein Forschungsinteresse gilt der Bildverarbeitung und er ist leidenschaftlich daran interessiert, Lösungen dafür zu entwickeln. Er liebt es, mit Menschen in Kontakt zu treten und an interessanten Projekten mitzuarbeiten.

Abbildung 1 Papierprojektseite. unser über 23.000 ML SubReddit Discord Channel E-Mail-Newsletter [email protected] 🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an