banner
Heim / Blog / Das Team aus Illinois gewinnt den ersten Preis im OpenCV-KI-Wettbewerb
Blog

Das Team aus Illinois gewinnt den ersten Preis im OpenCV-KI-Wettbewerb

Aug 15, 2023Aug 15, 2023

09.08.2023

Debra Levey Larson

Das manuelle Erstellen eines Datensatzes beschrifteter Bilder ist kostspielig und erfordert viel Aufwand. Motiviert, diese beiden Faktoren zu reduzieren, entwickelte ein Team aus vier Studenten der University of Illinois Urbana-Champaign eine Lösung, die den Prozess der Generierung und Kommentierung von Daten für das Training von Deep-Learning-basierten Computer-Vision-Modellen automatisiert.

Das Team gewann dieses Jahr den ersten Preis im Core Track des OpenCV AI-Wettbewerbs 2022. Ihre Software namens COCOpen folgt dem Bildbeschriftungsansatz, der im Microsoft-Datensatz „Common Objects in Context“ eingeführt wurde.

Die von ihnen erstellte Software erzeugt Bilddaten, die zum Trainieren von Modellen zum Identifizieren und Umreißen bestimmter Objekte in einer Szene verwendet werden, die mehrere Objekte derselben Kategorie enthalten könnte.

Im Beispielanwendungsfall in ihrem Code-Repository generieren sie Bilder, die mehrere Objekte der Gerätekategorien „Kabel“ und „Ethernet“ enthalten. Diese synthetischen Bilder können verwendet werden, um ein Deep-Learning-Modell zu trainieren, um diese Kategorien von Objekten auf neuen Bildern zu erkennen, die das Modell noch nie zuvor gesehen hat.

Die automatisierte Erstellung und Beschriftung dieser Schulungsbilder reduziert den mit diesem Prozess verbundenen Zeit- und Kostenaufwand erheblich. Der Code kann in einer Vielzahl von Anwendungen wie Fertigung, Logistik, autonomes Fahren und häusliche Dienstleistungen eingesetzt werden.

Holly Dinkel , ein Ph.D. Student in der Abteilung für Luft- und Raumfahrttechnik an der UIUC, erklärte, dass COCOpen funktioniert, indem es einfache, unbeschriftete Bilder einzelner Objekte vor einem schwarzen Hintergrund aufnimmt.

Die Software verwendet OpenCV, um Masken für diese einzelnen Objekte basierend auf ihrer Farbe zu erstellen. Anschließend werden mehrere Objektbilder mithilfe der Copy-Paste-Methode zur Datenerweiterung zu einem einzigen Bild kombiniert. Darüber hinaus wird OpenCV verwendet, um Verbesserungen anzuwenden, einschließlich der zufälligen Ausrichtung der Ausrichtung eines Objekts oder der Änderung seiner Farbe.

Die von der COCOpen-Bibliothek generierten Daten werden validiert, indem ein Detectron2 Mask R-CNN-Modell trainiert wird, um Ethernet-Kabel und Netzwerkgeräte für eine Robotermanipulationsanwendung zu erkennen.

Yash Rathod, ein Junior in der Fakultät für Informatik, sagte, seine Vision für COCOpen sei es, Forschung aus einem Labor zu übernehmen und eine benutzerfreundliche Datengenerierungserfahrung für Praktiker des maschinellen Lernens zu schaffen.

„Die Idee bestand darin, eine Pipeline aufzubauen, in der wir Tausende von Bildern aus der Cloud abrufen, sie vorverarbeiten und die im Labor untersuchten Datengenerierungstechniken anwenden, um COCO-formatierte Daten zu erzeugen, die für das Training von Computer-Vision-Modellen bereit sind“, sagte er.

Rathod nutzte seine semesterlange Erfahrung im Promoting Undergraduate Research in Engineering Program der UIUC, um Software für die Anbindung an Cloud-Datenspeicherressourcen zu entwickeln und zu testen – ursprünglich Microsoft Azure, dann Box.

„Durch die automatisierte Datengenerierung können Benutzer einfach ein Code-Repository klonen und nur minimale Installations- und Ausführungsanweisungen befolgen. „Wir möchten Benutzern Zeit und wertvolle Rechenressourcen sparen, indem wir die Cloud nutzen“, sagte Rathod.

Harry Zhao , der im vergangenen Mai seinen Bachelor in Luft- und Raumfahrttechnik abschloss, hob die Fähigkeit von COCOpen hervor, reale Computer-Vision-Probleme mithilfe von OpenCV mit Anwendungen in vielen Disziplinen zu lösen. Unter den anderen 45 Einsendungen in ihrer Kategorie befanden sich auch Lösungen für medizinische, ökologische und bauliche Herausforderungen.

„Die Erstellung des ursprünglichen Microsoft COCO-Datensatzes erforderte insgesamt 55.000 Arbeitsstunden, natürlich nicht alle von einer Person“, sagte Zhao. „Aber es kann viele Unstimmigkeiten geben. Einige Etiketten sind möglicherweise ungenau und müssen abgelehnt oder verfeinert werden, was noch mehr Zeit verschwendet. COCOpen bringt Daten in ein Format, mit dem Menschen automatisch Beschriftungen in Bildern generieren können.“

Zhao sagte, COCOpen sei von Code und Daten inspiriert, die er und Dinkel vor zwei Jahren während seines Praktikums beim Undergraduate Research Opportunity Program des Illinois Space Grant Consortium erstellt hätten.

Über die Komplexität der Kennzeichnung sagte Zhao: „Wenn wir uns nur um die Erkennung oder Klassifizierung von Drähten kümmern würden, würden wir einfach sagen: Das ist ein Draht und das ist kein Draht.“ Es ist null oder eins. Binär. Bei der semantischen Segmentierung wissen Sie, was die Pixel darstellen.

„Angenommen, Sie hätten zwei Drähte und möchten zwischen beiden unterscheiden, weil wir beispielsweise wollten, dass ein Roboter den blauen Draht aufnimmt“, sagte Zhao. „Bei der einfachsten semantischen Segmentierung würden wir die Instanzsegmentierung verwenden, die mehrere Instanzen eines Objekts berücksichtigt. In einem guten Instanzsegmentierungsalgorithmus gibt es keine bestimmte Anzahl von Objekten. Sie könnten viele Drähte haben. Sie müssen nichts angeben.“

Jingyi Xiang , eine Seniorin der Fakultät für Elektrotechnik und Informationstechnik, begann während ihrer Erfahrung im Undergraduate Research Apprenticeship Program mit dem Studium der automatischen Datengenerierung. Aufbauend auf Zhaos Arbeit implementierte Xiang die Datenerweiterung durch Kopieren und Einfügen, eine Kernfunktion von COCOpen.

„Während meiner ersten zwei Recherchewochen habe ich insgesamt 16 Stunden damit verbracht, Bilder, die wir zuvor gesammelt hatten, von Hand zu beschriften“, sagte Xiang. „Das Beschriften eines Bildes dauerte durchschnittlich etwa 10 Minuten. Bei einigen unübersichtlichen Bildern dauerte es bis zu einer Stunde pro Bild.“ . Die Datenerweiterungstechniken in COCOpen ermöglichten es uns, unseren Datensatz zu skalieren und die menschliche Arbeitszeit drastisch zu reduzieren.“

Xiang sagte auch, dass Dinkel und Rathod großartige Arbeit geleistet haben, um sicherzustellen, dass die COCOpen-Bibliothek so benutzerfreundlich wie möglich ist. „Ich habe bei dieser Erfahrung viel von ihnen gelernt. In Zukunft werde ich versuchen, die hohe Qualität von COCOpen zu erreichen, wenn ich meine eigene Forschungsarbeit als Open Source betreibe.“

Dinkel sagte, der Erfolg des Projekts hänge von der unglaublichen Leistung jedes einzelnen Teammitglieds ab.

„Obwohl COCOpen als Produkt im Laufe weniger Wochen entstand, stellt es zwei Jahre an Bemühungen dar, Probleme im Bereich Computer Vision zu erforschen“, sagte Dinkel. „Dieses Projekt wäre ohne das Engagement jedes einzelnen Mitglieds für das Projekt und die Entwicklung von Erfolgsgewohnheiten nicht möglich gewesen. Yash, Jingyi und Harry sind alle auf ihre Art mutig. Dieses Projekt war erfolgreich, weil jeder von ihnen die Einstellung annahm, Dinge auszuprobieren, in den Sandkasten zu springen und etwas aus dem Nichts zu bauen.“

Das Team aus Illinois, dem es den Spitznamen COCONuts gab, wurde von AE's beratenTim Bretl und von Brian Coltin und Trey Smith von der NASA. Alle Teammitglieder sind Teil des UIUC/NASA-Projekts „Representing and Manipulating Deformable Linear Objects“ (https://github.com/RMDLO).

Die Forschungsbemühungen wurden durch den NASA Space Technology Graduate Research Opportunity Award 80NSSC21K1292, den Graduate Assistance in Areas of National Award P200A180050-19 des US-Bildungsministeriums und das Coordinated Science Laboratory der UIUC unterstützt.

Holly DinkelYash RathodHarry ZhaoJingyi XiangTim Bretl