Challenge

In häuslichen Umgebungen ist es wichtig, dass Roboter effektiv lernen, Objekte zu erkennen und auf Anweisungen zu reagieren, um den Alltag zu erleichtern. Die Herausforderung besteht darin, eine Architektur zu entwickeln, die visuelle, sprachliche und sensorische Informationen kombiniert, um dem Roboter das Lernen zu erleichtern. Unser Ziel war es, dem Roboter beizubringen, Objekte anhand ihrer Position und der gesprochenen Anweisungen des Benutzers zu erkennen und zu benennen.

Lösung

Wir entwickelten eine fortschrittliche multimodale Architektur, die Vision, Sprache und Inferenz kombiniert. Der Nao-Roboter lernt Objekte durch relative und absolute Positionsangaben, die vom Benutzer mündlich gemacht werden. Ein Inferenzsystem erkennt inkonsistente Eingaben und gibt nützliche Rückmeldungen, um den Benutzer anzuleiten. Der Roboter zeigt durch Zeigen auf das gewünschte Objekt, was er gelernt hat. Diese Technologie kann in häuslichen Umgebungen eingesetzt werden, um die Effizienz und Effektivität von Haushaltsrobotern zu verbessern.

Benefits
  • Hohe Klassifikationsgenauigkeit
    Unser System erreicht eine Klassifikationsgenauigkeit von 80,8% bei der Verarbeitung multimodaler Eingaben, was die Effektivität der Informationsintegration zeigt.
  • Nützliche Rückmeldung für Benutzer
    Das System erkennt inkonsistente Eingaben und gibt hilfreiche Rückmeldungen, um den Benutzer zu unterstützen und das Training des Roboters zu optimieren.
  • Verbesserte Lerngeschwindigkeit
    Dank der Rückmeldungen des Systems lernen Benutzer schneller, konsistente Anweisungen zu geben, was zu einer effizienteren Interaktion führt.
  • Robustheit gegenüber Perspektivenwechsel
    Das System klärt Missverständnisse über relative Positionen durch Rückmeldungen und Zeigen, was das Verständnis der Benutzer verbessert.
  • Benutzerfreundlichkeit und Anpassungsfähigkeit
    Unser System ist benutzerfreundlich und flexibel erweiterbar, um neue Objekte und Satzstrukturen zu integrieren.

Diese Lösung ist ideal für den Einsatz in häuslichen Umgebungen, um Reinigungsaufgaben effizienter und effektiver zu gestalten und bietet eine verbesserte Benutzererfahrung durch die Integration natürlicher Kommunikationsformen.