Motivation
Die autonome Navigation mobiler Roboter in menschlichen Umgebungen stellt eine große Herausforderung dar. Klassische Navigationsalgorithmen (wie DWA oder A*) behandeln Menschen oft nur als dynamische Hindernisse, was zu „unhöflichem“ oder für den Nutzer unangenehmem Fahrverhalten führt. Ein intelligenter Rollstuhl muss jedoch mehr können, als nur kollisionsfrei von A nach B zu fahren: Er muss soziale Normen verstehen und sich kontextabhängig verhalten (z. B. nicht durch eine Gruppe von Menschen hindurchfahren, Vorfahrt gewähren oder auf dem Gehweg die richtige Seite wählen).
Neueste Ansätze zeigen, dass Large Foundation Models und Vision-Language Models (VLMs) über ein tiefes Verständnis menschlicher Verhaltensweisen verfügen. Diese Modelle können visuelle Szenen interpretieren und „Zero-Shot“-Entscheidungen für eine sozial konforme Navigation treffen, ohne dass dafür aufwendiges Training notwendig ist. Am FAPS wird ein intelligenter Rollstuhl entwickelt, der nun mit diesen Fähigkeiten ausgestattet werden soll. Ziel ist es, Foundation Models zu nutzen, um die Umgebung semantisch zu erfassen und Navigationspfade zu generieren oder zu bewerten, die sozial akzeptabel und für den Patienten komfortabel sind.
Inspiration liefern unter anderem folgende aktuelle Veröffentlichungen:
– VLM-Social-Nav: Socially Aware Robot Navigation Through Scoring Using Vision-Language Models
– CoNVOI: Context-aware Navigation using Vision Language Models in Outdoor and Indoor Environments
– Navigation World Models
Zielsetzung
In dieser Arbeit soll ein Ansatz entwickelt werden, der ein Foundation Model (VLM) in den Navigations-Stack des intelligenten Rollstuhls integriert. Das System soll Kamerabilder auswerten, um soziale Kontexte zu erkennen. Darauf basierend soll der Rollstuhl seine Trajektorie anpassen – entweder durch die Generierung von Wegpunkten oder durch das „Scoring“ (Bewerten) von Pfaden hinsichtlich ihrer sozialen Konformität.
Arbeitsschritte
- Einarbeitung in die bestehende ROS-Navigation des intelligenten Rollstuhls sowie in den Stand der Technik zu Social Navigation und Foundation Models
- .Auswahl und Integration eines geeigneten Modells (z. B. GPT-4o, Gemini, LLaVA oder spezialisierte Modelle wie CoNVOI/NWM)
- Entwicklung eines Moduls zur semantischen Szenenanalyse: Erkennung von sozialen Situationen und Ableitung von Verhaltensregeln
- Implementierung einer Schnittstelle zur Bewegungsplanung: Das VLM soll als „High-Level Planner“ oder „Scorer“ fungieren, um den lokalen Planer (z. B. DWA/MPC) zu beeinflussen
- Evaluation des Systems in Simulation oder Realumgebung: Vergleich des Fahrverhaltens mit klassischen Methoden hinsichtlich Komfort, Sicherheit und Einhaltung sozialer Normen
Bewerbung bitte per E-Mail mit kurzer Notenübersicht und Lebenslauf.
Kategorien:
Forschungsbereich:
RobotikArt der Arbeit:
Masterarbeit, ProjektarbeitStudiengang:
Informatik, Maschinenbau, Mechatronik, MedizintechnikTechnologiefeld:
MedizintechnikKontakt:
Matthias Kalenberg, M.Sc.
Department Maschinenbau (MB)
Lehrstuhl für Fertigungsautomatisierung und Produktionssystematik (FAPS, Prof. Franke)
- Telefon: +491622437412
- E-Mail: matthias.kalenberg@faps.fau.de

