Gestenerkennung für Messestand
25. Januar 2012 von
Jens Peter Kleinau
Für einen Messestand erstellen wir eine Gestenerkennung. Gestenerkennung ist eigentlich kein Hexenwerk und bei der Verwendung der entsprechenden Verfahren auch mit akzeptablem Umfang umzusetzen. Einige Verfahren basieren auf der Messung von Bewegungen. Diese Bewegungen im 3 Dimensionalen Raum kann ich mit Hilfe von Geräten wie der Microsoft Kinect 360 oder dem Asus Wavi Xtion messen. Da Gesten in die Tiefe eher für den Sport denn auf einem Messestand interessant sind, kann ich mich auf zwei Dimensionen reduzieren. Nun müssen also nur die vertikalen und horziontalen Veränderungen gemessen werden.
Die meisten Verfahren beruhen auf der Messung von Beschleunigung. Hält mein Arm still, oder bewegt sich mein Arm mit gleichbleibender Geschwindigkeit beim Durchqueren eines Raums, so entsteht bei einer linearem Messung über die Zeit eine gleichförmige Linie. Wird er beschleunigt oder gebremst, so entstehen Ausschläge, Höchstwerte, auf der Achse. Die Anzahl der Höchstwerte sind Kennzeichen dieser Bewegung. Die dabei entstehenden Kurven lassen sich nun mit bekannten, vom System erlernten Gesten vergleichen. Hierbei sind verschiedene Verfahren möglich. Es wird in den einfacherenVerfahren (LTW,DTW) mit Hilfe der quadratischen Euklidischen Distanz eine Auswahl getroffen, welche bekannte Geste nun der vorgeführten ähnelt. Komplexer ist das Hidden Markov Model (HMM) aus der Spracherkennung, bei dem ein Wahrscheinlichkeitsmodell die trainierten Gesten verarbeitet. Während die klassischen Verfahren auf eine Erkennung von 40-70% der Gesten kommen, ist man beim HMM schon teilweise bei 90% der Wiedererkennung. Sehr erfolgsversprechend sind Methoden mit Hierarchischen Klassifikatoren, die aktuell eine Erkennung von 70-100% der Gesten schaffen (je nach Studie).
Insgesamt also ein erfolgsversprechendes Unternehmen. Jedoch nur bis zu dem Moment, wo ein Dutzend verschiedene Personen vor dem Computer stehen und mit den Händen winken. Und auch der Aufwand fällt ins Gewicht, denn wie jeder Messe-Effekt soll er viel bringen und wenig kosten. Das Trainieren des Computers mit Gesten fällt zum großen Teil weg. Da die Personen sehr unterschiedlich winken, ist es kaum möglich dem Computer jede personifizierte Geste anzutrainieren. Auch muss die Erkennung so robust sein, dass sie auch funktioniert wenn ein paar Personen gleichzeitig vor dem PC stehen und gestikulieren. Eine Implementierung eines komplexen Verfahrens ist vom Aufwand ausgeschlossen und die vorhandenen Umsetzungen sind nur bedingt verwendbar, teilweise in der Erkennung eher schwach oder teuer. Die Anforderungen lauten also:
- geringer Aufwand,
- nur Gesten erkennen, wenn man die Erkennung durch eine Geste gestartet hat,
- nur die Person nehmen, die in der geringsten Entfernung zu dem Gerät steht,
- kein Training des Geräts notwendig.

