Metadaten aus Spracherkennung
Die TV-Suchmaschine VideoSnooper.tv durchsucht Fernsehprogramme nach Stichwörtern im EPG, in den Untertiteln und im gesamten gesprochenen Text. Dieser wird mit Hilfe einer Spracherkennungssoftware geparst.
Nach eigenen Angaben funktioniert die Suche folgendermaßen:
“Mit der Eingabe eines oder mehrerer Suchwörter wird nach passenden Textinhalten gesucht. Wer ein Suchwort wie etwa “Globalisierung”, “Börsenkrise” oder “George Bush” eingibt, gelangt zu der Stelle, an der das passende Suchwort fällt. Um nichts zu verpassen, wird das Video ca. 15 Sekunden vor dem Suchwort angespielt.”
Zurzeit werden 22 Fernsehsender durchsucht. VideoSnooper basiert auf der von artec technologies AG entwickelten XentauriX(R)-Technologie in Zusammenarbeit mit der Fa. Mediaclipping.
Prinzipiell ist das eine geniale Idee um an mehr Informationen nicht nur über die Sendungen, sondern auch in den Sendungen zu gelangen.
Denn die anderen Ansätze sind bisher noch Zukunftsmusik:
- Metadaten werden zu jeder Szene schon bei der Produktion gepflegt.
- Mit einer Bilderkennungssoftware werden die Inhalte durchsucht
Der Vorteil am Durchforsten der Sprachinhalte liegt darin, daß es prinzipiell technologisch schon möglich ist, was man von der Bilderkennungssoftware nun gar nicht behaupten kann.
Bei einer Nachrichtensendung kann man sich das auch gut vorstellen, so sollte die Suche nach “Afghanistan” den entsprechenden Beitrag z.B. aus der Tagesschau herausfiltern.
Bei Spielfilmen oder Sportübertragungen ist das schon schwieriger.
Die Suche nach “James Bond tötet Goldfinger” wird wohl kaum zu dem passenden Ergebnis führen, wohl eher der Suchstring “Sie schon wieder?”. Und wenn Ballack ein Tor schießt, wird er zwar bestimmt vom Reporter erwähnt, aber vielleicht wird er auch in einem Spiel erwähnt an dem er gar nicht teilnimmt (”Den Bayern fehlt ein Ballack”).
Das Problem, zumindest bei Spielfilmen könnte man vielleicht umgehen wenn man die Filmbeschreibung für Sehbehinderte parst. Diese Beschreibung jeder einzelnen Szene ist allerdings nur beim öffentlichen Rundfunk erhältlich.
Der erste Test hat übrigens eher kuriose Ergebnisse gebracht, aber trotzdem hat mich die Idee überzeugt. Jedenfalls als zusätzliche und nicht als alleinige Metadatenquelle.

