Describir: Modelo para la detección y reconocimiento de acciones humanas en videos a partir de descriptores espacio-temporales /