Sumario: | En el contexto de la sociedad actual de la información los datos no estructurados toman especial relevancia. El extraer información relevante de opiniones volcadas en páginas web resulta de encuestas a usuarios de hoteles, restaurantes, centros comerciales, centros docentes, etc. Influyen de forma decisiva en las orientaciones comerciales de los mismos. En suma, aquellos registros de información textual donde el tratamiento de los mismos de forma manual resulta en cierta forma inabordable necesitan de una herramienta de ayuda. Para conseguir ese fin existe un conjunto de paquetes del programa informático-estadístico R que dan solución global a las necesidades de captar y tratar la información relevante obtenida. Por tanto, la minería de textos con R tiene como objetivo general facilitar la extracción y tratamiento de información textual para la investigación, siendo herramientas estadísticas de minería de datos las que completan el proceso. El texto que se presenta aborda, con la ayuda del programa R, en seis temas las tareas fundamentales del proceso de extracción y tratamiento de datos textuales. En primer lugar, se fijan los conceptos básicos en minería textual con R; después se habla de procesos primarios con los textos. Con estos dos capítulos se tienen los rudimentos básicos para cualquier tratamiento posterior del texto. En el capítulo tres se habla de las técnicas descriptivas de minería textual y en el capítulo cuatro de las técnicas explicativas. Finalmente los temas cinco y seis están dedicados a detallar ejemplos prácticos de aplicaciones de minería textual en: análisis de opiniones, análisis de estilo, pruebas y exámenes automatizados o parametrizados, tratamiento de información de twitter, análisis de redes sociales y extracción de información de la web (web scraping). No se ha pretendido ser exhaustivo en las aplicaciones de minería textual por limitaciones de espacio, simplemente se ha puesto las que se piensa son más utilizadas. La visión del texto es eminentemente práctica, con múltiples códigos para resolver los numerosos ejemplos lo que facilita una posterior aplicación en contextos personales del lector. Para su comprensión se supone un conocimiento elemental de R y cierta familiaridad con términos estadísticos básicos.
|