Actualmente existen varios métodos para producir resúmenes de texto de manera automática, pero la evaluación de los mismos continua siendo un tema desafiante. En este artículo estudiamos la evaluación de la calidad de resúmenes producidos de manera automática mediante un método de compresión de frases. Abordamos la problemática que supone el uso de métricas automáticas como ROUGE, las cuales no toman en cuenta ni la gramática ni la validez de las oraciones. Nuestra propuesta de evaluacián está basada en el test de Turing, en el cual varios jueces humanos deben identificar el origen, humano o automático, de una serie de resúmenes. También explicamos como validar las respuestas de los jueces por medio del test estadístico de Fisher.
Descarga el archivo aquí