Utilizando minería de texto y procesamiento de lenguaje natural se estudiaron las brechas que había entre la oferta y la demanda laboral en el contexto del programa. En particular, se utilizó el modelo de tópicos Latent Dirichlet Allocation (LDA). Se contaba con dos muestras de textos: las descripciones de los empleos y las hojas de vida. Se entrenó el modelo de tópicos sobre las hojas de vida y posteriormente se aplicó el mismo para las descripciones de las ocupaciones para comparar los textos que representaban a la demanda y la oferta laboral en un mismo espacio vectorial. Posteriormente, a través de la composición de los tópicos y la distancia euclidia entre los textos, se identificaron las brechas entre lo que ofertaban los jóvenes y lo que demandaban las empresas de ellos analizando de manera cualitativa cada tópico.
Este análisis sirve de insumo para el diseño de programas posteriores que emparejen de manera más efectiva la demanda y la oferta laboral. Adicionalmente, sirve como variables independientes para incorporar en la evaluación de impacto de un programa de política pública, cuya fuente principal de información es de datos no estructurados, como textos, a partir de metodologías de aprendizaje de máquinas.