Volver a todos los proyectos

Resumen algorítmico de los Acuerdos de Paz de la Habana

El 23 de agosto de 2016 el gobierno de Colombia y las FARC firmaron el “Acuerdo para la terminación del conflicto y la construcción de una paz estable y duradera”. Desde esa misma fecha y hasta el 2 de Octubre de 2016 los colombiano debían revisar el texto, analizar y decidir si legitimaban esta decisión. Investigadores y matemáticos de Quantil | Matemáticas Aplicadas se pusieron en la tarea de analizar el texto algorítmicamente, usando técnicas de inteligencia artificial y procesamiento de lenguaje natural, para facilitar su entendimiento. Se desarrolló un resumen automático de las secciones del acuerdo cercanas a un patrón de búsqueda dado, un análisis de la distribución de tópicos especificados por el usuario dentro de cada punto del acuerdo y un análisis estadístico de las palabras más frecuentes.
VER INFORME COMPLETO

Resumen metodológico

Usamos varias técnicas de identificación de tópicos o temas que vectorizan palabras y documentos como asignación de atent Dirichlet Allocation y GloVe. Estos métodos se utilizaron para filtrar las oraciones en el tratado por similitud semántica según la consulta de un usuario. Luego se aplicó el método de factorización (NMF) al subconjunto resultante a partir del cual se calculó una puntuación de relevancia para cada oración y se produjo una tabla para visualizar la proporción de diferentes temas. La puntuación de relevancia fue más utilizado para filtrar las oraciones resultantes y producir un resumen de longitud variable, que muestra las oraciones arriba un umbral de relevancia en orden de aparición.

Después de preprocesar correctamente los textos para eliminar signos de puntuación no deseados o caracteres no ascii, numeración no deseada, hashtags, enlaces y espacios repetidos, realizamos los siguientes procedimientos:
  1. Representación de palabras entrenadas usando LDA y GloVe.
  2. Vectorizado el tratado de Peacy por sección.
  3. Temas computarizados previamente entrenados.
El primer paso del procesamiento de datos fue entrenar la representación vectorial de palabras. Para LDA, construimos una matriz Documento-Término (DTM) de propuestas individuales como documentos. Las propuestas se analizaron dividiendo párrafos en oraciones separadas divididas por punto o punto y coma. Además, eliminamos las palabras vacías y variamos el número de temas k, en el rango {30, 50, 100, 300}.

Para la representación de GloVe, construimos la Matriz de Co-ocurrencia (Term Coocurrence Matrix - TCM), X, usando ventanas de longitud k en el rango {3, 5, 7, 9}. Se buscó que el corpus con el cual entrenamos estos algoritmos fueran textos en español en temas de política, guerra y narcotráfico; el corpus completo consistió del tratado de paz, 12 libros, 9800 párrafos de sentencias de la Corte Constitucional, 2000 párrafos sobre noticias relacionadas con las FARC y 50000 tweets.

La calibración de estos parámetros se realizó de forma empírica evaluando la coherencia del grupo de palabras similares para cada palabra en un conjunto de prueba. Nuestro conjunto de prueba consta de palabras: campo, conflicto, derechos, farc, internacional, justicia, lesa, militares, paramilitares, participación, patria, paz, verdad, víctimas. Las palabras vecinas se calculan usando la distancia del coseno.

Resultados, discusión y conclusiones

Demo de la herramienta

Entre los servicios web expuestos en la página web está un resumen automático de las secciones del acuerdo cercanas al patrón de búsqueda especificado por el usuario, un análisis de la distribución de tópicos especificados por el usuario dentro de cada punto del acuerdo y un análisis estadístico de las palabras más frecuentes.

 

Ir al demo

Visibilidad en medios

"Investigadores y matemáticos de Quantil se pusieron en la tarea de analizar el texto algorítmicamente, usando técnicas de inteligencia artificial y procesamiento de lenguaje natural, para facilitar su entendimiento por el público en general."

fAIr LAC - Banco Interamericano de Desarrolllo
2021 © Centro de Ciencia de Datos para Políticas Públicas by Quantil
crossmenuarrow-left linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram