Uncategorized | Centro de Analítica para Políticas Públicas

El primer jueves de cada mes a las 11:30 a.m. hora Colombia (GMT-5) presentamos el seminario de analítica para políticas públicas. El seminario es de registro abierto y se llevará a cabo por medio de Zoom. ¡Esperamos puedan acompañarnos!

Para estar más enterado de nuestro eventos, únete a nuestro canal de Slack

Regístrate

Mayo 8, 2025

Optimización a Gran Escala para Operaciones Sostenibles

Sergio Camelo
Candidato a Ph.D. en Matemáticas Aplicadas, Stanford University

Resumen. En esta presentación, Sergio expondrá dos proyectos que implementan técnicas de optimización con el objetivo de promover operaciones sostenibles. El primero es el diseño de una plataforma que permite a agricultores de palma de aceite en Indonesia, que emplean técnicas de producción sostenible, encontrar compradores para su fruta. El segundo optimiza la gestión de inventario de estufas de bioetanol en quioscos locales en Kenia, como alternativa para reducir las emisiones de CO₂ asociadas a otros métodos de cocción de alimentos menos sostenibles, como lo son el carbón o la leña.

Abril 5, 2025

Herramienta Colaborativa de Inteligencia Artificial para la Reforma Agraria Basada en Datos
* Proyecto ganador del concurso Datos a la U 2024

Resumen. Paula, Mario, y Carlos son estudiantes de maestría en Ingeniería de Sistemas y Computación en la Universidad Tecnológica de Pereira (UTP). Su proyecto, "Herramienta Colaborativa de Inteligencia Artificial para la Reforma Agraria Basada en Datos" fue ganador de la convocatoria Datos a la U 2024 del Ministerio de TIC de Colombia. Su proyecto integra información de múltiples fuentes gubernamentales para desarrollar un aplicativo web diseñado para mejorar el acceso a datos institucionales. La plataforma cuenta con visualizaciones interactivas, un ChatBot inteligente entrenado con información del contexto territorial y un generador de informes conectado con los datos de diversos sistemas de varias entidades, facilitando la toma de decisiones en el proceso de reforma agraria. Esta herramienta no solo optimiza la gestión de información, sino que también empodera a las comunidades territoriales al garantizar un acceso más equitativo a los datos, fortaleciendo así los procesos participativos en la toma de decisiones sobre el uso y asignación de la tierra.

Marzo 6, 2025

(In)Justicia en Sistemas de IA: Auditorías Tributarias y Multiplicidad de Modelos

Emily Black
Profesora Asistente de Ciencias de la Computación y Ciencia de Datos en New York University

Febrero 6, 2025

Inferencia Robusta y Cuantificación de Incertidumbre para la Toma de Decisiones Basada en Datos

Santiago Cortés Gómez
Candidato a Ph.D. en Machine Learning, Carnegie Mellon University

Resumen. El creciente uso de datos observacionales para guiar la toma de decisiones en políticas públicas, salud y otras áreas de alto impacto ha impulsado el desarrollo de métodos robustos a sesgos de selección y cambios de distribución, considerando además cómo la incertidumbre y las predicciones afectan problemas decisionales posteriores. En la primera mitad de la charla, presentaré un marco metodológico para realizar inferencia estadística robusta en presencia de sesgos de selección u otros cambios en la distribución entre los datos observados y la población objetivo. Esta metodología aprovecha información adicional para restringir el conjunto de distribuciones posibles, permitiendo obtener cotas de alta probabilidad sobre el parámetro poblacional de interés. Aplicamos esta metodología para revelar sesgos en la tasa de hospitalización por COVID-19 en Estados Unidos entre distintos grupos raciales, incorporando datos serológicos complementarios. Posteriormente, discutiré un marco para la cuantificación de incertidumbre en modelos de aprendizaje automático utilizados en la toma de decisiones. Nuestro método utiliza conformal prediction para generar conjuntos de predicción adaptados a la estructura del problema decisional, manteniendo garantías de cobertura estadística. Presentamos un caso de uso real de modelos de machine learning para el diagnóstico médico, donde nuestro enfoque incorpora de manera efectiva la estructura jerárquica de las enfermedades dermatológicas generando conjuntos de decisión coherentes que facilitan el proceso de triage y demuestran cómo el conocimiento experto puede fundamentar la toma de decisiones basados en datos en contextos críticos.

Statistical inference under constrained selection bias. Santiago Cortes-Gomez, Mateo Dulce, Carlos Patino, and Bryan Wilder. ICML, 2024

Decision-Focused Uncertainty Quantification. Santiago Cortes-Gomez, Carlos Patino, Yewon Byun, and Steven Wu, Eric Horvitz, Bryan Wilder

Para estar más enterado de nuestro eventos, únete a nuestro canal de Slack

Regístrate

Marzo 6, 2025

(In)Justicia en Sistemas de IA: Auditorías Tributarias y Multiplicidad de Modelos

Emily Black
Profesora Asistente de Ciencias de la Computación y Ciencia de Datos en New York University

Febrero 6, 2025

Inferencia Robusta y Cuantificación de Incertidumbre para la Toma de Decisiones Basada en Datos

Santiago Cortés Gómez
Candidato a Ph.D. en Machine Learning, Carnegie Mellon University

Statistical inference under constrained selection bias. Santiago Cortes-Gomez, Mateo Dulce, Carlos Patino, and Bryan Wilder. ICML, 2024

Decision-Focused Uncertainty Quantification. Santiago Cortes-Gomez, Carlos Patino, Yewon Byun, and Steven Wu, Eric Horvitz, Bryan Wilder

El primer viernes de cada mes a las 11:30 a.m. hora Colombia (GMT-5) presentamos el seminario de analítica para políticas públicas. El seminario es de registro abierto y se llevará a cabo por medio de Zoom. ¡Esperamos puedan acompañarnos!

Registrate acá.

Septiembre 2, 2022

Maria Gargiulo
Estudiante de posgrado en la Universidad de Oxford y Estadística del Human Rights Data Analysis Groupd (HRDAG)

Charla: Métodos estadísticos para la cuantificación del conflicto armado en Colombia

Resumen. La recopilación de datos sobre violaciones de derechos humanos en el marco de conflicto es difícil y peligroso y los datos que resultan generalmente son incompletos. Las historias de algunas víctimas nunca se documentan y a aquellas cuyas historias se documentan les puede faltar información clave. Además, los datos que se documentan no son necesariamente representativos estadísticamente de la totalidad de la población de víctimas. Extraer inferencias a nivel de población a partir de estos datos sin corregir los datos faltantes corre el riesgo de responder incorrectamente a preguntas sobre patrones de violencia.

Esta charla introducirá la metodología detrás de las estadísticas sobre homicidio, desaparición forzada, secuestro, reclutamiento ilícito y desplazamiento en el marco del conflicto colombiano. Discutirá los métodos que se utilizaron para deduplicar más de 100 bases de datos, llenar los campos faltantes en los datos documentados y estimar el tamaño total de la población de víctimas, incluso aquellas víctimas que nunca fueron documentadas por ninguna fuente..

Octubre 7, 2022

Isabella Rodas
Fellow de Data Science for Social Good (DSSG), Instituto de Inteligencia Artificial de Alemania y Universidad de Kaiserslautern.

Charla: Detección de observaciones en pliegos electrónicos para la auditoría de contratación pública (ver poster)

Resumen. Este fue un trabajo realizado en colaboración con la Dirección Nacional de Contrataciones Públicas de Paraguay (DNCP) y el programa Data Science for Social GoodxGermany (DSSGxGermnay) en el verano del 2022. En este proyecto, se construyó un modelo para identificar las licitaciones públicas que probablemente presenten inconsistencias con la ley reguladora, y proporcionar a los auditores explicaciones para guiar de una mejor manera su revisión. La DNCP audita manualmente miles de licitaciones al año y espera un mayor volumen en el futuro a medida que la economía y la población del país crezcan. Disponer de una lista más reducida y priorizada de licitaciones con probables irregularidades permite a la DNCP aprovechar mejor sus recursos y revisar más licitaciones con mayor atención.

Noviembre 18, 2022

Estudiantes del programa de verano "Verano de la Ciencia"
Programa organizado por MD4SG y el Consejo Potosino de Ciencia y Tecnología

Proyectos presentados (autora/título):

Xóchitl Rosales: Vivienda Digna; el Caso de Fraude en Materia de Vivienda Contra Mujeres Indígenas del Municipio de Xilitla, S.L
Nancy Santiago: Vivienda Adecuada en los Pueblos Indígenas Tének
Leydi Rojas: Factores asociados a desnutrición en el Adulto Mayor en una comunidad indígena de Tancanhuitz S. L. P.
Idalia Rojas: Grado de conocimientos sobre el parto humanizado en mujeres gestantes en una comunidad rural de Tancanhuitz, S. L. P
Anaí Domingo Martinez: Ku kawin abal an lubachtalab: Alcance de una intervención en educacion para la salud
Edna Marlene Martinez: Contextualizando la Adherencia a Medicamento contra Tuberculosis en Comunidades Indígenas de la Huasteca Potosina: Un Posible Camino a Metodologías Facilitadas por I.A.
Eira Krystel Gonzalez: Contextualizando la Adherencia a Medicamento contra Tuberculosis en Comunidades Indígenas de la Huasteca Potosina: Un Posible Camino a Metodologías Facilitadas por I.A.
María Teresa Santiago: Derechos Lingüísticos de Lenguas Indígenas en México: Percepción y Conocimiento de Derechos Lingüísticos en Juventud Tének

Diciembre 2, 2022

Lily Xu
Estudiante de Ph.D. en la Escuela de Ingeniería y Ciencias Aplicadas de Harvard (SEAS)

Charla: Aprendizaje y planificación bajo incertidumbre para la conservación de la vida silvestre

Resumen. La caza furtiva de especies silvestres alimenta el multimillonario comercio ilegal de especies silvestres y lleva a innumerables especies al borde de la extinción. Para ayudar a los guardas a prevenir la caza furtiva en las áreas protegidas de todo el mundo, hemos desarrollado el Asistente de Protección para la Seguridad de la Vida Silvestre (PAWS, por sus siglas en inglés). Realizamos avances técnicos en bandidos multi-armados y la toma de decisiones secuenciales robustas mediante el aprendizaje por refuerzo, con preguntas de investigación que surgieron de los desafíos sobre el terreno. También discutimos cómo disminuir la brecha entre la investigación y la práctica, presentando los resultados del despliegue sobre el terreno en Camboya y el despliegue a gran escala mediante la integración con SMART, el principal sistema de software para la gestión de áreas protegidas utilizado por más de 1.000 parques de vida silvestre en todo el mundo.

Las opiniones y afirmaciones en esta publicación no representan ni comprometen a las personas o instituciones mencionadas. Representan únicamente las ideas de sus autores y son independientes de la visión del CAPP.

El Consejo Nacional de Planeación – CNP en Colombia es el encargado de organizar y coordinar una amplia discusión nacional sobre el Plan Nacional de Desarrollo – PND. También se encarga de conceptuar y formular recomendaciones sobre el Proyecto del Plan Nacional de Desarrollo, su ejecución y los ajustes que se le hagan, adelantar de manera permanente el seguimiento y evaluación al PND, con participación ciudadana, entre otras funciones. El Plan Nacional de Desarrollo es el documento que sirve como base para las políticas públicas que formula un gobierno, ahí radica la importancia del CNP. Este colectivo está conformado por representantes de diversos sectores y entidades territoriales que buscan tener una voz en la construcción de las políticas públicas del país.

El actual plan de desarrollo “Pacto por Colombia, pacto por la equidad” ha presentado una serie de preocupaciones desde que fue entregado en diciembre de 2018 al CNP, pues este no incluía el Plan Plurianual de Inversiones – PPI, ni los indicadores ni las metas. Hoy, después de tres años, la preocupación persiste porque definitivamente se evidenció la desconexión del discurso presidencial con lo establecido en el PND 2018-2022. En el informe de seguimiento al plan presentado en diciembre de 2020 por el CNP se observa que definitivamente era necesario revisar las bases con el PPI, los indicadores y metas. El informe advierte que “Una preocupación generalizada de la sociedad civil es el avance importante de los indicadores presentados por el DNP en la plataforma Sinergia. Sin embargo, se siguen observando problemáticas importantes en el sector, acentuadas por la situación de emergencia sanitaria” (CNP, 2020, p. 31).

En este contexto, se decidió realizar un estudio al PND a través de la analítica de datos con base en algoritmos de minería de texto. Este análisis permitió identificar 30 temas de importancia en el PND, con base en el documento del PND y en el discurso del presidente, que lo presentó. Adicionalmente, se observan los términos que aparecen con más frecuencia en el contexto de cada uno de estos temas y la relación que guardan entre sí. El tema de la educación lo consideramos como uno de los temas más importantes dentro del marco de referencia de un país en vías de desarrollo, y por eso le dedicamos una sección especial. Una población educada conoce sus debilidades y enfoca sus esfuerzos colectivos para fortalecerlas. Un electorado educado es capaz de elegir las propuestas adecuadas para el desarrollo de su sociedad, distinguiéndolas de aquellas que presentan planes vacíos, desviados de la realidad o irrealizables. En este mismo sentido, la Misión de Sabios Colombia, en el año 2019, referente al tema de desarrollo social con equidad, afirmó que la sociedad colombiana “requiere generar y transformar conocimiento en ciencias humanas, sociales y educación útil para la sociedad y el país, puesto que crea herramientas fundamentales para el desarrollo humano” (Misión de sabios, 2019, p. 25). Por esta razón, este grupo de intelectuales colombianos recomendó al estado colombiano garantizar una educación de calidad como un medio para la solución de necesidades presentes en sectores clave de la sociedad como el político, el social, el económico y el cultural. Así mismo, en su diagnóstico del PND, los sabios entienden que a través de la educación y la ciencia se pueden encontrar respuestas a problemáticas ya identificadas por el estado colombiano.

Tal vez la recomendación más importante de la Misión de Sabios Colombia tiene que ver con el sector de la educación. Ellos consideran “como eje fundamental la creación de modelos etno-educativos, modelos educativos flexibles y modelos educativos con enfoque de ruralidad que mejoren las experiencias pedagógicas y a su vez contribuyan a cerrar la brecha frente a la inequidad y la inclusión social” (MinTic, 2019, p. 51). Dado que el enfoque del PND es precisamente la equidad, resulta interesante estudiar en detalle la pertinencia que tiene la educación en este, sobretodo como herramienta contra la inequidad. Con respecto al análisis del sector educativo y cultural del CNP, se revisaron todos los pactos (19) para encontrar aquellos en los que se trataba el tema. En los pactos estructurales se encontró únicamente en el pacto por la equidad, específicamente en el punto B, C y G. En los pactos transversales, el VII hace propuestas sobre ciencia, tecnología e innovación. A continuación[1], se presenta el análisis de los dos pactos teniendo en cuenta únicamente la parte denominada “estrategias” del PND. Este análisis[2] se realiza usando los criterios de la ficha denominada recolección de insumos trabajada por el CNP; aclaración, modificación, inserción y eliminación. La tabla 1 presenta los 10 términos que se identificaron como vecinos más cercanos al tema de la educación. En este caso, el vecino cercano indica la distancia en el texto entre dos términos y la ocurrencia simultánea de dos términos. De esta manera se definió un índice de cercanía el cual varía entre 0 y 1, donde 1 identificaría a un término que aparece siempre junto al tema de educación y 0 identificaría a un término que nunca parece junto al tema. En este sentido, los términos más importantes en el contexto de la educación son los de ‘calidad’ y ‘superior’, este último refiriéndose a la educación universitaria. Por otro lado, la figura 1 presenta los siguientes 20 vecinos cercanos al tema de la educación, usando el formato de nube de palabras, donde en este caso, el índice de cercanía se relaciona con el tamaño de la palabra.

Término	Cercanía
Calidad	0.18
Superior	0.14
Ministerio	0.11
Acceso	0.10
Media	0.10
Formación	0.09
Nacional	0.09
Salud	0.07
Sistema	0.07
Instituciones	0.06

Tabla 1. Vecinos cercanos el tema de educación (Arrieta Díaz y Vargas Prieto, 2021)

El foco del tema de la educación en el PND es el acceso a una educación superior y media de calidad. De una manera menos recurrente se aprecia la aparición de la educación básica – preescolar. Esto se podría justificar porque en el plan, la educación se reorienta hacia la inserción en el mundo productivo (CID, 2019). En este aspecto, las propuestas entran en contradicción con la ley de educación (Ley 115 de 1994), pues los principios proclamados por dicha ley son el pluralismo ideológico, la universalidad de saberes y la capacidad crítica, y en este sentido el plan los reduce al "Sistema Nacional de Cualificaciones" (DNP, 2018). En el análisis de minería de texto encontramos que la formación de talento humano por medio de programas para generar oportunidades también juega un papel importante en este tema. El tema de la inclusión social, tan recurrente en el tema “social”, hace énfasis en el acceso a educación y salud de calidad, y es por eso que se da la alta correlación entre estos dos temas.

Se evidencia también la aparición de los términos de cobertura e inclusión, los cuales son clave en el desarrollo de los ODS. De hecho, la iniciativa de la economía naranja se encuentra en las metas planteadas en los ODS, donde se resaltan la educación de calidad, el trabajo decente y crecimiento económico, y los conceptos de industria, innovación e infraestructura. Brilla por su ausencia en los vecinos cercanos al tema de educación el término “inversión”, el cual no aparece en los primeros 30 vecinos cercanos. Aunque la educación superior es un concepto que está muy cercano al tema de educación en el PND, se nota la ausencia de la palabra “universidad” en todo el conjunto definido de vecinos cercanos. Tal vez la sorpresa más grande en el tema de educación es la ausencia de correlaciones importantes entre educación y ciencia, investigación e innovación, como se deduce de nuestro análisis. Esta falta de correlaciones sugiere que en el PND no hay una conexión entre estos tres temas que deberían estar altamente relacionados en un país en vía de desarrollo. Esto se podría explicar por el enfoque de la propuesta de la economía naranja de instrumentalizar la intervención del capital humano en el Sistema Nacional de Cualificaciones. Esto “deja de lado, el papel fundamental de las instituciones de educación superior, no solo en la provisión de la formación sino en la posibilidad de establecer estrategias de emprendimiento incubados desde los centros de formación.” (CID, 2019, p.89).

Figura 1. Vecinos cercanos al tema de educación
(Arrieta Díaz y Vargas Prieto, 2021).

La ejecución del PND ha tenido poco impacto en el sistema de educación nacional, el cual necesita de fuertes reformas, tal como quedó plasmado en el reporte de la Misión de Sabios, Colombia, 2019. El lenguaje utilizado alrededor del tema de la educación en el PND nos permitió establecer en el análisis que hicimos lo que efectivamente ocurrió durante la ejecución del plan: la educación no fue prioridad. Hay cosas en el sistema educativo colombiano que se pueden mejorar sin necesidad de grandes inversiones de dinero. Así mismo, hay cosas en el sistema educativo colombiano que no solo con dinero cambiarán. Es por esto que la sociedad colombiana debe darle al reporte de la misión de sabios un lugar mucho más visible en la conversación nacional sobre educación, y perseguir las recomendaciones que allí se hicieron. Ese reporte de la Misión de Sabios, Colombia, 2019, debe ser el punto de partida del próximo PND 2022 – 2026 en su capítulo de educación. Mejorar la educación en un país como Colombia puede tardar dos generaciones. La primera generación que se eduque bajo un nuevo paradigma educativo, desde pre-escolar hasta sus estudios de postgrado, tendría la responsabilidad de velar por la consolidación del modelo al ser los líderes de la sociedad que eduque a la segunda generación. Sin duda el proceso será lento, sin embargo, para que el cambio se dé, por algo se debe empezar.

[1] Para profundizar en este aspecto, ver Arrieta Díaz y Vargas Prieto, 2021: https://revistas.udea.edu.co/index.php/estudiospoliticos/article/view/343477

[2] Para omitir el análisis técnico, saltar al último párrafo.

Referencias

Arrieta Díaz, E., Vargas Prieto, A. (2021). Analítica de datos aplicada al Plan Nacional de Desarrollo de 2018-2022, «Pacto por Colombia, pacto por la equidad». Estudios Políticos (Universidad de Antioquia), 62, pp. 215-239. [Disponible acá]

Centro de Investigaciones para el Desarrollo (CID). (2019). Invitados, vips y excluidos en el gran pacto para Colombia. Análisis crítico del plan nacional de desarrollo 2018-2022 «Pacto por Colombia, pacto por la equidad». Investigaciones y Productos CID, 28. [Disponible acá]

Consejo Nacional de Planeación – CNP (2020). Documento de seguimiento Plan Nacional de Desarrollo 2018-2022. [Disponible acá]

Departamento Nacional de Planeación (DNP). (2018). Bases del Plan Nacional de Desarrollo 2018-2022. «Pacto por Colombia, pacto por la equidad». Bogotá, D. C.: DNP. [Disponible acá]

Ministerio de Ciencia, Tecnología e Innovación - MinTic. (2020). Colombia hacia una sociedad del conocimiento. Reflexiones y propuestas. Volumen 1. Bogotá, D. C.: Ministerio de Ciencia, Tecnología e Innovación. [Disponible acá]

Enrique Arrieta Díaz (Ph.D.)
Profesor, Facultad de Ingeniería, Universidad del Magdalena y colaborador de los experimentos NOvA y DUNE

Amanda Vargas Prieto (Ph.D.)
Profesora, Facultad de Ciencias Económicas y Empresariales, Universidad del Magdalena, Consejera Nacional de Planeación - Sector Educativo y Cultural

La evolución de la Inteligencia Artificial (IA) y el aprendizaje de máquinas ha llevado a avances que, en la mayoría de los casos, solo creíamos serían posibles ver en películas de ciencia ficción. Avances como los vehículos autónomos, los asistentes inteligentes y los robots de manufactura son algunas de las creaciones tecnológicas que han sido posibles gracias al desarrollo de la inteligencia artificial. Sin embargo, no todas las innovaciones dadas en este campo están relacionadas con la creación de elementos tecnológicos tangibles. Aplicaciones como la detección temprana de tumores en mamografías usando técnicas de visión por computadora o la identificación de zonas de concentración de delitos son creaciones basadas en IA. Si bien estos ejemplos no son directamente utilizados por la mayoría de las personas, como si lo pudiese ser un vehículo autónomo o un asistente virtual, son aplicaciones de alto impacto que apoyan y facilitan la toma de decisiones de médicos, investigadores y policías.

Las aplicaciones basadas en IA anteriormente mencionadas, aquellas diseñadas para ser utilizadas de forma directa o indirecta por personas en su día a día, no solo se diferencian en quiénes son sus usuarios directos sino también en las restricciones y retos particulares que se deben tener en cuenta para su implementación. Por ejemplo, un vehículo autónomo está diseñado (o entrenado, como diría un científico de datos) para conducir en cualquier vía adecuada, ya sea en San Francisco o en Bogotá, mientras que otros desarrollos como la detección de puntos calientes de hurtos para Bogotá, realizados por Quantil y la Secretaría de Seguridad, Convivencia y Justicia de Bogotá (más información acá), consideran características específicas del lugar de aplicación como la distribución socio económica sobre la ciudad.

La herramienta tecnológica recientemente propuesta en el trabajo de tesis Identificación de redes de trata de personas en anuncios en línea de escorts escritos en español, hace parte del grupo de aplicaciones que apoya la toma de decisiones y que considera restricciones específicas del lugar de aplicación. Esta herramienta identifica posibles redes de trata de personas agrupando anuncios de escorts en línea escritos en español que tienen similitudes semánticas y contextuales pero que además son listados bajo diferentes números telefónicos. La solución propuesta en este trabajo cubre cuatro obstáculos principales en el uso de métodos de inteligencia artificial para combatir la trata de personas en países que no hablan inglés y particularmente en Colombia. Los dos primeros obstáculos están relacionados con la creación de soluciones que contemplen el contexto en donde se realiza la aplicación y los dos últimos corresponden al mejoramiento de capacidades de análisis de los investigadores de casos de trata de personas.

No todas las soluciones de IA están hechas para ser importadas:

Ante la brecha del avance científico y tecnológico entre países de alto ingreso y de mediano-bajo ingreso ha surgido la duda sobre si deberíamos desarrollar o importar ciencia y tecnología para las TIC en Colombia. Sin embargo, no todas las soluciones tecnológicas están diseñadas para funcionar bajo diferentes contextos. En el caso de los modelos para la detección de casos de trata de persona en anuncios en línea de escorts, las soluciones de última generación basadas en IA han sido desarrolladas para detectar estos casos entre anuncios escritos únicamente en inglés. La solución propuesta en el trabajo de tesis mencionado permite ampliar estas aplicaciones con el fin de apoyar la detección de redes de trata en lugares donde los anuncios de escorts estén escritos en cualquier idioma. Si bien este desarrollo facilita el uso de estas tecnologías en otros países, es necesario ajustarlas para servir las necesidades específicas que se tengan al combatir la trata de personas en cada lugar.
Cada país tiene necesidades específicas al combatir la trata de personas:

Si bien la trata de personas es un delito internacional, la forma en que se investigan, procesan y judicializan estos crímenes varía entre países y, por lo tanto, existen necesidades diferentes en cada uno de ellos. En el caso de Colombia, se encuentra un mayor interés en la detección de redes de trata de personas que en la identificación de casos aislados para ser investigados y judicializados. Si bien existen soluciones tecnológicas para apoyar tanto la (i) identificación de casos individuales de trata de personas como la (ii) identificación de posibles grupos organizados, el modelo desarrollado en la tesis mencionada consolida información relevante para apoyar la segunda tarea siendo ésta la de mayor relevancia en Colombia.
No se busca reemplazar la tarea humana sino apoyar y facilitar las tareas de los investigadores:

En Colombia ya existen sistemas basados en IA tales como PretorIA y PRISMA que guían la toma de decisiones de jueces en el proceso de selección de tutelas en la Corte Constitucional y en la evaluación del riesgo de reincidencia criminal en el sistema penal oral acusatorio. Estos sistemas apoyan la labor de los tomadores de decisiones, lo cual no implica que se reemplacen sus tareas. En 2019 llegaron más de 620.000 tutelas a la Corte, casi 1.700 al día (véase Conoce nuestra investigación sobre PretorIA, la tecnología que incorpora la Inteligencia Artificial a la Corte Constitucional). Con esto, soluciones como PretorIA no buscan reemplazar esa tarea humana sino facilitarla al hacer un primer análisis de las sentencias de tutela para brindar información más procesada a los encargados de identificar cuáles ameritan ser seleccionadas.

De forma similar, el modelo propuesto para identificar posibles redes de trata de personas entre anuncios de escorts en Colombia no pretende reemplazar las tareas de investigación realizadas en materia de trata de personas ni criminalizar situaciones detectadas, sino que consolida información relevante que puede ser utilizada por policías, fiscales y/o jueces para iniciar o complementar la investigación sobre estos casos. En la página web de anuncios de escorts analizada se publicaron cerca de 260.000 anuncios en tan solo tres meses, presentando así un reto inmenso para investigadores que identifican casos de trata en entornos digitales. Utilizar estas tecnologías como insumo único en investigaciones de trata de personas es irresponsable y no deseado dado que este tipo de sistemas pueden presentar una alta presencia de falsos positivos al ser utilizados como modelos indicadores, vulnerando así la decisión propia de trabajadores/as sexuales que no están en una red en contra de su voluntad. Con esto, los modelos de detección de trata de personas basados en IA no solo sirven a los investigadores en sus labores, sino que, bajo ninguna circunstancia, deben ser utilizados como insumo único de investigación.
Usar la tecnología para detectar patrones que los humanos por sí solos no serían capaces:

Además del alto volumen de anuncios que dificultan el análisis y las comparaciones manuales, el modelo que se propone en la tesis mencionada permite identificar similitudes semánticas y contextuales entre anuncios de escorts que, al estar publicadas con diferentes números telefónicos, se identifican como información relevante para los investigadores de casos de trata de personas. Algunos modelos de procesamiento de lenguaje natural basados en expresiones regulares, al igual que las comparaciones realizadas por humanos, logran identificar similitudes cuando se comparten frases iguales o similares. Sin embargo, las redes neuronales utilizadas en el modelo propuesto logran identificar similitudes en el estilo de escritura que un humano difícilmente lograría detectar.

Si bien los anuncios que se muestran abajo son similares bajo la lectura de un humano, los algoritmos basados en frases comunes no necesariamente los identificarían como similares puesto que su frase común más larga es tan solo “y mis videos. Tienen un costo”. El modelo propuesto es capaz de reconocer en estos anuncios publicados con diferentes números celulares un caso relevante a ser investigado de forma exhaustiva por los funcionarios competentes.

Si bien este tipo de soluciones basadas en IA facilitan y apoyan el trabajo de investigadores de casos de trata de personas a la vez que tienen en consideración el contexto en el cual están siendo utilizadas, consideramos que, para tomar decisiones informadas, debemos ser capaces de comprender los beneficios y las consecuencias de implementar este tipo de algoritmos. Para el caso estudiado, el principal beneficio de utilizar estos algoritmos no recae en su uso individual sino en las acciones que se tomen o se dejen de tomar con los patrones que el modelo detecta. Los desarrollos tecnológicos en materia de investigación de crímenes no solo sirven a la policía, jueces, fiscales y demás funcionarios e instituciones de las formas anteriormente descritas, sino que requieren, necesariamente, de una investigación posterior exhaustiva que asegure que un modelo, sensible a cometer errores, no sea el responsable de apuntar a un crimen donde no lo hay. Haciendo un símil, así como los pacientes son tratados por médicos y no por algoritmos, las víctimas de trata de personas son rescatadas por el cuerpo humano que combate este delito y no por los algoritmos que facilitan sus labores.

Paula Rodríguez Díaz
Estudiante de doctorado en la Escuela de Ingeniería y Ciencias Aplicadas (SEAS) de la Universidad de Harvard

Mayo 5, 2022

Álvaro J. Riascos
Fundador y Codirector de Quantil y Profesor Asociado de la Universidad de Los Andes

Charla: Una Propuesta de Mejores Prácticas para el Ajuste de Riesgo en Colombia

Álvaro J. Riascos Villegas es Matemático de la Universidad de los Andes en Bogotá. Tiene una Maestría y un Doctorado en Matemáticas Aplicadas del Instituto de Matemáticas Puras e Aplicadas en Rio de Janeiro (IMPA). Ha sido Profesor Visitante de la Universidad de California en Los Angeles, IMPA en Rio de Janeiro, Kellogg en la Universidad de Northwestern, Investigador Visitante del Fondo Monetario Internacional en Washington D.C., Cowles Foundation for Economic Research en la Universidad de Yale, JP Morgan en Nueva York; consultor del Banco Mundial y el Banco Interamericano de Desarrollo e Investigador de la Subgerencia de Estudio Económicos del Banco de la República (1996 – 2005). Es fundador y codirector de Quantil, una compañía de matemáticas aplicadas a la industria, del Centro de Analítica para Políticas Públicas y desde el año 2005 se encuentra vinculado como Profesor e Investigador de la Facultad de Economía de la Universidad de los Andes. Es exmiembro principal de la Junta Directiva de XM, miembro del comité de inversiones de Asset Management del Grupo Bancolombia y miembro del Concejo Directivo de la Sociedad Colombiana de Matemáticas: www.alvaroriacos.com.

Resumen. El Ministerio de Saludo y Proteccion Social de Colombia esta a punto de introducir una de las principales reformas al sistema de salud publica colombiano en los ultimos treinta anhos. En esta presentacion resumimos algunas de las cosas que hemos aprendido en los ultimos diez anhos de usar tecnicas de apriendizaje de maquinas en la interseccion del disenho de politicas publicas y la salud publica.

Abril 1, 2022

Beatriz Botero Arcila
Profesora asistente en la Facultad de Derecho de Sciences Po en París y co-fundadora del Edgelands Institute.

Charla: El lugar del derecho en la era digital urbana

Beatriz Botero Arcila es profesora asistente de Derecho en Sciences Po, Faculty Associate del Berkman Klein Center de la Universidad de Harvard y co-fundadora del Edgelands Institute. Su investigación y experiencia se centran en la gobernanza de datos en entornos urbanos, la ley de privacidad, la política de gobernanza de datos, el derecho municipal, la gobernanza de plataformas y la teoría legal. Su trabajo reciente ha explorado los modos de gobernanza de datos en proyectos de ciudades inteligentes, la economía colaborativa y las aplicaciones de rastreo de contactos Covid. Su investigación actual explora cómo las tecnologías de vigilancia adoptadas para proporcionar seguridad pública tanto en Europa como en los Estados Unidos y cómo interactúan con otros intereses públicos (es decir, las libertades civiles) y los marcos e incentivos institucionales. Beatriz es graduada del doctorado en derecho y LLM de la Facultad de Derecho de Harvard y es abogada de la Universidad de los Andes, en Bogotá, Colombia.

Resumen. Un tema central de los estudios legales sobre las ciudades es cómo el derecho municipal da forma a la formulación de políticas urbanas. El derecho municipal es el cuerpo legal que establece la autoridad formal de las ciudades y, como tal, crea el marco legal limitado en el que operan los municipios. En consecuencia, configura las posibles estrategias de desarrollo económico de las ciudades. En la economía digital, el auge de las empresas de tecnología digital que prestan servicios urbanos y servicios para los gobiernos municipales promete atraer la innovación local y las oportunidades de negocio y representa importantes oportunidades de desarrollo económico. Sin embargo, la implementación y el despliegue de estas tecnologías en las ciudades también se han convertido en retos regulatorios para las ciudades y han suscitado importantes preocupaciones sobre su potencial para aumentar la desigualdad urbana y el poder corporativo, al tiempo que afianzan la vigilancia en el tejido urbano.

Las literaturas que advierten tanto sobre los riesgos de la digitalización de las ciudades, como la que presenta su potencial, raramente aborda cómo el sistema legal y, en particular, el derecho municipal, da forma a estas tecnologías y crea incentivos para que los gobiernos municipales y las propias empresas adopten, regulen y diseñen estas tecnologías de formas particulares. Esta presentación presentará un análisis de cómo el derecho municipal, sobre todo en ciudades europeas y estado unidenses, pero haciendo cierta referencia a Colombia, participa en la conformación de la forma actual de la era digital urbana."

Marzo 4, 2022

Mateo Dulce Rubio
Estudiante de doctorado en Estadística y Políticas Públicas, Universidad Carnegie Mellon
Charla: Efecto de la victimización en la adolescencia en comportamientos delictivos futuros usando técnicas de inferencia causal no paramétrica

Mateo Dulce es estudiante de doctorado en Estadística y Políticas Públicas en la Universidad Carnegie Mellon e investigador adjunto en Quantil y en el CAPP. Su investigación actual se centra en el análisis estadístico de datos para la toma de decisiones de impacto social, principalmente para la seguridad ciudadana, la equidad algorítmica, y la garantía de derechos humanos. Cuenta con títulos de pregrado en economía y matemáticas, y de magíster en economía (cum laude) de la Universidad de los Andes, Colombia.

Resumen. La teoría del ciclo de la violencia afirma que los niños maltratados tienen mayor probabilidad de participar en actividades delictivas en el futuro. Esta relación causal es ampliamente aceptada, pero ha sido poco estudiada en el caso de los adolescentes victimizados. En este trabajo utilizamos el conjunto de datos de Add Health, la mayor encuesta longitudinal representativa a nivel nacional (USA) de adolescentes, para comprobar el ciclo de la violencia en esta población. Derivamos un estimador no paramétrico basado en la función de influencia para el ATT cuando el tratamiento no es siempre observado. Encontramos que la tasa de delincuencia entre los individuos victimizados habría sido 3,23 puntos porcentuales menor si ninguno de ellos hubiera sido victimizado y todos hubieran sido observados. Esto aporta evidencia positiva a la teoría del ciclo de la violencia entre los adolescentes. Además, exploramos los efectos heterogéneos por edad, pero no pudimos rechazar la hipótesis nula de que el efecto es el mismo independientemente de la edad a la que se experimenta la victimización. Por último, elaboramos un análisis de sensibilidad basado en el ratio de riesgo que muestra que nuestros resultados son robustos ante modestos factores de endogeneidad.

Febrero 2, 2022

Paula Rodríguez Díaz
Estudiante de doctorado en la Escuela de Ingeniería y Ciencias Aplicadas (SEAS) de la Universidad de Harvard
Charla: Identificación de redes de trata de personas en anuncios en línea de escorts escritos en español

Paula Rodríguez Díaz es estudiante de doctorado de primer año en la Escuela de Ingeniería y Ciencias Aplicadas (SEAS) de la Universidad de Harvard bajo la dirección de Prof. Milind Tambe. Es matemática e ingeniera industrial de la Universidad de Los Andes y magister en Ingeniería Industrial de la misma universidad. Actualmente hace parte del comité directivo del CAPP, fue fellow de Data Science For Social Good en el Alan Turing Institute (2020), embajadora de Women in data Science (WiDS) y hace parte del comité organizador del Workshop Machine Learning for the Developing World (ML4D).

Abstract. The problem of Entity Resolution from online escort advertisements has been well studied using Information Extraction (IE) frameworks with English-based regular expressions to isolate sources of human trafficking. However, these approximations create noisy features, they cannot be directly used on escort advertisements written in other languages, and require a high computational capacity to perform pairwise comparisons. This paper proposes an entity resolution pipeline based on a Contrastive Learning (CL) and clustering framework that is able to identify possible sources of human trafficking by extracting clusters from learned text embeddings. The proposed pipeline is tested on escort advertisements written in Spanish obtaining an AUC of 0.93 for the CL framework, from which we are able to identify entities with domain-specific characteristics that can be related to human trafficking.

Diciembre 2, 2021

Ignacio Sarmiento Barbieri
Profesor Asistente de la Universidad de Los Andes, Facultad de Economía

Racial Discrimination and Housing Outcomes in the United States Rental Market

Ignacio Sarmiento-Barbieri es profesor asistente del Departamento de Economía de la Universidad de Los Andes en Colombia. Doctorado en la Universidad de Illinois en Urbana-Champaign, e hizo postdoctorado en el Centro Nacional de Supercomputadoras (NCSA). Investiga sobre temas relacionados a Economía Urbana y Publica usando herramientas de Big Data y Aprendizaje Automático.

Noviembre 4, 2021

Francisco Marmolejo Cossío
Investigador postdoctoral en la Escuela de Ingeniería y Ciencias Aplicadas de Harvard (SEAS)

Diseño de Mecanismos para el Bien Social: Como Maximizar la Utilidad de un Número Limitado de Pruebas COVID

Francisco Marmolejo-Cossío es investigador postdoctoral en la Escuela de Ingeniería y Ciencias Aplicadas de Harvard (SEAS) e investigador en Input Output Hong Kong (IOHK). Antes de esto, fue Career Development Fellow en ciencias de la computación en Balliol College de la Universidad de Oxford. Completó un D.Phil. en Ciencias de la Computación Teórica bajo la supervisión de Paul Goldberg, y un B.A. en Matemáticas en la Universidad de Harvard con especialización en Neurociencia en 2012. Sus intereses académicos se encuentran en la intersección de la teoría algorítmica de juegos, los protocolos de consenso descentralizados y la teoría del aprendizaje computacional. También es coorganizador de la iniciativa de investigación Mechanism Design For Social Good (MD4SG) junto con Rediet Abebe, Irene Lo, Ana-Andrea Stoica, Wanyi Li, Lily Xu y George Obaido.

Octubre 7, 2021

Sara Arango Franco
Investigadora Asociada / Científica de Datos en la Universidad de Nueva York.

De la Ingeniería Matemática a la acción en el sector público: Experiencias y aprendizajes

Sara Arango Franco es Investigadora Asociada y Científica de Datos en el Marron Institute for Urban Management de NYU, y es ingeniera matemática y magister en Informática Urbana de CUSP en NYU. Su principal interés es trabajar creando puentes entre la ciencia y la tecnología, y la toma de decisiones en el sector público.

Ha sido investigadora en el Intelligent Infrastructure Systems Laboratory de la Universidad de Purdue; el Centro de Modelado Matemático de la Universidad de Chile; el Research Group in Spatial Economics (RiSE) de la Universidad EAFIT y el Urban Observatory de la Universidad en Nueva York (NYU).

Septiembre 2, 2021

Santiago Correa
Candidato a doctor, Universidad de Massachusetts Amherst

Uso de Inteligencia Artificial y la ciencia de datos para impulsar y monitorear objetivos de desarrollo sostenible: Acceso a una energía asequible, segura, sostenible y moderna para todos

Santiago es ingeniero de la Universidad Pontificia Bolivariana de Medellín, Magíster y candidato a doctor en Ingeniería Computacional de la Universidad de Massachusetts Amherst. Actualmente se desempeña como investigador asistente en STIMA Lab (Systems Towards Infrastructure Measurement and Analytics) bajo la dirección de Prof. Jay Taneja. Su área de interés es la implementación de modelos de IA (Inteligencia Artificial) buscando mejorar la eficiencia, confiabilidad y monitoreo de sistemas de energía en países en desarrollo con el objetivo de reducir la pobreza energética, mitigar el cambio climático y apoyar la implementación del Objetivo de Desarrollo Sostenible 7. Su perfil y publicaciones pueden encontrarse en el siguiente enlace: https://santiagocorrea.github.io/

En la investigación A supervised clustering MCMC methodology for large categorical feature spaces mostramos cómo un modelo de aprendizaje de máquinas, basado en una metodología novedosa de agrupación de diagnósticos médicos, supera la capacidad predictiva del modelo utilizado actualmente por el Ministerio de Salud y Protección Social en Colombia en por lo menos 5.5 %, en términos del error promedio absoluto de predicción. El impacto de este resultado es significativo dado que corresponde al error de predicción promedio por afiliado de un sistema (el régimen contributivo) que cubre a cerca de la mitad de la población colombiana.

Junto con Simón Ramírez Amaya (UC Berkeley y Centro de Analitica para Políticas Públicas) y Adolfo Quiroz (Uniandes), proponemos una metodología novedosa para la segmentación de variable categóricas cuando el número de categorías posibles de la variable es muy grande (orden de miles), como es el caso de los diagnósticos médicos. La principal diferencia con métodos de segmentación tradicionales es que en este caso se asume que los datos observados están etiquetados, y se desea segmentar dicha variable de tal forma que se optimice el aprendizaje de la variable de respuesta dadas las variables independientes (que incluye la variable categórica segmentada y otras variables explicativas). Luego, el problema se plantea como un problema de aprendizaje supervisado estándar y se busca la mejor segmentación, en el espacio de todas las posibles segmentaciones, para predecir la variable objetivo (e.g., gasto en salud). Al ser el espacio de segmentaciones posibles un espacio de dimensiones enormes, se introduce una noción de distancia entre segmentaciones y se sugiere recorrerlo usando el algoritmo de Metrópolis Hastings.

En nuestra investigación demostramos las bondades de esta metodología mostrando cómo segmentar los códigos de diagnósticos clínicos (más de 15.000 según la clasificación internacional CIE-10) de una base de datos de servicios de salud en el Sistema General de Seguridad Social en Salud en Colombia: el régimen contributivo con más de 20 millones de usuarios y más de 500 millones de servicios anuales contemplados en el POS. El propósito del modelo es agrupar los diagnósticos clínicos y utilizar la información de comorbilidades de los afiliados para optimizar la predicción del gasto en salud de los usuarios del sistema. La metodología propuesta es utilizada para segmentar diagnósticos clínicos (códigos CIE-10) en categorías relevantes para la predicción del gasto futuro en servicios de salud.

La siguiente tabla muestra el resultado principal. Cada columna representa las variables que se incluyen en un modelo lineal para pronosticar el gasto en salud del siguiente año. Estas son sexo, lugar de residencia, edad, si tiene o no alguna enfermedad de larga duración (E₂), diez variables categóricas de partencia a los grupos que se obtienen del algoritmo propuesto comenzando de una partición aleatoria (MH₁₀), treinta variables categóricas basadas en el criterio medico experto (E₃₀), y treinta variables categóricas (MH₃₀) que se obtienen del algoritmo propuesto comenzando de la partición (E₃₀). La última columna muestra el error absoluto promedio de validación cruzada (MAE). Finalmente, cada fila representa un modelo lineal determinado por los atributos que entran en la regresión (Y sí la variable se incluye en la regresión, o N en caso contrario).

Como se puede observar, el modelo que usa la categorización utilizando la metodología de segmentación propuesta MH₃₀ tiene un error absoluto promedio 5.5 % menor que el modelo que actualmente usa el Ministerio de Salud y Protección Social en Colombia (Modelo (2)), y 2.8 % menor que un modelo lineal que usa una categorización de profesionales de la salud expertos. En términos económicos para el sistema estos números son dicientes pues representan el error promedio de los modelos por individuo, de un sistema que afilia a aproximadamente la mitad de la población colombiana.

El artículo fue recientemente publicado en la revista Statistical Methods in Medical Research.

Álvaro J. Riascos
Codirector de Quantil y Profesor Asociado de la Universidad de Los Andes

En el CAPP hacemos investigación aplicada que apoya el desarrollo de políticas públicas usando inteligencia artificial en Colombia y Latinoamérica. Siguiendo nuestra misión de desarrollar e incentivar la investigación en la intersección de analítica y políticas públicas junto con investigadores/as e instituciones que siguen este mismo fin, quisimos lanzar este cento con un evento donde puedan conocer nuestros proyectos propios, lo que tenemos para ofrecerles desde el CAPP y nuestros planes a futuro. Además también podrán escuchar voces diversas de expertos en el tema. !Les esperamos!

Contacto

Mapa del sitio