En la investigación A supervised clustering MCMC methodology for large categorical feature spaces mostramos cómo un modelo de aprendizaje de máquinas, basado en una metodología novedosa de agrupación de diagnósticos médicos, supera la capacidad predictiva del modelo utilizado actualmente por el Ministerio de Salud y Protección Social en Colombia en por lo menos 5.5 %, en términos del error promedio absoluto de predicción. El impacto de este resultado es significativo dado que corresponde al error de predicción promedio por afiliado de un sistema (el régimen contributivo) que cubre a cerca de la mitad de la población colombiana.
Junto con Simón Ramírez Amaya (UC Berkeley y Centro de Analitica para Políticas Públicas) y Adolfo Quiroz (Uniandes), proponemos una metodología novedosa para la segmentación de variable categóricas cuando el número de categorías posibles de la variable es muy grande (orden de miles), como es el caso de los diagnósticos médicos. La principal diferencia con métodos de segmentación tradicionales es que en este caso se asume que los datos observados están etiquetados, y se desea segmentar dicha variable de tal forma que se optimice el aprendizaje de la variable de respuesta dadas las variables independientes (que incluye la variable categórica segmentada y otras variables explicativas). Luego, el problema se plantea como un problema de aprendizaje supervisado estándar y se busca la mejor segmentación, en el espacio de todas las posibles segmentaciones, para predecir la variable objetivo (e.g., gasto en salud). Al ser el espacio de segmentaciones posibles un espacio de dimensiones enormes, se introduce una noción de distancia entre segmentaciones y se sugiere recorrerlo usando el algoritmo de Metrópolis Hastings.
En nuestra investigación demostramos las bondades de esta metodología mostrando cómo segmentar los códigos de diagnósticos clínicos (más de 15.000 según la clasificación internacional CIE-10) de una base de datos de servicios de salud en el Sistema General de Seguridad Social en Salud en Colombia: el régimen contributivo con más de 20 millones de usuarios y más de 500 millones de servicios anuales contemplados en el POS. El propósito del modelo es agrupar los diagnósticos clínicos y utilizar la información de comorbilidades de los afiliados para optimizar la predicción del gasto en salud de los usuarios del sistema. La metodología propuesta es utilizada para segmentar diagnósticos clínicos (códigos CIE-10) en categorías relevantes para la predicción del gasto futuro en servicios de salud.
La siguiente tabla muestra el resultado principal. Cada columna representa las variables que se incluyen en un modelo lineal para pronosticar el gasto en salud del siguiente año. Estas son sexo, lugar de residencia, edad, si tiene o no alguna enfermedad de larga duración (E2), diez variables categóricas de partencia a los grupos que se obtienen del algoritmo propuesto comenzando de una partición aleatoria (MH10), treinta variables categóricas basadas en el criterio medico experto (E30), y treinta variables categóricas (MH30) que se obtienen del algoritmo propuesto comenzando de la partición (E30). La última columna muestra el error absoluto promedio de validación cruzada (MAE). Finalmente, cada fila representa un modelo lineal determinado por los atributos que entran en la regresión (Y sí la variable se incluye en la regresión, o N en caso contrario).
Como se puede observar, el modelo que usa la categorización utilizando la metodología de segmentación propuesta MH30 tiene un error absoluto promedio 5.5 % menor que el modelo que actualmente usa el Ministerio de Salud y Protección Social en Colombia (Modelo (2)), y 2.8 % menor que un modelo lineal que usa una categorización de profesionales de la salud expertos. En términos económicos para el sistema estos números son dicientes pues representan el error promedio de los modelos por individuo, de un sistema que afilia a aproximadamente la mitad de la población colombiana.
El artículo fue recientemente publicado en la revista Statistical Methods in Medical Research.
Álvaro J. Riascos
Codirector de Quantil y Profesor Asociado de la Universidad de Los Andes