Estadísticas

Economía

Sociales

Herramientas

Calidad Estadística

Institucional

Sala de Prensa

Regiones

Acceso Informantes

INE Educa

Transparencia Activa

Síguenos en redes sociales

Texto grande

Texto Pequeño

Blanco y Negro

Eliminar Todos

Evalúenos

¿La experiencia de navegación le resultó fácil?

Difícil

Normal

Fácil

¿Encontró la información buscada?

Nada

Parcialmente

Toda

¿La información encontrada es útil?

Poco útil

Más o menos

Muy útil

¿Desea dejarnos un comentario?

Titulo página

URL

Para finalizar, por favor introduzca el siguiente código

Tutorial API de codificación automática

Tutorial - API de codificación automática

dic. 20, 2022, 18:41 p.m.

Con el objeto de hacer más eficiente el uso de recursos y mejorar la calidad de los datos publicados por el INE, durante los últimos años la institución ha avanzado en estrategias automatizadas de codificación, principalmente basadas en técnicas de aprendizaje de máquinas (machine learning). Este trabajo se encuentra a la base de la API de codificación automática que el presente tutorial busca acercar a las personas usuarias.

Esta API para la codificación automática pone a disposición de los usuarios y usuarias modelos para clasificar rama de actividad económica (CAENES) y ocupación (CIUO-08.CL) de las personas, al nivel de desagregación de 1 y 2 dígitos, de acuerdo a como sea parametrizada. Los datos de entrenamiento provienen principalmente de la coyuntura de la Encuesta Nacional de Empleo y las VIII y IX Encuestas de Presupuestos Familiares, de modo que los modelos deberían ser utilizados sobre glosas cuya recolección tenga características similares a las implementadas en el trabajo de campo de dicha encuesta.

El etiquetado de los datos y el entrenamiento de los modelos fueron realizados en el marco del Proyecto Estratégico Servicios Compartidos para la Producción Estadística (actualmente Área de Ciencia de Datos de la Unidad de Gobierno de Datos). Para mayor información acerca del proceso de etiquetado manual y de la arquitectura de los modelos, diríjase al documento “Codificación automática de clasificadores CIUO-08.CL y CAENES a partir de técnicas de machine learning. Creación de sets de entrenamiento y optimización de algoritmos”, disponible en este mismo sitio para su consulta y descarga.

En la presente viñeta se muestra, a partir de algunos ejemplos, la forma de interactuar con la API de codificación automática mediante R y Python. Esta guía está orientada a usuarios y usuarias con un manejo intermedio de R y/o Python y con conocimientos básicos de machine learning. Para una aproximación más formal a los métodos de la API, diríjase al siguiente sitio https://rapps.ine.cl:9292/docs

Documento metodológico servicio de codificación automática:
Codificación automática de clasificadores CIUO-08.CL y CAENES a partir de técnicas de machine learning

Predecir glosas individuales

El endpoint predict permite obtener el código predicho por el modelo para una glosa. El parámetro más importante es text, donde debe indicarse la glosa para la cual se busca una predicción.

IMPORTANTE: para CIUO el modelo espera un texto que concatene oficio y tareas separados por un espacio. Para CAENES, espera un texto que concatene actividad principal, oficio y tareas separados por un espacio. Ojo: si no se cuenta con toda esa información, el modelo igualmente entregará predicciones, pero estas pueden ser menos precisas (por ejemplo, si solo entregamos oficio para CIUO o solo actividad económica en CAENES).

Además, se debe precisar el clasificador (ciuo o caenes), así como la cantidad de dígitos (1 o 2). El endpoint no tiene valores por defecto para estos parámetros, pero nos recordará en su respuesta si se ingresó algún valor incorrecto o bien faltó alguno de estos parámetros.

Implementación en R

El paquete httr permite hacer solicitudes a un servidor de manera sencilla y provee algunas herramientas para manipular la respuesta. Mediante la función POST realizamos el request (o solicitud), entregando los parámetros para text, classification y digits.


library(httr)

glosa <- "manipulador de alimentos prepara colaciones"

request <-  httr::POST("https://rapps.ine.cl:9292/predict", 
                       encode = "json",
                       body =  list(text = glosa,
                                    classification = "ciuo",
                                    digits = 2))

Para verificar el resultado utilizamos la función status_code, a través de la cual es posible verificar el estatus de la operación (idealmente 200). Finalmente, con la función content se extrae el resultado de la consulta, consistente en un archivo json que indica la categoría predicha y la probabilidad asignada por el modelo a la predicción.


# Revisar el status
httr::status_code(request)


## [1] 200


# Extraer el contenido
response <- httr::content(request, "text")
response


## [[1]]
## 
## [[1]]$cod_final
## [1] "51"
## 
## [[1]]$prob
## [1] 0.8568

Implementación en Python

Para obtener una predicción para actividad económica, pero ahora mediante Python, es posible utilizar la librería requests. En este caso los parámetros text, classification y digits se entregan a través de un diccionario a la función post. Dado que estamos entregando una glosa de actividad económica, debemos utilizar el argumento “caenes”. Indicaremos, además, que la clasificación debe ser a un dígito.


import requests
 
glosa = "producción uva exportación"

data = {
    "text" : glosa,
    "classification" : "caenes",
    "digits" : 1
}
 
response = requests.post("https://rapps.ine.cl:9292/predict", json=data)

Predicción de conjunto de glosas

Para codificar conjuntos de glosas, en lugar de textos individuales, se debe utilizar un procedimiento muy similar al anterior, pero ahora entregando una lista de strings. Para ello, se crea un dataframe que contiene glosas de actividad económica y entregamos esa información en el parámetro text. En este caso, se indica que la clasificación es caenes a un dígito.

Implementación en R

Para implementar la misma consulta anterior en R, utilizamos el siguiente código.


# Crear dataframe con ejemplos
caenes <-  data.frame(glosa_caenes = c("extracción de cobre", "producción uva exportación", "Elaboración de Pan", 
                                       "Contratación de Personal reponedores", "Cultivo de trigo"))

# Enviar la consulta al servidor
request <-  httr::POST("https://rapps.ine.cl:9292/predict", 
                       encode = "json",
                       body =  list(text = caenes$glosa_caenes,
                                    classification = "caenes",
                                    digits = 1)
)

# Extraer el contenido
response <- httr::content(request)

Dado que la respuesta de la API es un archivo json, una forma de ordenar el resultado, es mediante la función fromJSON del paquete jsonlite.


# Ordenar el contenido 
library(jsonlite)
response <- httr::content(request, "text")
fromJSON(response) %>% as.data.frame


## # A tibble: 5 × 3
##    cod_final   prob
##      <chr>     <dbl>
## 1      B         1    
## 2      A         0.999
## 3      C         1.00 
## 4      N         0.993
## 5      A         1

Implementación en Python

Para implementar la misma consulta anterior en python, utilizamos el siguiente código.


import requests
import pandas as pd

glosas = ["extracción de htcobre", "producción uva exportación",
 "Elaboración de Pan", "Contratación de Personal reponedores", "Cultivo de trigo"]
 
 
# Parámetros de la consulta
data = {
    "text" : glosas,
    "classification" : "caenes",
    "digits" : 1
}

# Enviar la consulta al servidor
response = requests.post("https://rapps.ine.cl:9292/predict", json=data) 

# Extraer el contenido de la consulta 
content = response.json()

# Ordenar los resultados en un dataframe
pd.DataFrame(content)

Sistema de Atención
Ciudadana a través de CRM

Le recomendamos utilizar este canal para contactarnos. Nuestro sistema CRM permite registrar y seguir cada caso dentro de los plazos establecidos por la normativa y gestionar de mejor manera a nuestros usuarios/as.

Ingresar

Redes sociales

SIAC / OIRS

Horario de atención:
Lunes a viernes 9:00 a 17:00 horas
Fono : 232461010 - 232461018
Correo: ine@ine.gob.cl

Oficina de partes

Atención presencial:
Lunes a viernes de 10:00 a 15:00
Piso 2

Correo: recepcion.documentos@ine.gob.cl

Contacto

Dirección nacional: Morandé N°801, piso 2, Santiago, Chile
RUT: 60.703.000-6
Código postal: 8340148

Centros de atención

Dirección Regional de Arica y Parinacota
Sotomayor N° 216, piso 5 Edificio Sacor, Arica
23246 3500
Ir al mapa
Ir al sitio

Dirección Regional de Tarapacá
Serrano 389 piso 11, Iquique
(56) 23246 2100 – (56) 23246 2122
Ir al mapa
Ir al sitio

Dirección Regional Antofagasta
Avenida José Miguel Carrera N° 1701, Piso 5, Edificio de Fomento Productivo (CORFO), Antofagasta
23246 2210
Ir al mapa
Ir al sitio

Dirección Regional Atacama
Chacabuco N° 546, oficina 14, Piso 1, Edificio Copayapu, Copiapó
23246 2300
Ir al mapa
Ir al sitio

Dirección Regional de Coquimbo
Gandarillas N° 850, La Serena
23246 2400
Ir al mapa
Ir al sitio

Dirección Regional Valparaíso
Calle 7 Norte, 610, esquina 1 Poniente, Viña del Mar
232462503
Ir al mapa
Ir al sitio

Dirección Regional de O'Higgins
Ibieta N° 090, Rancagua
232462677
Ir al mapa
Ir al sitio

Dirección Regional del Maule
1 Norte N° 988, Piso 2, Edificio Doña Cristina, Talca
232462700
Ir al mapa
Ir al sitio

Dirección Regional del Ñuble
Arturo Prat 430 piso 3, Chillán
232462871
Ir al mapa
Ir al sitio

Dirección Regional del Biobío
Prat 390, Piso 3, Edificio Neocentro, Concepción
232462800
Ir al mapa
Ir al sitio

Dirección Regional de la Araucanía
Prieto Norte 237, Temuco
232462900
Ir al mapa
Ir al sitio

Dirección Regional de Los Ríos
Maipú 130, Oficina 201, Valdivia
232463400
Ir al mapa
Ir al sitio

Dirección Regional de Los Lagos
Juan Soler Manfredini N° 11, Piso 11, Of. 1102, Edificio Torre Plaza, Puerto Montt
232463000
Ir al mapa
Ir al sitio

Dirección Regional de Aysén
Baquedano N° 496, Coyhaique
232463100
Ir al mapa
Ir al sitio

Dirección Regional de Magallanes y de la Antártica Chilena
Croacia N° 722, piso 9, Edificio Servicios Públicos, Punta Arenas
232463267
Ir al mapa
Ir al sitio

Instituto Nacional de Estadísticas

Economía

Sociales

Norte

Centro

Sur

Personas

Empresas

Tutorial API de codificación automática

Tutorial - API de codificación automática

Predecir glosas individuales

Implementación en R

Implementación en Python

Predicción de conjunto de glosas

Implementación en R

Implementación en Python

Sistema de Atención
Ciudadana a través de CRM

Redes sociales

Enlaces externos

Política de privacidad

Consultas

SIAC / OIRS

Oficina de partes

Contacto

Centros de atención Censo

Centros de atención

Economía

Sociales

Norte

Centro

Sur

Personas

Empresas

Tutorial API de codificación automática

Tutorial - API de codificación automática

Predecir glosas individuales

Implementación en R

Implementación en Python

Predicción de conjunto de glosas

Implementación en R

Implementación en Python

Sistema de AtenciónCiudadana a través de CRM

Redes sociales

Enlaces externos

Política de privacidad

Consultas

SIAC / OIRS

Oficina de partes

Contacto

Centros de atención Censo

Centros de atención

Sistema de Atención
Ciudadana a través de CRM