Capítulo 2 REGISTROS ADMINISTRATIVOS
2.1 PARQUES NACIONALES
En el “Informe de visitas a las Áreas Protegidas” se presenta, de forma mensual la evolución de las visitas a los Parques Nacionales (PN) del país, desagregadas según condición de residencia de los visitantes. También se presenta información de las Áreas Naturales Protegidas del Chubut y del Parque Provincial Ischigualasto, en San Juan. Se recibe la información a partir de datos relevados por las intendencias de las áreas protegidas nacionales del país y Dirección de Mercadeo, Dirección Nacional de Uso Público, Administración de Parques Nacionales, y de los parques provinciales, del Departamento Obsevatorio Turístico del Chubut y del Parque Provincial Ischigualasto. Se podrán visualizar los documentos en las secciones de informes y reportes .
Para la generación del informe se solicita información por correo de visitas en PN a la Dirección de Mercadeo de Parques Nacionales, al Departamento Observatorio Turistico del Chubut y al Parque Provincial Ischigualasto.
De PN y del Chubut, se recibe un archivo con formato xlsx
y se agrega a una base pivot_pn.xlsx
que se guarda en /DataDNMYE/areas_protegidas/areas_protegidas_nacionales
; en el caso las áreas naturales del Chubut se se arma una base en r
(se corre el script en el repositorio https://github.com/d4t4tur/areas_protegidas/blob/main/chubut.R) y se guarda en /DataDNMYE/areas_protegidas/areas_protegidas_provinciales
. La información del Parque Provincial Ischigualasto se recibe en el cuerpo de un correo electrónico y se agrega a una base pivot Base_parq_prov_ischigualasto.xlsx
que se guarda en /DataDNMYE/areas_protegidas/areas_protegidas_provinciales
.
La información mensual de visitas a los parques nacionales y las áreas naturales del Chubut por condición de residencia, el total de visitas al Parque Provincial Ishigualasto y las notas del informe se encuentran disponibles en aquí.
En cuanto a la estructura del documento, podrá encontrarse una primera seccion con la evolución mensual de las visitas a parques nacionales según condición de residencia, una tabla que presenta el total de visitas mensuales de los 2 últimos años, un conjunto de tablas con información mensual por región y parque nacional según condición de residencia; una segunda sección con la evolución mensual de las visitas en las Áreas Naturales Protegidas del Chubut, una tabla que presenta el total de visitas mensuales de los últimos 2 años, y una tabla mensual con información de cada área natural según condición de residencia. En el caso de San Juan, se presenta la evolución mensual del total de las visitas en el Parque Provincial Ischigualasto de los últimos 5 años. Finalmente, un anexo con información mensual y acumulada por condición de residencia del año en curso más el total de visitas del año anterior por región y parque nacional.
Por otro lado, se generan una serie de recursos con totales mensuales por condición de residencia y por región.Podrán visualizarse los recursos en la sección de Naturaleza .
Para generar el informe debe correrse el script en el repositorio https://github.com/d4t4tur/informes_pdf/blob/main/parques_nacionales/informe_pn.Rmd .
Para generar el reporte de “Naturaleza” debe correrse mensualmente el script en el repositorio https://github.com/dnme-minturdep/dnme_apps .
Para generar los recursos para datos abiertos debe correrse mensualmente el script en el repositorio https://github.com/d4t4tur/data_abierta_insumos .
2.2 AGENCIAS DE VIAJES
La información del sector de agencias de viajes se obtiene a partir del Registro de Agencias de Viajes de la Dirección Nacional de Agencias de Viajes (DNAV). En base a estos registros administrativos, se pueden analizar datos relativos a la actividad principal, ubicación geográfica y mercados operados por agencias habilitadas, entre otros.
La información se actualiza anualmente, con fecha de corte aproximada en mayo, mes en el cual se cuenta con un consolidado de las altas y bajas de las agencias. La primera publicación se realizó con datos del año 2021, fecha en la que se inició un proceso de recuperación registral, que implicó la digitalización de los trámites de la DNAV y permitió el análisis de información que no se tiene de años previos.
El flujo de limpieza y procesamiento de estos registros se realiza en el repositorio de agencias_limpieza, a partir de los datos del Registro Legajo Multipropósito (RLM
), enviados por la DNAV.
Entradas
Serie de planillas de cálculo del
RLM
.Planilla de control de la DNAV.
Proceso
En el repositorio mencionado se levantan los excels y se hace un join de todas las tablas, ejecutando los scripts de código de la carpeta
scripts
.Estos scripts realizan una limpieza de campos y guardan una base de trabajo
base_agencias
dentro de la carpeta deagencias
del servidor, a la vez que generan tablas insumos para otros productos relacionados.
Salidas
Existen distintos productos que se elaboran, o se han elaborado, con información de agencias:
Tablero: se actualiza anualmente, a partir de los insumos generados en el proceso. El código del tablero se encuentra en el repositorio público de agencias.
Documento de trabajo: se elaboró por única vez, para comunicar los principales indicadores del sector de agencias en base al RLM. El código se encuentra en el repositorio de limpieza.
Apps descriptas en el apartado de software.
2.3 ANAC
2.3.1 Base de conectividad aérea
Descripción del producto:
La base de conectividad aérea es una base de datos que contiene información sobre el flujo aerocomercial argentino. La misma permite analizar el tráfico aéreo de forma agregada y desagragregada por tipo de vuelo, origen, destino, operador aéreo, pasajeros, asientos, y fecha.
A principios de cada mes, la ANAC comparte6 a la DNMyE una base de datos (tabla_final.txt
) que contiene información sobre todos los movimientos aéreos (despegues y aterrizajes), de vuelos (regulares e irregulares) internacionales y de cabotaje, realizados por aerolíneas comerciales, privados, entes gubernametales, etc. desde el año 2017.
Procesamiento:
Durante su procesamiento, la base de conectividad aérea está sujeta a múltiples transformaciones que van moldeando su contenido. Para comenzar, se aplican una serie de filtros y recategorizaciones con el objetivo de retener solo con aquellos registros únicos de vuelos regulares y no regulares de aerolíneas comerciales con pasajeros que no hayan despegado y aterrizado en la misma ciudad. Entre las re codificaciones más importantes, se destacan dos: La primera, determina la regularidad de la compañía aérea en la prestación de determinados tipos de vuelos y, la segunda, indica los orígenes y destinos finales de determinados vuelos internacionales que realizan vuelos con escalas.
Para completar la base, a los datos se les cruza de manera escalonada, información sobre:
1º Aerolíneas.
2º Aeropuertos (de origen y destino).
Finalizado este proceso, se agrupan los registros a nivel diario y se suman los vuelos, pasajeros y asientos por rutas aérea y aerolínea. Por último, se carga la información histórica (previamente procesada bajo los mismos parámetros aquí presentes) y se le pegan los nuevos valores del mes.
Una vez finalizado el procesamiento, se que corre la sintaxis que permite cargar la base al tablero de conectividad.
2.3.2 Informe de consistencias
En contrapartida a la información compartida por la ANAC, la DNMyE se compromete a devolver a dicha agencia un informe de consistencias de los valores que toman determinadas variables de interés de la base de datos de flujo comercial en el último trimestre.
Más especficamente, el informe compara el número de registros entre el archivo vigente y el anterior para los últimos 6 meses y chequea sí:
Determinadas variables son numéricas,
Si las fechas son números enteros,
Si los vuelos poseen más pasajeros que asientos,
Si hay vuelos sin pasajeros,
Si hay vuelos sin asientos
Si hay más vuelos que movimientos
Si hay valores nulos.
Dicho análisis toma lugar en dos estadíos diferentes: primero, para todos los registros de la base de datos y, segundo, para un subconjunto de las entradas correspondientes con vuelos comerciales (regulares y no regulares).
Para realizar el informe es necesario correr el script “anac_informe_pointv.Rmd
” de la carpeta “pointblank_anac
” que se encuentra en el repositorio https://github.com/d4t4tur/conectividad_procesamiento/.
El archivo final de salida mensual es “informe_anac_{MES}.html
.”
2.4 PUNA
El Padrón Único Nacional de alojamiento (PUNA) reúne todos los establecimientos de alojamiento Colectivos de la Argentina, en el que se detallan las principales variables de cada uno. El mismo se nutre de diferentes fuentes de información. Permite la obtención de un registro hotelero armónico y completo para todas las provincias.
2.4.1 Pasos para la implementación de la actualización del PUNA
PASO 1 (Inputs):
1 - Excel del Puna del último año (“puna2021”). 2 - Respuestas de las provincias / localidades 3 - Base de datos que elabora el INDEC a partir de la EOH (Encuesta de Ocupaciòn hotelera).
Los archicos de los inputs se encuentran en: /DataDNMYE/puna/insumos_consolidacion/pedidos
PASO 2 (procesos):
1 - En Diciembre se envía a todos los Organismos Provinciales de Turismo (y algunos Municipales) una nota solicitando el envío de la información referida a la actualización de la oferta de alojamiento colectivo del año en curso. Dicha nota se acompaña de un formulario para que las provincias lo completen. El àrea al que se dirige la nota es a la Direcciòn de Servicios Turìsticos o Fiscalizaciòn. en caso de no existir esa Direcciòn, se envìa la nota a Estadìsticas o a la màxima autoridad provincial/ Municipal de turismo.
1.2 - Nota enviada a las provincias ( nota-pedido-de-informacion-2022.pdf
) en el siguiente directorio /DataDNMYE/puna/insumos_consolidacion/pedidos
1.3 - Formulario enviado a las provincias (“PLANILLAS-PARA-QUE-COMPLETEN-LAS-PROVINCIAS-2022
”) en el siguiente directorio /DataDNMYE/puna/insumos_consolidacion/pedidos
2 - Se guarda la última versión del PUNA con el año que se esta actualizando (por ej. Durante el procesamiento del PUNA 2021, se copia el PUNA 2020 y se guarda como PUNA 2021).
3 - Utilizando como insumo las respuestas enviadas por las provincias, se vuelcan esos datos en el PUNA 2021 y se modifican los datos que deban corregirse o agregarse en cada establecimiento. En la columna del PUNA llamada “año de actualización” se cambia por año 2021 (en este caso) si el dato se modificó.
4 - Se chequean los datos de las 49 localidades que tiene el Canónico Indec con los datos que tiene el PUNA de esas mismas localidades. Si la provincia en estudio envió la actualización de la información, sólo se chequea el ID y el Estado “abierto o cerrado,” pero si la provincia no envió la información, se comparan todos los datos del Canónico con los que tiene el PUNA y se hacen los cambios correspondientes en caso de haber una diferencia en sus datos.
En los casos que los datos mas suceptibles de un establecimiento sean diferentes entre las dos fuentes (PUNA y la informaciòn que enviò el Organismo Provincial/ Municipal) , se utiliza una tercer fuente (internet) para confirmar el dato.
5 - Si hay algún dato faltante, se busca en internet.
PASO 3 (outputs)
1 - Base Puna año 2021 (“PUNA 2022”).
/DataDNMYE/puna/insumos_consolidacion
- Los datos que arroja el PUNA se utilizan para actualizar otros productos de la Dirección como tambièn de otras Direcciones del Ministerio.
2.5 DNM
A partir de las bases de datos de la Dirección Nacional de Migraciones (DNM) se generan múltiples bases y productos:
A continuación se describen los procesos para generar los productos marcados en azul, en tanto que los procesos de turismo internacional relativos a la ETI ya se señalaron en el capítulo de operativos estadísticos.
Inicialmente se detallan los procesos para la generación de las bases de datos. Para esto, se debe clonar en el local el siguiente repositorio: https://github.com/d4t4tur/migraciones
Luego, se describen el resto de los productos generados a partir de las mismas.
2.5.1 Base para el termómetro, desde bases de DNM:
El objetivo es tener una medida del turismo internacional y su evolución semanal, plasmado en un reporte de uso interno.
Se realiza a partir de tener disponibles los datos de una semana completa (semana, 1, 2, 3, 4) y mes completo. Las bases se pueden descargar con una demora de 6 días, por tanto se corre el proceso los días 13, 20, 27 para las semanas 1 a 3 y luego de 6 días de finalizada la semana 4 y/o el mes completo. Ante pedidos puntuales, puede realizarse en otros días.
Entradas:
Bases de migraciones del mes descargadas de https://www.yvera.tur.ar/datos/gestion/migraciones
Bases trimestrales con el dato del último y anteúltimo cruce de los últimos dos años. Están en el server en
/DataDNMYE/turismo_internacional/bases_proceso/búsqueda
. Se usan principalmente para calcular estadías para estimar la condición de residencia.
Proceso: termometro/scripts_1
y termometro/scripts_2
.
Salidas:
Base agregada en formato rds a partir de variables seleccionadas de la base anterior (con estimación de condición de residencia y país de residencia), para el procesamiento del termómetro. Siempre debe usarse ponderada por la variable “ajuste.” Se sube al server
/DataDNMYE/turismo_internacional/termometro/{año}/{mes}
Bases y archivos que al finalizar el mes servirán de insumos par el mes siguiente.
2.5.1.1 Preparación para procesar termómetro del mes siguiente.
A partir de las bases y archivos del mes anterior, a inicios de mes se deben actualizar archivos y scripts necesarios para el procesamiento semanal
Proceso: termometro/preparación/preparacion_bases_2022_ant_nuev.R
Además se actualiza la sintaxis 3. Ajuste por pais (S-A)
de la carpeta termometro/scripts2
, con la proporción del destino del vuelo de extranjeros no residentes según país de residencia del mes anterior.
El primer mes del trimestre se deben cambiar varias sintaxis/scripts, para incorporar nuevo trimestre.
2.5.2 Base mensual Mintur, desde bases de DNM.
Desde septiembre de 2022 el proceso se realiza a modo de chequeo, tomando el dato definitivo de la base que procesa INDEC. Esto se decidió debido a que desde esa fecha el informe de la ETI publica el dato de todas las vías (viajes de turistas y turistas), pero se acordó que se tomaría el dato que procesa dicho organismo.
Entradas:
Bases de migraciones descargadas de Yvera (el mismo script las descarga).
Bases trimestrales con el dato del último y anteúltimo cruce de los últimos dos años, en formato parquet. Carpeta del proyecto
entradas/bases_busqueda
.Base de viajeros de últimos 6 meses. Surge del procesamiento del mes anterior.
Proceso:
Se corren los scripts que están en la carpeta mensual_mintur
para los procesos de limpieza de la base de datos (eliminación de duplicados, repetidos, tránsito directo, corrección de fecha de nacimiento) y de clasificación (identificación de los tipos de viajeros, pernocte, estadía, condición de residencia).
Salidas:
- Base mensual en parquet, con la estimación de condición de residencia, realizada por Mintur. Se usa para conectividad y para la estimación de cruceros. Se sube al server en
turismo_internacional/termometro/{anio_mes}
. - Tabla de resultados para chequeo de datos con Indec y bases para el proceso del mes siguiente.
2.5.3 Base total y base de visitantes, desde bases INDEC:
Procesamiento desde bases enviadas por INDEC hasta armado de base del total de viajeros y base de visitantes.
Entradas:
- Base de microdatos: Enviada por Cuentas Internacionales (INDEC).
- Base agregada, acumulada mensual, por variables seleccionadas, con dato final a publicar de viajes de turistas y excursionistas (con estimación de país de residencia de argentinos no residentes y destino del emisivo), enviada por Cuentas Internacionales (INDEC).
- Base y cuadros con datos de cantidad de visitantes a publicar, enviados por ETI (INDEC).
Proceso: mensual_indec /base_total_desde_base_indec.R.
Salidas:
Base mensual, la cual se suma a las bases acumuladas:
Base del total de viajeros,
DataDNMYE/turismo_internacional/bases_proceso/Base_total.zip
. Insumo para el termómetro y para el cuenta satélite. Siempre debe usarse ponderada por la variable “casos_ponderados.”Base de visitantes: insumo de informes, reporte, IMET, data abierta.
turismo_internacional/bases_proceso/turismo_internacional_visitantes.rds
. Siempre debe usarse ponderada por la variable “casos_ponderados.” El día de la publicación se debe copiar en:/DataDNMYE/turismo_internacional)
porque de ahí toma el dato el tablero de turismo internacional.
2.5.4 Reporte Turismo Internacional.
Forkear y clonar proyecto de: https://github.com/dnme-minturdep/dnme_apps.
Correr
internacional.rmd
y hacer pull request, para su mergeo el día de la publicación de turismo internacional, a las 16 horas.
2.5.5 Tablero turismo internacional
Para actualizar el tablero mensualmente, el día de la publicación de turismo internacional a las 16 horas, simplemente hay que pegar las bases en las ubicaciones señaladas, es decir:
turismo_internacional_visitantes.rds
en/DataDNMYE/turismo_internacional
.eti_localidad.rds
en/DataDNMYE/eti
.
Si se requiere modificar algo de la estructura del tablero, se recomienda forkear https://github.com/dnme-minturdep/turismo_internacional
, probar los cambios y luego hacer pull request.
2.5.6 Informe, cuadros, resumen y balance de turismo internacional
Forkear repositorio: https://github.com/d4t4tur/informes_pdf
Correr
turismo_internacional/correr_informe.R
, actualizando fecha.Descargar
Informe TI.pdf
.Descargar cuadros del mes anterior de https://www.yvera.tur.ar/sinta/informe/info/turismo-internacional
Descargar del proyecto el archivo
tablas_turismo_internac_descargar.xlsx
y actualizar el archivo de Yverá con los nuevos datos y variaciones (del mes y acumulado anual).Guardar como
Turismo internacional_{Mes Año} y Serie historica.xlsx
, cambiando mes y año, para subir a Yvera el día y horario de la publicación, junto conInforme TI.pdf
y el informe de prensa de la ETI, el cual se descarga de https://www.indec.gob.ar/Agregar último dato al balance histórico, el cual está en
/DataDNMYE/cuentas_internacionales/series_historicas/serie_ti_balance_mensual.xlsx
Actualizar archivo de resumen para difusión:
/DataDNMYE/turismo_internacional/informe_mensual/Entrega_turismo internacional_{mes}{anio}.txt
2.5.7 Recursos de turismo internacional
1_INPUT RECIBIDO
El mismo día en el que se publican los datos de turismo internacional/ETI, se actualiza una base en formato rds.
El archivo turismo_internacional_visitantes.rds
se guarda en el server: /srv/DataDNMYE/turismo_internacional/bases_proceso
2_PROCESAMIENTO DE DATOS Y GENERACIÓN DE RECURSOS
Para procesar los datos y generar los recursos que se suben a data abierta, se debe correr el script turismo_internacional_recursos_nuevo.R
que se encuentra en la carpeta scripts del repositorio https://github.com/d4t4tur/data_abierta_insumos.git
.
Al correr las sentencias del script se generan tres recursos en formato csv:
turistas-no-residentes-serie.csv
turistas-residentes-serie.csv
saldo-turistas-serie.csv
Los recursos generados se guardan en el server:
/DataDNMYE/turismo_internacional/data_abierta/recursos
2.5.8 Serie completa de turismo internacional
2.5.8.1 Serie de turismo internacional elaborada por INDEC:
La serie histórica de turismo internacional, la cual fue publicada en el anuario 2015, era elaborada por la Dirección Nacional de Cuentas Internacionales (INDEC).
Los archivos originales enviados por dicha dirección, desde 1990 a 2019, con datos de viajeros (turistas, excursionistas, otros viajeros), gasto, estadía, por país y vía están en /DataDNMYE/cuentas_internacionales/series_historicas/original_cv/cuadros_trimestrales_cv
.
A partir de la recopilación de estos datos, se elaboró hace varios años una serie de receptivo y otra de emisivo, con los datos de INDEC de turistas, gasto, estadía, por país y vía, por mes (desde 2013), trimestre (desde 1995) y año, los cuales están en:
- Receptivo:
/DataDNMYE/cuentas_internacionales/series_historicas/original_cv/cuadros_trimestrales_cv/Receptivo - Cuenta Viajes.xlsx
. - Emisivo:
/DataDNMYE/cuentas_internacionales/series_historicas/original_cv/cuadros_trimestrales_cv/Emisivo - Cuenta Viajes.xlsx
.
2.5.8.2 Nueva serie desde 2016 elaborada por MinTur:
A partir del año 2016, desde el Ministerio de Turismo se implementó una nueva estimación de los viajes de visitantes, más acorde a los lineamientos de las recomendaciones de la Organización Mundial del Turismo (OMT). La serie anterior de INDEC, no contabilizaba una parte de los viajes de turistas en Puerto de Buenos Aires y en el paso Tancredo Neves por estimar que los mismos no finalizaban el recorrido del viaje en el país, contabilizándolos solamente al finalizar su viaje. Se buscaba con esto contabilizar turistas, y no viajes de turistas.
Entre otras mejoras, la nueva metodología implementada, contabiliza viajes de turistas.
Es por ello que se empalmó la serie hacia años anteriores.
Para más detalles sobre el proceso de empalme consultar /DataDNMYE/cuentas_internacionales/series_historicas/serie receptivo_metodologia_empalme.pdf
.
Este pdf se construyó a partir de este rmd.
Las series empalmadas de emisivo y de receptivo están en /DataDNMYE/cuentas_internacionales/series_historicas
7.
Estas series tienen los datos relativos a viajes de turistas hasta 2015 y de gasto, estadía y pernoctes hasta 2019. Si bien, en muchos casos se han completado manualmente datos hasta 2022, puede haber datos faltantes, por ejemplo a nivel trimestral. Para ello se sugiere consultar las fuentes de datos originales:
- Viajes de visitantes (turistas y excursionistas)- Desde 2016:
/DataDNMYE/turismo_internacional/turismo_internacional_visitantes.rds
. Siempre debe usarse ponderada por la variable casos_ponderados. - Viajes de total viajeros (visitantes y otros viajeros)- Desde 2016:
/DataDNMYE/turismo_internacional/bases_proceso/Base total.zip
. Siempre debe usarse ponderada por la variable casos_ponderados. - Gasto de visitantes-INDEC (desde 2020):
/DataDNMYE/cuentas_internacionales/ base_detallada_viajes_mintur_20231T.xlsx
, la cual envía Cuentas Internacionales (INDEC) trimestralmente. - Gasto en pasajes-INDEC:
/DataDNMYE/cuentas_internacionales/pasajes_MT_20223T.xlsx
, enviada por Cuentas Internacionales (INDEC) trimestralmente.
Actualmente se está trabajando en este repositorio https://github.com/d4t4tur/series_TI en la elaboración de una serie completa en formato largo que tome como fuente los datos históricos y los actuales, hasta el último dato disponible.
En junio de 2023, previo a la publicación del anuario, se realizó una corrección de algunos períodos y pasos que no habían quedado ajustados al dato de ETI.
Para más detalle ver /DataDNMYE/turismo_internacional/metodologia/cambios_TI.xlsx
.
2.5.9 Cálculo de indicadores Turismo internacional:
A continuación se detalla cómo deben ser calculados los indicadores principales de turismo internacional. Debido a que los datos desde el año 2020 de Cuentas Internacionales (INDEC) ya no son enviados como cuadros, sino en una base de datos con otras características, cambia la forma de realizar los cálculos para las estimaciones desde esa fecha.
Indicadores | Cálculos hasta 2019 | Cálculos desde 2020 |
---|---|---|
Pernoctaciones | Estadía media (INDEC) * Turistas (INDEC) | Base indec: Variable estadia * Variable viajeros8 |
Estadía media | Pernoctaciones / Viajes de turistas (MinTur) | Pernoctaciones / Viajes de turistas (MinTur) |
Gasto turístico total | Dato INDEC9 | Dato INDEC |
Gasto por viaje | Gasto turístico total / Viajes de turistas (Mintur) | Gasto turístico total / Viajes de turistas (Mintur) |
Gasto promedio diario por viaje | Gasto por viaje (Mintur) / Estadía media | Gasto por viaje (Mintur) / Estadía media |
2.6 ANAC - MIGRACIONES
2.6.1 Base matcheo de oferta y demanda de vuelos internacionales
Descripción del producto:
La base de oferta y demanda de conectividad aérea internacional es una base que reúne información sobre pasajeros, asientos y frecuencias de vuelos comerciales internacionales realizados desde la Argentina10. La novedad de esta base con respecto a la de ANAC es que permite “matchear” la nacionalidad de las personas con el número de pasajeros por vuelo, permitiendo así saber las características que toman determinadas rutas aéreas.
Esta surge de la combinación (o “matcheo”) de a) la base de movimientos aéreos de la Agencia Nacional de Aviación Civil (ANAC)11 y b) las bases de anticipos mensuales de registros migratorios pertenecientes a la Dirección Nacional de Migraciones (DNM). La misma permite a) identificar las principales rutas aéreas de la Argentina con el mundo, b) conocer la composición por nacionalidad de los pasajeros de dichas rutas, y c) caracterizar la forma en que los pasajeros de determinada nacionalidad llegan a la Argentina (rutas por las que ingresan, empresas con las que viajan, etc), entre otros.
Para generar la base en cuestión, se corren una serie de scripts en orden secuencial los cuales se complementan hasta llegar al insumo final:
PASO 1 - Preparación de microdatos de movimientos aéreos de ANAC
El procesamiento ejecutado en este paso es similar al utilizado en los tableros de conectividad (ver ANAC). El mismo trabaja sobre la base “tabla_final.txt” compartida a principios de cada mes por la ANAC, con información sobre movimientos aéreos (aterrizajes y despegues) registrados en Argentina desde enero de 2019, en lo respectivo al tipo de vuelo, origen, destino, operador aéreo, pasajeros, asientos, y la fecha del suceso.
Sin embargo, para el “matcheo” no se utilizan todos los registros, sino que se aplican una serie de filtros y recategorizaciones con el objetivo de retener solo con aquellos casos únicos de despegues de vuelos internacionales regulares y no regulares del último cuatrimestre (incluido el mes de referencia)12 que hayan tenido pasajeros. Con tal motivo, se excluyen los movimientos correspondientes a maniobras, trabajo aéreo, vuelos de carga y vuelos oficiales.
El desarrollo más importante de este procesamiento es la construcción de un ID que identifique los movimientos por empresa, número de vuelo, fecha y aeropuerto de origen. Para ello, primero realiza un doble agrupamiento:
- Primero, se agrupan los movimientos mensuales por fecha, empresa, número de vuelo y aeropuerto de origen y de destino.
- Segundo, se agrupan los registros por fecha
, empresa
y n° de vuelo
de acuerdo a los datos del registro con el mayor n° de pasajeros (variables: Año_Local, Mes_Local, EMPRE_CR4, Num_vue
).
Por último, se crea un serial que identifica cada registro.
En resumen, a la base de microdatos, cuyo nivel de registro son cada uno de los movimientos aéreos, se la transforma en una base agregada con la sumatoria de asientos, vuelos y pasajeros por mes, para cada combinación de empresa, número de vuelo y aeropuerto de origen del vuelo.
PASO 2 - Preparación de microdatos de cruces de personas por pasos internacionales
La base de microdatos de cruces de personas por pasos internacionales es una base que contiene información sobre aquellas personas que ingresaron y salieron del país en el último mes a través de pasos internacionales. La misma es una versión procesada de la base de registros de la Dirección Nacional de Migraciones del Ministerio de Interior de la Nación, que es utilizada para el cálculo de las cuentas de Turismo Internacional.
Al igual que lo que sucede con el procesamiento de datos de ANAC, no se utilizan todos los registros que contiene la base, sino que se queda solo con aquellas PASAJEROS NO FRECUENTES que negrearon al país por vía aérea en vuelos REGULARES Y NO REGULARES.
A su vez, el procesamiento realiza una serie de recodificaciones, filtros y entrecruzamientos para obtener la composición de pasajeros de los vuelos mencionados anteriormente. Por ejemplo, se cruza y completa el dataset con información sobre aeropuertos y aerolíneas; se recodifica los casos para diferenciar entre ingresantes “Argentinos” y “Extranjeros,” y entre pasajeros y otros tirpos de tripulantes.
Una vez finalizado el paso anterior, al igual que con el procesamiento de los datos de ANAC, se realiza un doble agrupamiento:
- Primero, se genera una base con las posibles diferentes rutas de un mismo vuelo, donde se agrupa los registros por mes, empresa, número de vuelo y destino.
- Segundo, agrupa los registros por n° de vuelo de acuerdo a los datos del registro con el mayor n° de pasajeros.
Nuevamente, el desarrollo más importante es la construcción de un ID de matcheo que identifica los movimientos por empresa, número de vuelo, fecha y aeropuerto de origen, y que permite unir las bases de ANAC con la de migraciones.
En resumen, a la base de microdatos, cuyo nivel de registro son las personas/pasajeros que “salen” del país, se la transforma en una base agregada con la sumatoria de pasajeros, para cada combinación número de vuelo, empresa y aeropuerto de origen.
PASO 3 - Matcheo
El script trabaja sobre las bases procesadas en los pasos previos. El fin del mismo es combinar (o “matchear”) los vuelos registrados en ANAC con las características de sus respectivos pasajeros informados por Migraciones para los mismos a partir del ID creado en ambas tablas13. Más precisamente, las variables de la base de Migraciones se pegan sobre la base de ANAC, utilizando el ID de matcheo generado en los procesos anteriores. No solo se incluyen los casos del mes de referencia, sino también los de los tres meses anteriores, debido a que, como se mencionó anteriormente, los datos proporcionados por la ANAC son provisorios durante un cuatrimestre.
Sobre los casos adicionales de migraciones (es decir, que no un encontraron par en ANAC), se pegan variables de oferta (en este caso, el sentido del matcheo es inverso: sobre demanda se pega la oferta). En otras palabras, sobre la ruta anunciada, se pega el aeropuerto de origen y, en base a la aerolínea comunicada, se computa el aeropuerto de destino (en tanto y en cuanto esta última opere una ruta única o sea facilmente identificable). Una vez finalizado este proceso, los registros resultantes son pegados a la base de ANAC.
Luego de realizar el matcheo, el script continúa con una serie de recodificaciones con el objetivo de completar la base a partir de la información que contienen los registros de ANAC y Migraciones, y se pivotea la tabla a fin de calcular el número de asientos y pasajeros por nacionalidad.
El proceso consiste en comparar la información sobre el vuelo que contienen ambas partes del registro (la información correspondiente a ANAC y aquella vinculada a Migraciones) y completar aquellas campos que se encuentren vacíos con una u otra fuente de datos. En el caso que ambas fuentes del registro posean datos de un mismo parámetro (Ej. Aeropuerto de partida), la fuente de información que prevalece es la de ANAC.
Por último, a esta nueva base (resultante del matcheo) se le cambia el nivel de desagregación: para que la nacionalidad de los pasajeros vuelva a estar clasificada a partir de categorías de una variable, y no mediante variables dicotómicas, se realiza una reestructuración de la base, cuyo resultado es un nuevo dataset, en donde cada vuelo se repetirá tantas veces como nacionalidades “transporte.”
PASO 4 - Base final (OUTPUT)
El objetivo de este procesamiento final consiste en completar la información presente con datos adicionales de empresas (compañía y el grupo aéreo) y aeropuertos de origen y destino (localidad, provincia, país, región y continente), y llevar a cabo una serie de recodificiaciones para homogeneizar la data final.
Por último, se agrupan los vuelos de manera mensual por ruta aérea y se calcula el agregado de pasajeros y asientos. A la base resultante, se le suman los registros históricos.
Dicha base es el insumo último que utilizan los tableros de conectividad aérea del SINTA.
2.7 CRUCERISMO MARÍTIMO
2.7.1 Introducción
A continuación, se detalla el resumen de pasos a implementados para la elaboración de las bases de Crucerismo Marítimo en la Argentina, para la generación del informe y actualización del tablero.
En el siguiente repositorio se realiza un resumen más detallado de los procesamientos.
2.7.2 Insumos utilizados
Las bases de cruceros se procesan luego de recibir la base final del último mes de la temporada de cruceros (abril), por lo que el procesamiento de las bases, la elaboración del informe y actualización del tablero deberían producirse entre el mes de mayo y junio de cada año.
Para eso, se utilizan los siguientes insumos: - Las bases en formato rds se encuentran en srv/DataDNMYE/turismo_internacional/termometro
.
- Libro de código con nacionalidades de los cruceristas (codigos_nacionalidad_nacion_continente.xlsx
, en srv/DataDNMYE/cruceros/entradas
).
- Libro de código con datos de los cruceros (lc_cruceros.xlsx
, en srv/DataDNMYE/cruceros/entradas
).
- Excel con datos de crucerismo a nivel global (crucerismo_global.xlsx
, en srv/DataDNMYE/cruceros/entradas
).
2.7.3 Procesamiento de bases
El procesamiento de las bases de cruceros en R se divide en tres etapas (todos los scripts se pueden encontrar en la carpeta script
del repositorio): 1) Procesamiento de las bases mensuales (utilizar el script 1_armado_bases
) 2) Procesamiento de la base unificada de toda la temporada (utilizar el script 2_procesamiento_bases
) 3) Sumar las bases de cruceristas y cruceros de la temporada trabajada a las bases con los datos acumulados (que comienzan con la temporada 2015/2016).
Para eso, utilizar el script 3_unificacion_bases
2.7.4 Outputs:
Como resultado de los procesamientos, se generan dos bases de la temporada trabajada (se ponen como ejemplos bases de la temporada 22/23):
base_cruceros_22_23.rds
cruceristas_22_23.rds
… y dos bases con los datos acumulados de todas las temporadas:
base_cruceros_total.rds
cruceristas_total.rds
2.7.5 Elaboración del informe
Para generar el informe en formato pdf de “Crucerismo Marítimo en la Argentina” por temporada, solo se debe knitear la el rmd informe_cruceros
(que se encuentra en la carpeta scripts
del repositorio).
2.8 CNRT
Descripción del producto:
La base de datos de la Comisión Nacional de Regulación del Transporte (CNRT) es una base que contiene información sobre el flujo de micros de mediana y larga distancia en el país. La misma permite analizar el transporte automotor interurbano en el país de forma agregada y desagregada por origen, destino, compañía, micro, pasajeros, asientos y fecha.
La CNRT carga (según lo estipulado en el convenio CONVE-2021-100121678-APN-MTYD) en un drive compartido14 con la DNMYE una serie de bases anuales que contienen información sobre itinerarios turísticos y no turísticos que realizan micros de mediana y larga distancia entre dos localidades al interior del país desde el año 2019. Además de las listas de viajes, también podemos encontrar datasets con viajes turísticos (DUT) y listas de pasajeros15.
Procesamiento:
El procesamiento de la base de datos combina una serie de scripts anidados.
1° Se descargan las bases del drive y se guardan las bases del server a través del script “0_descarga_data.R.”
2° Se corre el script “1_cnrt_lpvi_armado_base_de_trabajo.R” que construye la base de trabajo de forma escalonada:
Primero, invocan y unen todas las bases anuales en una sola (posteriormente a la normalización de los nombres de las variables).
Luego, se realizan una serie de filtros en los que se descartan todos los servicios cancelados y/o sin pasajeros.
Acto seguido, se procede a homogeneizar las variables categóricas, corregir valores incorrectos y estandarizar y homogeneizar valores sobre localidades y direcciones.
Por último, se unen las latitudes y longitudes de las cabeceras para poder geolocalizar las mismas.
Consideraciones:
Los datos aquí presentes reflejan la cantidad de viajes, asientos y pasajeros acumulados en servicios regulares de jurisdicción nacional entre dos cabeceras de origen y destino interurbano, incluyendo aquellos pasajeros que ascendieron o descendieron en paradas intermedias del trayecto. Por este motivo, el total de pasajeros de un servicio para una ruta dada puede exceder la cantidad de asientos disponibles en dicho servicio.
Ello está asentado por convenio entre las partes por el cual, en contrapartida a la información provista por la ANAC, la DNMYE se compromete a realizar y enviar un informe de consistencias de la base recibida y publicar los datos mensuales en los tableros que administra.↩︎
Hubo una versión anterior del empalme, la cual está en
/DataDNMYE/cuentas_internacionales/series_historicas/serie/empalme_version_anterior
.↩︎Estas variables se usan en conjunto para el cálculo de las pernoctaciones, pero no se deben usar para otros fines en forma aislada, ya que en la base de INDEC la variable viajeros refiere a turistas para quienes terminan el viaje por un paso ETI y refiere a viajes de turistas para el que lo hace por otro paso. Análogamente, la variable estadía hace referencia a la estadía completa en el país para el primer caso, y a la estadía de cada viaje para el segundo. Al multiplicar ambas variables, llegamos al cálculo de las pernoctaciones en el país de un turista en el mes, independientemente de que hayan sido realizadas en uno o más viajes.↩︎
De 2015 hacia atrás se realizó un empalme porque INDEC cambió metodología de cálculo del gasto.↩︎
Si bien se trata de empresas que operan vuelos regulares (entendiéndose por vuelos regulares a los que están sujetos a itinerario y horario prefijados), ocasionalmente éstas realizan vuelos no regulares (representando ellos un porcentaje exiguo del total de vuelos). Es por ello que se incluyen también los vuelos no regulares realizados por esas empresas.↩︎
La fuente de información de la que se nutre la base de datos de la ANAC es el Sistema Integrado de Aviación Civil (SIAC).↩︎
Ello se debe a que dicha base actualiza los datos sobre vuelos realizados hasta cuatro meses detrás.↩︎
¿El matcheo es perfecto? NO, pueden existir casos de ANAC que no matcheen con migraciones y viceversa por errores de carga o falta de datos.↩︎
Existe un tablero de consulta de datos con un límite de hasta 150 mil registros al que se accede con vpn y usuarios facilitados por CNRT. Desde el mismo, sólo se puede descargar la información a partir del 30/11/2021.↩︎
Los tres tipos de base poseen una estructura que dificulta su conciliación en un solo dataset. Por ello, en esta primer etapa del proyecto, se trabaja solo con la base de listas de viajes.↩︎