Código
library(readr)
library(here)
library(knitr)
library(kableExtra)
library(summarytools)
library(dplyr)
library(skimr)
library(ggplot2)
library(tidyr)Este apartado se divide en tres secciones. Primero, se presentan los datos con los cuales se realiza el informe, detallando las bases de datos disponibles, las decisiones metodológicas adoptadas para su procesamiento y la construcción de los indicadores de análisis. En segundo lugar, se describen las variables disponibles del estudio, junto con su definición operacional y los criterios de procesamiento aplicados. Por último, se define la estrategia analítica utilizada para elaborar los resultados. Todos los códigos asociados al procesamiento y análisis de los datos se encuentran disponibles en el repositorio GitHub asociado al estudio.1
library(readr)
library(here)
library(knitr)
library(kableExtra)
library(summarytools)
library(dplyr)
library(skimr)
library(ggplot2)
library(tidyr)Al comienzo de este estudio se utilizaron cuatro bases de datos extraídas del repositorio público de ANID y procesadas siguiendo un protocolo de limpieza y estandarización documentado en processing/01-proc-data.qmd. Las bases disponibles eran BDH_HISTORICA, que incluye el registro histórico de todos los proyectos adjudicados en ANID desde 1982; POSTULACIONES_2016_2025, que contiene el registro de todas las postulaciones a Fondecyt entre 2016 y 2025; BDH_PROYECTOS_MILENIO, que registra las adjudicaciones del programa Milenio entre 2016 y 2025; y POSTULACIONES_MILENIO, que incluye el registro histórico de postulaciones Milenio desde su creación en 2006. A partir de estas bases, se construyeron cuatro bases de análisis para este estudio, las cuale
Frente a estos recursos, se incursionó en la fusión y limpieza de cada una quedando con cuatro bases finales: la base de postulaciones Fondecyt con un merge de la base de adjudicaciones (base_final), la base de adjudicaciones históricas Fondecyt (adjudicacion_limpia), las postulaciones al programa Milenio (postulacion_milenio_limpia) y las adjudicaciones Milenio (milenio_limpia).
La base base_final es el insumo principal del análisis. Fue construida a partir de un left join entre la base de postulaciones Fondecyt (2016–2025) y la base de adjudicaciones históricas, utilizando CODIGO_PROYECTO como llave de unión. Esta decisión permitió contar en un solo dataframe tanto el universo completo de postulaciones evaluadas —adjudicadas y no adjudicadas— como la información adicional disponible solo para los proyectos que obtuvieron financiamiento, como nombre del proyecto, grupo de evaluación, disciplina detallada, duración y monto adjudicado. Como consecuencia del diseño del merge, las variables provenientes de la base de adjudicaciones quedan con valores NA para todos los registros cuyo ESTADO_RESOLUCION_CONCURSO es “NO ADJUDICADO”, lo que constituye un comportamiento esperado y no un problema de calidad de datos.
Las bases Milenio siguen una lógica análoga, aunque corresponden a un instrumento de financiamiento estructuralmente distinto: convocatorias menos frecuentes, proyectos de mayor envergadura y un perfil de postulantes orientado a centros de investigación asociativa (Núcleos e Institutos Milenio). Por ello, si bien se calculan indicadores comparables entre ambos programas, las tasas de adjudicación de Fondecyt y Milenio no son directamente comparables sin considerar estas diferencias estructurales.
El universo de análisis en todas las bases fue delimitado aplicando dos filtros fundamentales: en primer lugar, se seleccionaron únicamente postulaciones clasificadas como “Ciencias Sociales” según la taxonomía de la OCDE; en segundo lugar, se conservaron exclusivamente aquellas cuyo proceso de evaluación finalizó en condición de “Adjudicado” o “No Adjudicado”, excluyendo postulaciones inadmisibles o fuera de bases. El período temporal abarca los años 2016 a 2025, garantizando la consistencia longitudinal entre todas las bases.
| Base de datos | Origen | Período | Unidad de análisis |
|---|---|---|---|
| base_final | Merge postulaciones + adjudicaciones Fondecyt | 2016–2025 | Postulación |
| adjudicacion_limpia | Adjudicaciones históricas Fondecyt (ANID GitHub) | 1982–2025 (filtrado 2016–2025) | Proyecto adjudicado |
| postulacion_milenio_limpia | Postulaciones Milenio (ANID GitHub) | 1999–2025 (filtrado 2016–2025) | Postulación |
| milenio_limpia | Adjudicaciones Milenio (ANID GitHub) | 2016–2025 | Proyecto adjudicado |
| Variable | Naturaleza | Descripción |
|---|---|---|
| ESTADO_RESOLUCION_CONCURSO | Categórica | Resultado del concurso: ADJUDICADO / NO ADJUDICADO |
| SEXO | Categórica | Sexo del/la investigador/a principal: HOMBRE / MUJER / SIN INFORMACIÓN |
| REGION_EJECUCION | Categórica | Región de ejecución del proyecto (abreviada) |
| MACROZONA_MINCIENCIA | Categórica | Macrozona Minciencia de ejecución |
| TIPO_INSTITUCION | Categórica | Tipo de institución patrocinante |
| INSTRUMENTO | Categórica | Instrumento Fondecyt: REGULAR / INICIACION |
| DISCIPLINA_DETALLE | Categórica | Subdisciplina dentro de Ciencias Sociales (clasificación OCDE) |
| GRUPO_DE_EVALUACION | Categórica | Panel evaluador del proyecto |
| AGNO_FALLO | Numérica discreta | Año de resolución del concurso |
| MONTO_ADJUDICADO | Numérica continua | Monto adjudicado (miles de pesos; millones en Milenio) |
| DURACION_MESES | Numérica discreta | Duración del proyecto en meses |
La variable dependiente central del análisis es la tasa de adjudicación, definida como la proporción de postulaciones que resultaron adjudicadas sobre el total de postulaciones evaluadas en un grupo determinado. Formalmente:
\[\text{Tasa de adjudicación} = \frac{N_{\text{adjudicado}}}{N_{\text{adjudicado}} + N_{\text{no adjudicado}}}\]
Esta definición excluye por construcción las postulaciones inadmisibles o fuera de bases, que fueron eliminadas durante el procesamiento inicial. El denominador corresponde, por tanto, al universo de postulaciones que efectivamente entraron al proceso de evaluación.
Una decisión metodológica central fue calcular la tasa a nivel de postulación y no a nivel de proyecto único. Dado que el interés es caracterizar el proceso competitivo tal como lo experimentan los/as postulantes —incluyendo las repostulaciones—, se optó por esta unidad de análisis. Esto implica que un mismo investigador/a puede contribuir con múltiples observaciones al denominador si postuló en distintos años o instrumentos.
Respecto al procesamiento de variables, se aplicaron las siguientes decisiones: los valores vacíos en TIPO_INSTITUCION fueron recodificados como “SIN INFORMACION”; los nombres de las regiones fueron abreviados para mejorar la legibilidad (e.g., “REGION METROPOLITANA DE SANTIAGO” → “RM”); y se corrigió un error tipográfico de origen en la variable DISCIPLINA_DETALLE de la base oficial (“CIENICAS” → “CIENCIAS”). Todas las variables categóricas fueron transformadas a tipo factor para optimizar el uso de memoria y facilitar los análisis estadísticos posteriores. Los registros con categorías problemáticas en variables clave —como “SIN INFORMACION” en TIPO_INSTITUCION o regiones con menos de 10 postulaciones en el período— serán reportados pero excluidos de los análisis comparativos, explicitando el criterio en cada caso.
| Programa | Instrumento | N total | N adjudicado | Tasa (%) |
|---|---|---|---|---|
| Fondecyt | INICIACION | 3982 | 1113 | 28.0 |
| Fondecyt | REGULAR | 4621 | 1429 | 30.9 |
| Milenio | NUCLEO MILENIO EN CIENCIAS SOCIALES | 75 | 6 | 8.0 |
El análisis se desarrolla en tres etapas secuenciales. En la primera etapa se presenta un panorama descriptivo general, calculando las tasas globales de adjudicación por programa e instrumento para el período 2016–2025. Esta línea base permite contextualizar los cruces desagregados que se presentan a continuación y establecer un punto de referencia para la interpretación de las brechas observadas.
En la segunda etapa se analizan las desigualdades en el acceso al financiamiento según tres dimensiones de desagregación: género (variable SEXO), territorio (variable REGION_EJECUCION) y tipo de institución (TIPO_INSTITUCION). En cada dimensión se presentan las tasas desagregadas con distinción por instrumento cuando la base lo permite, dado que los concursos Regular e Iniciación de Fondecyt tienen distinto volumen de cupos y perfiles de postulantes. Los resultados se presentan principalmente a través de gráficos de barras horizontales ordenados de mayor a menor tasa, acompañados de tablas que reportan el N total y el N adjudicado para facilitar la interpretación. Se incorpora también el análisis de la evolución temporal de estas brechas mediante gráficos de líneas con AGNO_FALLO en el eje x, con el objetivo de identificar si las diferencias se han reducido o ampliado en el período analizado.
En la tercera etapa se incorpora la dimensión disciplinar a través de la variable DISCIPLINA_DETALLE, que permite identificar qué subdisciplinas dentro de las Ciencias Sociales concentran mayor proporción de adjudicaciones y si existen patrones diferenciados por sexo o a lo largo del tiempo. Esta etapa tiene un carácter más exploratorio y sus resultados deben interpretarse con cautela en aquellas subdisciplinas con bajo número de postulaciones en el período.
Todos los gráficos del análisis siguen un tema visual homogéneo y utilizan paletas de color diferenciadas por variable de desagregación (sexo, instrumento, disciplina), incluyendo etiquetas con los valores de la tasa para facilitar la lectura directa. La comparación entre programas (Fondecyt vs. Milenio) se realiza solo de manera descriptiva y con las cautelas necesarias, dado que sus estructuras competitivas son estructuralmente distintas en términos de escala, frecuencia de convocatoria y perfiles institucionales de los postulantes.