Vistas de página en total

sábado, 28 de julio de 2018

MODELOS A EMPLEAR PARA EL ANÁLISIS DE DATOS RECOLECTADOS CON APLICACIÓN DE ENCUESTAS.


Modelos a emplear en el análisis de datos de encuestas

Compilado por: 
Dr. Manuel Coronado,
Abogado-Cpa-Investigador.
Enero 2015.

Frecuentemente, estudiantes de grado y postgrado se encuentran ante la situación de tener que analizar los datos arrojados por encuestas aplicadas a diferentes fuentes, con respecto a un determinado tópico.
En estas notas usaremos ejemplos tomados de trabajos de investigación en el área de educación, aunque los modelos pueden ser extrapolados a muy diferentes áreas.
Se presentarán diferentes enfoques a través de los cuales se puede abordar el problema objeto de investigación, y para cada enfoque se ofrecerán alternativas para el análisis y presentación de los datos.
Debe tenerse en cuenta que estas notas NO SON UN TRATADO DE ESTADÍSTICAS. No se pretende enseñar a realizar chi cuadrado o regresiones múltiples, sino simplemente indicar posibles soluciones para la situación. Se incluyen sintaxis de SPSS, que pueden ser utilizadas para producir salidas como las usadas en los ejemplos, aunque los mismos resultados pueden obtenerse con otros paquetes de análisis de datos (Epiinfo, SAS, etc.)

Enfoque del problema.

Existen varios acercamientos a través de los cuales se puede enfocar la situación. Detallamos algunos de los más frecuentemente observados.

Esquema puramente descriptivo

Es la forma En este enfoque, se busca simplemente describir una situación, como podría ser “aplicación de la ordenanza 1’96 en las escuelas del distrito …”. La encuesta consistirá prácticamente en una “lista de cotejo” para identificar en qué medida una serie de indicadores relacionados con la situación en estudio se están aplicando.
En nuestro ejemplo, algunos de estos indicadores podrían ser:
  • Promoción automática a 2º y 3º grado
  • Permanencia de docente de 1º grado con estudiantes promovido al 2º…
La presencia de estos indicadores puede establecerse por observación simple, o por consulta a fuentes (maestros, padres, directores…). Puede establecerse una escala dicotómica (Si / no) o una escala ordinal, tipo Liker (totalmente, parcialmente, para nada)
El análisis de éstos datos se haría por frecuencia simple, presentando la proporción (porcentaje) de respuestas observadas. No es necesario presentar el porcentaje acumulado.
Ejemplo:
Tabla Ejemplo #1:          Se realiza la promoción automática de alumnos/as de 1º a 2º grado
Respuestas de directores
Casos
%
Nunca
                         3
9%
Pocas veces
                         6
17%
A veces
                       12
34%
Muchas veces
                         6
17%
Siempre
                         8
23%
Total
                       35
100%
Fuente: Cuestionario de directores
La representación gráfica de estos datos puede hacerse por gráficos sectoriales (pastel) o de barras. No deben usarse polígonos de frecuencia ni barras unidas.
Gráfico #1:                Ejemplos de Gráficos de barras simples
Gráfico #2:                Ejemplo de gráfico de pastel o sectorial
La interpretación de éstos datos se produce por simple inspección de las frecuencias de respuestas obtenidas. Una “regla del pulgar” utilizada para considerar si dos porcentajes son significativamente diferentes consiste en asumir diferencias si entre uno y otro porcentaje hay 10 puntos porcentuales o más de diferencia. En nuestro ejemplo, “A veces” se diferencia de las restantes categorías, ya que supera a todas por más de 10 puntos porcentuales.

Descripción por fuentes comparadas

Una situación interesante se da cuando se desean comparar las respuestas suministradas por fuentes diferentes a una misma pregunta. Por ejemplo, en una investigación sobre “Rol de Directores de Centros de Educación Básica”[1] se presenta un cuestionario donde hay preguntas que se plantean tanto a directores de centros como a maestros y a miembros de la comunidad. Existen dos maneras de abordar esta situación:

Comparación Tablas de Doble (o múltiple) entrada

En este caso, las respuestas a cada pregunta se analizan comparando simultáneamente las respuestas obtenidas en cada categoría. Esto se hace en una misma tabla. En ese sentido, las categorías (directores, maestros, padres) se consideran como homogéneas, sin agruparlas ulteriormente, y se compara el total de respuestas ofertadas.
Esto implica que disponemos de un conjunto de registros donde están las respuestas dadas y una clara identificación de la categoría a que pertenece. Probablemente tendremos una lista o base de datos de la siguiente forma:
Tabla Ejemplo #2:          Base de datos de encuestados
Categoría
Escuela
Zona
Sexo
Preg 1
Preg 2
Preg 3
Preg 4
Preg 5
Otras preguntas
Comunidad
1
Urbana
Femenino
5
5
4
4
4
…Otras respuestas…
Director
1
Urbana
Masculino
3
4
3
1
2
…Otras respuestas…
Maestro
1
Urbana
Femenino
2
5
4
5
3
…Otras respuestas…
Maestro
1
Urbana
Femenino
5
4
5
5
4
…Otras respuestas…
Maestro
1
Urbana
Femenino
4
5
4
5
5
…Otras respuestas…
Maestro
1
Urbana
Femenino
4
5
4
4
4
…Otras respuestas…
Comunidad
2
Rural
Masculino
3
5
3
3
3
…Otras respuestas…
Director
2
Rural
Masculino
5
5
5
4
5
…Otras respuestas…
Maestro
2
Rural
Femenino
5
5
5
4
4
…Otras respuestas…
Maestro
2
Rural
Femenino
4
5
5
4
4
…Otras respuestas…
Comunidad
3
Urbana
Femenino
4
4
4
3
3
…Otras respuestas…
Director
3
Urbana
Masculino
5
5
4
4
3
…Otras respuestas…
Maestro
3
Urbana
Femenino
5
5
4
4
3
…Otras respuestas…
Maestro
3
Urbana
Femenino
5
5
5
5
5
…Otras respuestas…
Maestro
3
Urbana
Masculino
4
5
5
4
5
…Otras respuestas…
…Otros casos…
Sobre esta estructura se pueden hacer los análisis siempre y cuando se cumplan las siguientes condiciones:

1        Cada caso contiene respuestas a las mismas preguntas. En el ejemplo que usaremos se preguntó a los directores si ellos promovían actividades para vincular escuela y comunidad. La misma pregunta se hizo a maestros y miembros de la comunidad, pero referida al DIRECTOR (“El director de este centro promueve actividades…”)
2        Cada caso está identificado según la categoría de pertenencia (en nuestro ejemplo; debe quedar claramente identificado quién es director, maestro o padre)
3        Las preguntas formuladas a cada categoría tienen el mismo abanico de respuesta, la misma codificación y el mismo sentido de la escala. En nuestro ejemplo, si la pregunta P1 se refiere a si “Promueve actividades para vincular la escuela con la comunidad”, las opciones que se dieron de respuestas a directores, maestros y padres son las mismas y en el mismo orden (ejemplo: 1 = Nunca, 2 = A veces, y así sucesivamente)

El siguiente ejemplo muestra un análisis basado en las respuestas de directores, maestros y comunidad a una determinada pregunta:
Tabla Ejemplo #3:          Respuestas a “Promueve actividades para vincular la escuela con la comunidad” según categoría de entrevistado

Categoría
Total
Director
Maestro
Comunidad
Casos
%
Casos
%
Casos
%
Casos
%
NUNCA


4
8.0%
3
25.0%
7
9.0%
A VECES
1
6.3%
3
6.0%
3
25.0%
7
9.0%
FRECUENTEMENTE
2
12.5%
13
26.0%
2
16.7%
17
21.8%
CASI SIEMPRE
6
37.5%
21
42.0%
3
25.0%
30
38.5%
SIEMPRE
7
43.8%
9
18.0%
1
8.3%
17
21.8%
Total
16
100.0%
50
100.0%
12
100.0%
78
100.0%

Este tipo de presentación permite analizar el comportamiento de una variable con respecto a diferentes grupos o categorías. Debe notarse, sin embargo, que en este caso la información se refiere a TODO los casos en la categoría (todos los maestros, por ejemplo), aunque sí es posible obtener estratos: Por ejemplo, la siguiente tabla muestra el comportamiento de la misma variable, estratificados según zona (urbana – rural):

Tabla Ejemplo #4:          Respuesta a “Promueve actividades para vincular la escuela con la comunidad”, según categoría y zona del centro
Zona del Centro Urbana


Categoría
Total

Director
Maestro
Comunidad
Casos
%

Casos
%
Casos
%
Casos
%



NUNCA


1
4.0%
2
50.0%
3
8.8%

A VECES
1
20.0%
1
4.0%


2
5.9%

FRECUENTEMENTE


9
36.0%
1
25.0%
10
29.4%

CASI SIEMPRE
2
40.0%
10
40.0%


12
35.3%

SIEMPRE
2
40.0%
4
16.0%
1
25.0%
7
20.6%

Total
5
100.0%
25
100.0%
4
100.0%
34
100.0%



Zona del Centro Rural


Categoría
Total

Director
Maestro
Comunidad
Casos
%

Casos
%
Casos
%
Casos
%



NUNCA


3
12.0%
1
12.5%
4
9.1%

A VECES


2
8.0%
3
37.5%
5
11.4%

FRECUENTEMENTE
2
18.2%
4
16.0%
1
12.5%
7
15.9%

CASI SIEMPRE
4
36.4%
11
44.0%
3
37.5%
18
40.9%

SIEMPRE
5
45.5%
5
20.0%


10
22.7%

Total
11
100.0%
25
100.0%
8
100.0%
44
100.0%



Total


Categoría
Total

Director
Maestro
Comunidad
Casos
%

Casos
%
Casos
%
Casos
%



NUNCA


4
8.0%
3
25.0%
7
9.0%

A VECES
1
6.3%
3
6.0%
3
25.0%
7
9.0%

FRECUENTEMENTE
2
12.5%
13
26.0%
2
16.7%
17
21.8%

CASI SIEMPRE
6
37.5%
21
42.0%
3
25.0%
30
38.5%

SIEMPRE
7
43.8%
9
18.0%
1
8.3%
17
21.8%

Total
16
100.0%
50
100.0%
12
100.0%
78
100.0%

En este caso, en realidad lo que se presentan son TRES TABLAS diferentes: una para zona Urbana, otra para Zona Rural y una tercera TOTAL (que es la misma tabla ejemplo anterior).
La representación de gráfica de éstos datos es, preferentemente, el de barras, como en el ejemplo siguiente:

Gráfico #3:                Barras estratificadas

Nótese que en este tipo de gráfico, algunos datos pueden no visualizarse correctamente, porque otros los ocultan. En efecto, ¿qué proporción de la comunidad contesta “Casi siempre”? Esto no puede apreciarse, porque las barras de respuestas de maestros las ocultan. Para paliar esta situación puede recurrirse a otro tipo de gráficos de barras, donde las mismas se presentan agrupadas en el eje “X”, sin usar el eje “Y”. Aunque se pierde vistosidad en este modelo, se logra visualizar todas las series de datos.
Gráfico #4:                Ejemplo de barras agrupadas en un solo eje.
Una observación muy importante es que si los grupos son de cantidades de casos diferentes, como sucede en nuestro ejemplo (16 directores, 50 maestros, 12 miembros de la comunidad), la representación gráfica debe hacerse usando los PORCENTAJES DE RESPUESTAS POR CADA CATEGORÍA. No tiene sentido y es desviante, usar la frecuencia de casos para esa representación. Obsérvese el siguiente gráfico, que trata de representar la misma variable que el anterior, pero donde se usó frecuencia de casos en vez de porcentaje:

Gráfico #5:                Gráfico erróneo, en cuanto se representan por frecuencia de casos grupos no homogéneos en cantidad.
Obviamente, al ser más maestros, parece que las respuestas de éstos son más frecuentes, en la categoría “Siempre” que las de directores, cuando en realidad los directores producen porcentualmente más respuestas “SIEMPRE” que los maestros.
Podría ser interesante visualizar la composición de las respuestas por categoría. Para eso se puede emplear el gráfico de barras denominado de “barras apiladas”, como se muestra a continuación:
Gráfico #6:                Barras apiladas por categorías
Las barras apiladas permiten apreciar también cómo se distribuyeron las respuestas en el grupo total, sin categorizarlas. Una simple inspección permite identificar que el tipo de respuestas más frecuente fue “Casi Siempre”, y que DENTRO DE ESTE TIPO DE RESPUESTA fueron los maestros quienes más la emplearon. También en este caso se usan porcentajes y no frecuencia de casos.
Este tipo de datos permite el realizar pruebas de significación estadística que van más allá de la mera apreciación gráfica o intuición. Para análisis basados en la cantidad de casos, la prueba más conveniente es la del c2 (Chi Cuadrado) Las siguientes tablas muestran la salida de análisis de c2 usando la sintaxis de SPSS siguiente, en la que C1 es la variable que identifica la pregunta y catego es la variable de las categorías (maestro, director…):

CROSSTABS
 /TABLES=c1  BY catego
 /FORMAT= AVALUE TABLES
 /STATISTIC=CHISQ
 /CELLS= COUNT EXPECTED .
El resulatado obtenido es el siguiente:

Tablas de contingencia

Resumen del procesamiento de los casos


Casos

Válidos
Perdidos
Total

N
Porcentaje
N
Porcentaje
N
Porcentaje

Promueve actividades para vincular la escuela con la comunidad. * Categoría
78
95.1%
4
4.9%
82
100.0%


Tabla de contingencia Promueve actividades para vincular la escuela con la comunidad. * Categoría


Categoría
Total
Director
Maestro
Comunidad
Promueve actividades para vincular la escuela con la comunidad.
NUNCA
Recuento
0
4
3
7
Frecuencia esperada
1.4
4.5
1.1
7.0
A VECES
Recuento
1
3
3
7
Frecuencia esperada
1.4
4.5
1.1
7.0
FRECUENTEMENTE
Recuento
2
13
2
17
Frecuencia esperada
3.5
10.9
2.6
17.0
CASI SIEMPRE
Recuento
6
21
3
30
Frecuencia esperada
6.2
19.2
4.6
30.0
SIEMPRE
Recuento
7
9
1
17
Frecuencia esperada
3.5
10.9
2.6
17.0
Total
Recuento
16
50
12
78
Frecuencia esperada
16.0
50.0
12.0
78.0

Pruebas de chi-cuadrado


Valor
gl
Sig. asint. (bilateral)
Chi-cuadrado de Pearson
15.766(a)
8
.046
Razón de verosimilitud
14.723
8
.065
Asociación lineal por lineal
10.961
1
.001
N de casos válidos
78


a 11 casillas (73.3%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 1.08.

El valor de c2  obtenido (0.046) es menor de 0.05, límite convencional para admitir que NO HAY DIFERENCIAS. El análisis de c2  busca identificar si la frecuencia observada difiere significativamente de la esperada. Decimos que ambas frecuencias (observada y esperada) no se diferencian, cuando el valor de c2 es mayor de 0.05, y admitimos que sí existen diferencias cuando es igual o menor de éste valor. El significado de la diferencia puede expresarse como: “las respuestas obtenidas de los padres, maestros y directores son significativamente diferentes de las que deberíamos esperarnos si no hubiesen diferencias de percepción entre padres, directores y maestros”. En otras palabras, el análisis ha demostrado que los padres SIGNIFICATIVAMENTE juzgan la frecuencia con que el director promueve actividades para vincular la escuela con la comunidad, diferente de cómo lo hacen los maestros y los propios directores. La inspección de los datos nos muestra que, en efecto, los padres son más severos juzgando este aspecto que los directores o los maestros.
Como se señaló, cierta profundidad de análisis no será posible. Por ejemplo, en nuestro caso, no podremos agregar los datos a nivel de CENTRO EDUCATIVO, en cuanto por cada centro existe un solo director y no tiene sentido una tabla comparativa con esas condiciones. Las tablas resultantes serían tan poco significativas como las siguientes:

Tabla Ejemplo #5:          Tablas de frecuencia con categorías de sólo un caso
Nombre del Centro REMIGIO MORETA


Categoría
Total

Director
Maestro
Comunidad
Casos
%

Casos
%
Casos
%
Casos
%



Promueve actividades para vincular la escuela con la comunidad.
NUNCA


1
25.0%


1
16.7%

A VECES


1
25.0%
1
100.0%
2
33.3%

FRECUENTEMENTE
1
100.0%




1
16.7%

CASI SIEMPRE


2
50.0%


2
33.3%

SIEMPRE









Total
1
100.0%
4
100.0%
1
100.0%
6
100.0%



Nombre del Centro JOSE BIENVENIDO ENCARNACION  (ADULTOS)


Categoría
Total

Director
Maestro
Comunidad
Casos
%

Casos
%
Casos
%
Casos
%



Promueve actividades para vincular la escuela con la comunidad.
NUNCA









A VECES









FRECUENTEMENTE


2
100.0%


2
66.7%

CASI SIEMPRE
1
100.0%




1
33.3%

SIEMPRE









Total
1
100.0%
2
100.0%


3
100.0%

Nótese como en estas tablas se hace difícil interpretar su significado, debido a la escasa cantidad de datos en cada una de ellas.

Análisis de variables confluyentes

El modelo anterior permite cierta profundidad de análisis, pero siguen adoleciendo de una dificultad: No puede determinar la correspondencia entre las diferentes categorías cuando éstas proceden de una misma fuente. En otras palabras: en nuestro ejemplo sabemos qué respuestas dieron LOS MAESTROS en general de ese Distrito Educativo o de esa zona, pero no sabemos qué grado de concordancia hay entre los maestros y el director, y entre estas dos categorías y los padres.
Análisis por asignación categórica de frecuencias
Existen otras maneras de abordar el análisis, un poco más complejas. Una de ellas es la de asignar a la categoría más frecuentes las respuestas dadas por las categorías menos frecuentes, con base en una llave de conexión. Desde el punto de vista práctico esto significa que a una determinada categoría (maestros, por ejemplo) se le asignan las respuestas dadas por otra categoría (directores) que respondan a un criterio de conexión (son de la misma escuela).
Un ejemplo sencillo puede hacernos entender este concepto. Supongamos que tenemos tres escuelas y 9 maestros (tres por escuelas). De los maestros tenemos datos como son edad, sexo, escuela donde trabajan, grado que enseñan y las respuestas al cuestionario, pero no tenemos datos de si su escuela es rural o urbana, cuántos alumnos tiene la escuela y otras variables que SI las tenemos por escuela. Nuestros archivos serán algo del tipo:
Tabla Ejemplo #6:          Registro de Datos de Maestros
Record
Escuela
Sexo
Grado
Edad
P1
P2
P3

1
1
2
8
25
2
5
5
1
5
2
1
2
8
34
3
4
5
5
4
3
1
2
8
21
3
4
5
2
2
4
2
2
1
22
2
3
3
2
1
5
2
1
6
39
3
5
5
5
4
6
2
1
6
45
4
4
3
4
1
7
3
2
8
28
3
4
3
4
1
8
3
2
8
31
5
5
5
5
5
9
3
1
8
36
4
4
5
4
1
Tabla Ejemplo #7:          Registro de las Escuelas
Record
Escuela
Zona
Número Alumnos
Tipo Piso
Tipo de Techo
(otras variables)
1
2
1
346
1
1

2
1
2
29
2
1

3
3
1
181
1
2

Usando el código de la escuela, podemos agregar al registro de profesores los datos que nos hacen falta (supongamos que sea zona y número de alumnos). El registro (o base de datos) de los profesores se convertiría entonces en algo del tipo:
Tabla Ejemplo #8:          Registro de Datos de Maestros ampliado
Record
Escuela
Sexo
Grado
Edad
P1
P2
P3

Escuela
Zona
Número Alumnos
1
1
2
8
25
2
5
5
1
5
1
2
29
2
1
2
8
34
3
4
5
5
4
1
2
29
3
1
2
8
21
3
4
5
2
2
1
2
29
4
2
2
1
22
2
3
3
2
1
2
1
346
5
2
1
6
39
3
5
5
5
4
2
1
346
6
2
1
6
45
4
4
3
4
1
2
1
346
7
3
2
8
28
3
4
3
4
1
3
1
181
8
3
2
8
31
5
5
5
5
5
3
1
181
9
3
1
8
36
4
4
5
4
1
3
1
181
Nótese como en todos los casos de la escuela 1 se le anexaron los datos de esa escuela, y lo mismo sucedió con los restantes casos. En otras palabras, a cada caso de maestro se le anexaron las variables de la escuela.
Para claridad terminológica llamaremos “base de datos fuente” a los registros de la categoría hacia la cuál deseamos traer nuevos datos. En nuestro ejemplo este es el registro inicial de maestros que teníamos. De la misma manera, llamaremos “base de datos de códigos” al conjunto de registros de donde sacaremos la información. En nuestro ejemplo, esta es la lista de las escuelas y sus características. Por último, llamaremos “base de datos resultante” a lo que obtendremos cuando agreguemos a la base de datos fuente los datos seleccionados de la base de datos de códigos; en nuestro ejemplo es la aparece en la tabla anterior, donde se muestran los maestros con los datos de las escuelas agregados a cada registro.
Para realizar estos procedimientos es importante que se cumplan ciertas condiciones:
1        Cada caso en la base de datos fuente contiene un nexo único e identificable con la base de datos de códigos. En el caso ejemplificado, cada maestro tiene un campo que identifica UNA Y SOLO UNA escuela en la que trabaja.
2        No es necesario que todos los casos de la base de datos de códigos tengan casos en la base de datos fuente. Podría tener información de las 6,000 escuelas del país, pero solamente usaríamos las tres que nos hacen falta.
3        No hay límites para el número de casos de la base de datos fuente que pertenecen a la categoría de conexión con la base de datos de códigos. En nuestro ejemplo, es indiferente cuántos maestros se entrevistaron por cada escuela: puede ser uno, 100 o ninguno.
4        Los valores importados desde la base de datos de códigos deben ser siempre los mismos para todos los casos que caigan en una misma categoría. En nuestro ejemplo, todos los maestros de la escuela 1 deben recibir los mismos valores de zona y número de estudiantes.
Una vez realizada esta operación, puede tabularse la información mediante el uso de las nuevas variables insertadas: en nuestro ejemplo, puedo determinar la frecuencia de respuestas a la pregunta 1 según la zona donde se ubica la escuela.
De la misma manera que hemos asignados características físicas del centro a la base de datos de los maestros, podemos adicionar otro tipo de variables, verbigracia, las respuestas dadas por el director del centro.
Volviendo a nuestro ejemplo del acápite anterior, las respuestas de los maestros pueden recibir, como variables adicionales, las respuestas de los directores a las diferentes preguntas, si se cumplen los postulados antes expuestos. Y en efecto es así: cada maestro tiene UNO Y SOLO UN director, y ese director está identificado en la base de datos del maestro en cuanto en ambas base de datos (maestros y directores) existe un campo denominado “ESCUELA”.
Una vez realizado este proceso, podemos analizar la información, cruzando SIMULTÁNEAMENTE las respuestas de una categoría con la correspondiente de la otra categoría. El siguiente ejemplo muestra el resultado de la misma pregunta analizada en el acápite anterior:
Tabla Ejemplo #9:          Análisis por asignación de categorías
Pregunta #43 de Maestros y #66 de Director
Promueve actividades para vincular la escuela con la comunidad.
Respuestas Maestros Versus Respuesta Directores


Resp Director
Total
A VECES
FRECUENTE
CASI SIEMPRE
SIEMPRE
N
%
N
%
N
%
N
%
N
%
Respuesta Maestros
NUNCA


1
20.0%
2
10.0%
1
5.0%
4
8.0%
A VECES


1
20.0%
1
5.0%
1
5.0%
3
6.0%
FRECUENTEMENTE
3
60.0%
1
20.0%
4
20.0%
5
25.0%
13
26.0%
CASI SIEMPRE
2
40.0%
2
40.0%
11
55.0%
6
30.0%
21
42.0%
SIEMPRE




2
10.0%
7
35.0%
9
18.0%
Total
5
100.0%
5
100.0%
20
100.0%
20
100.0%
50
100.0%
Fuente: Cuestionarios Directores y Maestros
La interpretación de éstos datos es un poco especial: No significa que sean 50 directores (las respuestas se refieren SIEMPRE a maestros), sino que debe leerse algo así como: “En los casos en que el Director respondió A VECES, el 60% de los maestros respondió FRECUENTEMENTE y el 40% respondió CASI SIEMPRE”




[1] Tejeda,  Luis Manuel, Rol de los Directores de Centro de Educación Básica, Sector Público, Distrito 01-02 de Enriquillo, Trabajo final para Maestría en Supervisión de la Educación. UASD. 1999-2000

No hay comentarios:

Publicar un comentario