¿Que es el muestreo y por que funciona?

¿Qué es el muestreo?

El muestreo es el proceso de seleccionar un conjunto de individuos de una población con el fin de estudiarlos y poder caracterizar el total de la población.

La idea es bastante simple. Imagina que queremos saber algo de un universo o población, por ejemplo, qué porcentaje de los habitantes de México fuma habitualmente. Una forma de obtener este dato sería contactar con todos los habitantes de México (122 millones de personas) y preguntarles si fuman. La otra forma sería seleccionar un subconjunto de individuos (por ejemplo, 1.000 personas), preguntarles si fuman y usar esta información como una aproximación de la información que busco. Pues bien, este grupo de 1.000 personas que me permiten conocer mejor cómo se comportan el total de mexicanos es una muestra, y la forma en que los selecciono es el muestreo.

En la definición anterior hemos introducido dos términos fundamentales a lo largo de esta serie de posts:

Universo o población: Es el total de individuos que deseo estudiar o caracterizar. En el ejemplo anterior es la población de México, pero podemos pensar en todo tipo de universos, más generales y más concretos. Por ejemplo, si quiero saber cuanto fuman de media los fumadores de México, el universo en este caso serían “los fumadores de México”.

Muestra: Es el conjunto de individuos del universo que selecciono para estudiarlos, por ejemplo a través de una encuesta.

¿Por qué funciona el muestreo?

El muestreo es útil gracias a que podemos acompañarlo de un proceso inverso, que llamamos generalización. Es decir, para conocer un universo lo que hacemos es (1) extraer una muestra del mismo, (2) medir un dato u opinión y (3) proyectar en el universo el resultado observado en la muestra. Esta proyección o extrapolación recibe el nombre de generalización de resultados.

La generalización de resultados añade cierto error al mismo. Imagina que tomamos una muestra al azar de 1.000 personas de México y les preguntamos si fuman. Obtengo que el 25% de la muestra fuma. La simple lógica nos dice que si de 1.000 mexicanos elegidos al azar el 25% fuma, este dato debería ser indicativo de lo que obtendríamos si preguntásemos a los 122 millones de mexicanos. Ahora bien, el azar podría haber hecho que haya escogido para mi muestra más fumadores de lo que correspondería a la proporción exacta que hay en el universo o, por el contrario, que en mi muestra los fumadores estén algo infra-representados. El azar podría hacer que el porcentaje de fumadores en la población fuese algo diferente del 25% que hemos observado en la muestra (tal vez un 25,2%, por ejemplo). Por lo tanto, la generalización de resultados de un muestra a un universo conlleva aceptar que cometemos cierto error, tal y como ilustra el siguiente esquema.

Afortunadamente, el error que cometo al generalizar resultados puede acotarse gracias a la estadística. Para ello usamos dos parámetros: el margen de error, que es la máxima diferencia que esperamos que haya entre el dato observado en mi muestra y el dato real en el universo, y el nivel de confianza, que es el nivel de certeza que tengo de que realmente el dato real esté dentro del margen de error.

Por ejemplo, en nuestro caso de fumadores mexicanos, si selecciono una muestra de 471 individuos y les pregunto si fuman, el resultado que obtenga tendrá un margen de error máximo de +-5% con un nivel de confianza del 97%. Esta forma de expresar los resultados es la correcta cuando usamos muestreo.

El tamaño de la muestra

¿Qué tamaño de muestra necesito usar para estudiar cierto universo? Depende del tamaño del universo y del nivel de error que esté dispuesto a aceptar, tal y como explicábamos en su día en este post. Cuanta más precisión exija, mayor muestra necesito. Si quiero tener una certeza absoluta en mi resultado, hasta el último decimal, mi muestra tendrá que ser tan grande como mi universo.

Pero el tamaño de la muestra tiene una propiedad fundamental que explica porqué el muestreo se usa tanto en tantos ámbitos del conocimiento. Esta propiedad podría resumirse como sigue: a medida que estudio universos mayores, el tamaño de muestra que necesito cada vez representa un porcentaje menor de dicho universo.

Supongamos que queremos hacer una encuesta para saber un porcentaje (podría ser el de gente que fuma) con un nivel de error determinado, por ejemplo un margen de error del 5% y una confianza del 95%. Si el universo a estudiar fuese de tan sólo 100 personas, mi muestra tendría que ser de 79,5 individuos (es decir, 79,5% del universo, lo que representa un parte muy importante del total del universo). Si el universo fuese de 1.000 personas, mi muestra debería ser de 277,7 personas (27,7% del universo). Y si mi universo fuese de 100.000 personas, la muestra necesaria sería de 382,7 personas (3,83% del universo).

Por lo tanto, a medida que trabajo con universos más grandes, la muestra que necesito debe ir creciendo pero de forma no proporcional, tiende a estancarse y cada vez representa un porcentaje más pequeño del universo. De hecho, a partir de cierto tamaño de universo (en torno a 100.000 individuos), el tamaño de la muestra ya no necesita crecer más. La siguiente tabla nos muestra algunos ejemplos:

Tamaño de muestra necesaria para tener un error del 5% con un nivel de confianza del 95%


Universo	Muestra necesaria	%
10	10	100%
100	80	80%
1.000	278	27,8%
10.000	370	3,7%
100.000	383	0,38%
1.000.000	384	0,038%
10.000.000	385	0,004%
100.000.000	385	0,0004%

Los datos anteriores nos dicen que por grande que sea el universo, con 385 personas puedo estudiar cualquier dato con el mismo nivel de error (margen de 5%, confianza de 95%). Por esta razón el muestreo es tan poderoso: nos permite hacer afirmaciones altamente precisas de una gran cantidad de individuos a través de un parte muy pequeña de los mismo.

Como contrapartida, el ejemplo anterior ilustra que el muestreo no funciona bien en universos pequeños. Si tengo una clase de 10 alumnos, la opinión de cada uno de ellos es fundamental para conocer la opinión global, no puedo prescindir de ninguno. Si no quiero superar el error que nos hemos propuesto, en un universo de 10 individuos necesito encuestar a todos ellos.

Ventajas e inconvenientes del muestreo

Resumimos a continuación las principales ventajas e inconvenientes de usar muestreo frente a estudiar todo un universo.

Ventajas:

Necesitamos estudiar menos individuos, necesitamos menos recursos (tiempo y dinero).
La manipulación de datos es mucho más simple. Si con una muestra de 1.000 personas tengo suficiente, ¿para qué quiero analizar un fichero de millones de registros?

Inconvenientes:

Introducimos error (controlado) en el resultado, debido a la propia naturaleza del muestreo y a la necesidad de generalizar resultados.
Tenemos el riesgo de introducir sesgos debido a una mala selección de la muestra. Por ejemplo, si la forma en que selecciono individuos para la muestra no es aleatoria, mis resultados pueden verse seriamente afectados.

La muestra aleatoria simple: definición y alternativas

La teoría del muestreo se basa en el concepto de muestra aleatoria simple. Una muestra aleatoria simple es aquella muestra en la que se seleccionan individuos del universo de forma totalmente aleatoria. Esto implica que todos los individuos deben tener idéntica probabilidad (no nula) de ser seleccionados en mi muestra.

Pero una cosa es la teoría y otra la práctica. Sólo en entornos muy controlados es posible hacer muestras aleatorias. Por otra parte, cuando tenemos universos compuestos por grupos homogéneos (entre si) de personas, podemos aprovechar esta agrupación para mejorar la calidad de mi muestra (o reducir el tamaño de la misma).

Pages

Metodología: UCV

martes, 26 de julio de 2016