Unidad 2
Distribución de frecuencias:
Distribución de frecuencias:
Cuando el número de valores que toma la variable es grande, se hace necesario resumir la información para posibilitar la lectura y la interpretación. Una manera efectiva de reducir el tamaño de la serie y facilitar su tratamiento es mediante la confección de distribuciones de frecuencias.
Una distribución de frecuencias es una tabla donde los datos se agrupan en clases o categorías con sus respectivas frecuencias.
Con estas tablas se puede apreciar mejor la configuración de la información a la vez que se facilitan los cálculos y el análisis de los datos.
Distribución de frecuencias para variables continuas
|
Supóngase que se analizan los índices mensuales de accidentes de las empresas industriales de una ciudad determinada. Para el estudio se seleccionan 25 establecimientos y se registra para cada una el número de accidentes por mil horas-hombre del último mes. Los datos son los siguientes.
Estos valores constituyen una "serie simple" de datos. Son datos brutos porque todavía no han sido procesados por métodos estadísticos. O sea, son datos sin agrupar.
Organización de los datos
Una primera técnica sencilla de organización es la "ordenación" que consiste en una disposición de los valores en forma ascendente o descendente. Y así se obtiene una agrupación simple.
1.0
|
2.5
|
3.1
|
3.6
|
4.5
|
1.4
|
2.5
|
3.3
|
3.8
|
4.8
|
1.8
|
2.7
|
3.3
|
3.9
|
5.3
|
2.1
|
3.0
|
3.4
|
4.1
|
5.6
|
2.2
|
3.0
|
3.4
|
4.4
|
5.8
|
Una de las ventajas de este arreglo es la identificación rápida de valores máximos y mínimos. Sin embargo, la ordenación no resulta práctica para el análisis y pierde importancia cuando es grande el número de datos.
Otra técnica de organizar los datos para la evaluación del investigador con el objeto de seleccionar extremos, valores típicos y concentración de valores, es el "arreglo de tallos y hojas". Se ordenan el (o los) primero(s) dígitos de cada valor, se forman los tallos, y con los dígitos siguientes se forman las hojas.
Para los datos del ejemplo los dígitos iniciales
1 - 2 - 3 - 4 y 5 son los tallos y los dígitos sucesivos (decimales) son las hojas.
1 - 2 - 3 - 4 y 5 son los tallos y los dígitos sucesivos (decimales) son las hojas.
Índices de accidentes
Tallos
|
Hojas
|
1
|
8 0 4
|
2
|
7 1 5 2 5
|
3
|
8 1 4 3 3 6 0 0 9 4
|
4
|
8 1 5 4
|
5
|
3 6 8
|
Al igual que la ordenación, la representación de tallos y hojas tiene una utilidad limitada cuando es grande el número de datos.
Construcción de las tablas de frecuencias
La ordenación y el diagrama de tallos y hojas son técnicas que ayudan a la organización pero no puede reconocerse la configuración de los índices de accidentes con sólo volcar los registros proporcionados por cada empresa. Para resumir estos datos en una tabla, primero se deben determinar los intervalos de clase. Un intervalo para el conjunto de índices puede ser:
2 - 3 ⇒ intervalo de clase o clase
Definido el intervalo se determina su frecuencia, o sea la cantidad de observaciones incluida en esa clase. La frecuencia para este intervalo es 3, es decir que en 3 empresas ocurrieron entre 2 y 3 accidentes mensuales.
La confección de las distribuciones depende de la naturaleza y del número de datos. Los intervalos deben seleccionarse adecuadamente para que la configuración de la distribución no resulte confusa. Al construir las tablas de frecuencias se pierde un poco de información, pero las mismas ofrecen ventajas al momento del análisis y la interpretación.
Entre las pautas para la confección se deben considerar las siguientes:
a) El número de clases no debe ser ni muy grande ni muy pequeño. Cuando hay muchos intervalos, la amplitud de los mismos es pequeña, por lo tanto cada uno tendría pocos datos o ninguno. Si hay pocas clases con intervalos amplios, puede resultar que queden cifras relativamente significativas concentradas en unas cuantas clases.
b) Los intervalos deben tener la misma amplitud a efectos de poder hacer
comparaciones. En algunas situaciones pueden presentarse intervalos de distinta amplitud, pero se dificulta la interpretación de la distribución. En otros casos se debe recurrir a intervalos abiertos.
c) La confección de la distribución debe facilitar el trabajo de análisis, por lo tanto los intervalos de clase deben ser fáciles de manejar.
Se puede utilizar el siguiente procedimiento para determinar la amplitud de los intervalos.
1º) Obtener el rango o recorrido (R). El rango es la diferencia entre el valor mayor y el valor menor de la distribución.
R = Valor mayor - Valor menor.
Para la distribución de los índices de accidentes, el rango es: R = 5.8 - 1.0
R = 4.8
2º) Seleccionar el número de clases (k).
Número de valores
|
Número
apropiado de la distribución intervalos
|
10 a 100
100 a 1.000
1.000 a 10.000
|
4 a 8
8 a 11
11 a 14
|
Para la distribución de la serie se eligen 5 clases.
3º) Determinar la amplitud o ancho de la clase (A) dividiendo el rango sobre el número de intervalos.
A= R/k
𝑅 = 4.8 𝑘 = 5
𝐴 =4.8/5= 0.9≅ 1
Por conveniencia y facilidad de lectura, el ancho del intervalo se redondea a 1.
4º) Establecer los límites de cada clase a fin de evitar superposiciones de clases para que ninguna observación caiga dentro de más de una categoría; de acuerdo a esto, el primer intervalo es "1,0 pero menos de 2,0".
Las 5 clases de la distribución de los accidentes son:
1.0 < 2.0
2.0 < 3.0
3.0 < 4.0
4.0 < 5.0
5.0 < 6.0
Tabulación de los datos
Definidos los intervalos de clase, se procede a determinar las frecuencias de clases (fi).
La frecuencia de clase es la cantidad de observaciones que se incluye en cada intervalo.
Las frecuencias obtenidas se denominan "frecuencias absolutas simples".
Marca de clase (xi)
La marca de clase es el punto medio del intervalo de clase; es el valor que representa a la clase.
Se obtienen sumando el límite inferior y el límite superior de cada clase dividido entre 2.
La marca de clase para el primer intervalo es.
𝑥𝑖 = (Li -Ls)/2
La marca de clase para el primer intervalo es
Xi=(1,0-2,0)/2=1, 5
Distribución de frecuencias relativas simples (fr)
En muchas ocasiones es preferible trabajar con una distribución de frecuencias relativas.
La frecuencia relativa es la proporción o porcentaje del total de datos que se incluye en cada clase. La frecuencia relativa se calcula dividiendo la frecuencia absoluta de cada clase entre el número total de observaciones
𝑓r =𝑓𝑖/𝑛
Si se expresa en porcentaje será: 𝑓r =(𝑓𝑖/𝑛). 100
La distribución de frecuencias relativas para los índices de accidentes de las 25 empresas es la siguiente:
De hecho, la suma de las frecuencias relativas debe ser igual a 1 o al 100%.
Algunas situaciones particulares con las tablas de frecuencias
a)Distribuciones con intervalos de amplitudes desiguales
En algunos casos se construyen tablas de frecuencias con intervalos de amplitudes desiguales.
Esto sucede cuando la variable de interés tiene algunas observaciones extremas altas. En lugar de definir pocos intervalos con igual tamaño, pero muy amplios; o bien muchos intervalos de igual tamaño, pero más estrechos, es frecuente definir tamaños variables para los intervalos de clase.
b) Intervalos abiertos
Cuando las series de datos tienen observaciones muy extremas, en lugar de intervalos de tamaños variables,
se pueden utilizar intervalos con extremos abiertos.
Los intervalos abiertos son aquellos que no tienen definidos uno de los límites.
En el primer intervalo no está definido el límite inferior y en el último, el límite superior.
Las clases abiertas se utilizan con fines de presentación,
pero presentan dificultades para los cálculos, como así también para la representación gráfica.
Distribuciones de frecuencias acumulada (fa)
Las distribuciones de frecuencias acumuladas permiten observar cuántas observaciones se hallan por debajo de ciertos valores.
Considérese la distribución de frecuencias simples de los índices de accidentes de las 25 empresas.
Índices Frecuencias acumuladas (fa)
Menor que 1.0 0
Menor que 2.0 3
Menor que 3.0 8 (3 + 5)
Menor que 4.0 18 (3 + 5 + 10) Menor que 5.0 22 (3 + 5 + 10 + 4)
Menor que 6.0 25 (3 + 5 + 10 + 4 + 3)
También se pueden confeccionar las tablas de frecuencias acumuladas relativas.
Distribución de frecuencias para variables discretas
Se registra el número de hijos para cada uno de los 20 empleados de una compañía.
Los datos, ya ordenados, son los siguientes:
1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 4 4 4 5 5
La variable xi (número de hijos) toma valores entre 1 y 5.
Como xi asume pocos valores, puede considerarse cada valor de la variable como una clase, o sea:
Nº de hijos (xi): 1 2 3 4 5
La tabla de frecuencias simples (absolutas y relativas) queda conformada como sigue:
También se puede construir una tabla de frecuencias acumuladas para la distribución del número de hijos.
Distribución de frecuencias para variables cualitativas
Se registran los elementos de una población o muestra con respecto a un atributo y los resultados obtenidos de dichas observaciones se agrupan según las distintas modalidades que tome al atributo.
Por ejemplo, 80 empleados de una compañía pueden clasificarse según el estado civil.
Representación gráfica de las frecuencias simples y acumuladas
Una distribución de frecuencias simples con variables contínuas puede representarse mediante dos gráficos:
a) Histograma;
b) Polígono de frecuencias.
a)Histograma
El histograma es un gráfico de barras.
Para cada intervalo se dibuja una barra con altura igual a la frecuencia absoluta simple o frecuencia relativa simple.
b) Polígono de frecuencias
El polígono de frecuencias es un gráfico lineal que se representa con las marcas de clases.
Se construye ubicando sobre cada marca un punto a la altura de la frecuencia absoluta (o relativa), uniendo luego los puntos resultantes mediante segmentos de recta.
Las distribuciones de frecuencias acumuladas se representan gráficamente mediante un
"polígono de frecuencias acumuladas" u "ojiva".
Representación gráfica para distribución de frecuencias simples con variables discretas.
La representación gráfica de una distribución con variables discretas se realiza en un "gráfico de bastones".
Para cada valor de la variable se dibuja un segmento con altura equivalente a la frecuencia (absoluta o relativa).
Preste atención al seleccionar las distintas herramientas estadísticas, con el fin de no aplicar aquellas que no correspondan, dado que existe una clara diferenciación entre las medidas admisibles para cada nivel de medición.
|
No hay comentarios:
Publicar un comentario