UNIVERSIDAD NACIONAL FEDERICO VILLAREAL
ESCUELA PROFESIONAL DE TRABAJO SOCIAL
Visión
Misión
Estadística
ESCUELA PROFESIONAL DE TRABAJO SOCIAL
Visión
“La
Universidad Nacional Federico Villareal” será una comunidad académica
acreditada bajo estándares globales de calidad, posicionada internacionalmente,
y al servicio del desarrollo humano sostenible.
Misión
"La Universidad Nacional
Federico Villarreal" tiene por misión, la formación de la persona humana,
y el fortalecimiento de la identidad cultural de la nación, fundado con el
conocimiento científico y tecnológico, en correspondencia con el desarrollo
humano sostenible.
Estadística
1. Historia
La estadística es conocida
actualmente como una ciencia aplicada, útil en las investigaciones realizadas
en el campo de las Ciencias Económicas, Ciencias Sociales, Ciencias de la
Salud, etc.; para la recopilación de información, análisis, interpretación
y predicción.
En épocas anteriores a la nuestra,
la estadística tuvo su primera aparición en civilizaciones como Egipto,
Babilonia, Sumeria, China y también en Mesopotamia.
Los gobernantes tenían poder
absoluto sobre la tierra y la comunidad, además tenían control sobre lo
económico, político y religioso. Por
ello, para los gobernantes fue necesario tener información precisa sobre los
pobladores y la tierra para impartir los recursos e imponer su dominio.
Es en este contexto que la
estadística dio sus primeros pasos, lo cuales comprobado por los datos recogidos
sobre población, número de bienes y producción.
La presencia de la estadística en
la época antigua se vio también reflejada en la información obtenida sobre
cálculos de ingresos y egresos lo cual demuestra que fueron elaborados con
propósitos fiscales, se encontró también archivos de provisiones y tributos,
casos legales y diplomáticos, contactos comerciales y censos.
El Instituto Nacional de
Estadística y Geografía (2011, p. 5) dice lo siguiente:
Fue
inminente la necesidad de contar con información confiable para la
administración de los recursos, que desde el nacimiento de las ciudades fue
prioridad de los gobernantes, y originó la aparición de burocracias más o menos
numerosas, encargadas de organizar dicha información.
En efecto, el uso de la
estadística en la época antigua fue necesaria para establecer el ordenamiento
de la informaciónque se obtenía de la comunidad
y para dar cuenta de los movimientos económicos que se realizaba.
Más adelante, la presencia de la Estadística en Grecia y el
Imperio Romano fue notoria, su uso se
dio para propósitos militares en épocas de guerra, propósitos políticos en días
de elección, y propósitos comerciales fue muy recurrente. Además, debido a la expansión de la población se
tuvieron que realizar censos, lo que
llevo a una división de la población para distribuir el ingreso y cobrar
impuestos, en el caso de Grecia se dio una división en polis o ciudades estado.
En Roma el censo era una revisión general y periódica de la posición familiar,
patrimonial y política de la población y determinaba sus deberes militares y
fiscales, el cual se realizaba cada cinco años. Y era ya una institución en el
siglo IV a.C.
La estadística se ve también
incluso en la Biblia, en el libro de Números aparecen referencias al recuento
de los israelitas en edad de servicio militar. Y es que fue un censo lo que
motivó el viaje de José y María a Belén, según el Evangelio. Claramente el uso
de los censos para obtener información específica fue y es fundamental.
Sin embargo, recientemente la Estadística ha adquirido una categoría de
ciencia. En el siglo XVII surge la
aritmética política, proveniente de la escuela alemana de Conring. Hace su
apariciónGodofredo Achenwall (1719 – 1772) quien, fue profesor de la
Universidad de Leipzig, oriento su trabajo a la recogida y análisis de datos
numéricos, con fines específicos y en base a los cuales se hacen estimaciones y
conjeturas, es decir se observa ya los elementos básicos del método
estadístico. Lo que posteriormente lo lleva a escribir sobre el descubrimiento
de una nueva ciencia a la que llamó Estadística y la definió como “el
conocimiento profundo de la situación respectiva y comparativa de cada Estado”.
Para los aritméticos políticos de
los siglos XVII y XVIII la estadística era el arte de gobernar; su función era
la de servir de ojos y oídos al gobierno.
La proliferación de tablas
numéricas permitió observar la frecuencia de distintos sucesos y el
descubrimiento de leyes estadísticas.Estos avances se ven reflejados enlos estudios
de Graunt sobre tablas de mortalidad y esperanza de vida a partir de los
registros estadísticos de Londres desde 1592 a 1603 o los de Halley entre 1687
y 1691, para resolver el problema de las rentas vitalicias en las compañías de
seguros.
Ya en el siglo XIX aparecen las
leyes Bernouilli y Poissony un interés por parte de los matemáticos de su
tiempo, como Euler, Simpson, Lagrange, Laplace, Legendre y Gauss sobre el
problema del ajuste de curvas a los datos.
Con estos avances la estadística
logra una relevancia científica, siendo reconocida por la British
AssociationfortheAdvancement of Science, como una sección en 1834, naciendo así
la Royal StatisticalSociety.
En este contexto se definió a la
Estadística como un: “Conjunto de hechos, en
relación con el hombre, susceptibles de ser expresados en números, y lo
suficiente numerosos para ser representados por leyes".
Es así que se fueron creando poco
a poco sociedades estadísticas y oficinas estadísticas para organizar la recopilación
de datos estadísticos; la primera de ellas se dio en Francia 1800 Como
consecuencia, fue posible comparar las estadísticas de cada país en relación
con los demás, para determinar los factores determinantes del crecimiento
económico y comenzaron los congresos internacionales, con el fin de
homogeneizar los métodos usados.
El primero de ellos fue
organizado por Queteleten Bruselas en 1853. Posteriormente, se decidió crear
una sociedad estadística internacional, naciendo en 1885 el Instituto
Internacional de Estadística(ISI). Su finalidad es conseguir
uniformidad en los métodos de recopilación y abstracción de resultados e
invitar a los gobiernos al uso correcto de la estadística en la solución de los
problemas políticos y sociales.
En la actualidad la Estadística
es concebida, como una ciencia aplicada. La cual se divide en estadística descriptiva y estadística inferencial.
Batanero (2001, p.10) define lo
siguiente:
La
estadística descriptiva tiene como fin presentar resúmenes de un conjunto de
datos y poner de manifiesto sus características, mediante representaciones
gráficas. Los datos se usan para fines comparativos, y no se usan principios de
probabilidad. El interés se centra en describir el conjunto de datos y no se
plantea el extender las conclusiones a otros datos diferentes o a una
población. Por otro lado la inferencia estadística, estudia los resúmenes de
datos con referencia a un modelo de distribución probabilístico o una familia
de modelos, determinando márgenes de incertidumbre en las estimaciones de los parámetros desconocidos del mismo. Dado
que el conjunto de datos analizados es
una muestrade una población y el interés principal es predecir el
comportamiento de la población, a partir de los resultados en la muestra.
2. ¿Qué
es Estadística?
Proviene del latín “status” o ciencia del estado. Es una
ciencia encargada de recoger, organizar e interpretar datos provenientes de la
investigación científica; para extraer conclusiones, usando modelos matemáticos.
Es una herramienta de trabajo
profesional, se utiliza en Medicina, Economía, Psicología, Sociología, Trabajo
Social entre otras ciencias y/o disciplinas, para el análisis de los datos
obtenidos y diseño de experimentos.
3.
Utilidad
Como
sabemos, la estadística es la ciencia encargada del análisis e interpretación
de los datos obtenidos, su aplicación en la investigación científica nos ayuda
a resolver problemas que se planteen, dicho lo anterior, su utilidad es
importante para:
·
Análisis de muestras: Se elige una muestra de una
población para hacer inferencias
respecto a esa población a partir de lo observado en la muestra (sondeos de
opinión, control de calidad, etc.)
·
Descripción de datos: Procedimientos para resumir la información contenida en un
conjunto (amplio) de datos.
·
Contraste de hipótesis: Metodología estadística
para diseñar experimentos que garanticen que las conclusiones que se extraigan
sean válidas. Sirve para comparar las
predicciones resultantes de las hipótesis con los datos observados (medicina, diferencias
entre poblaciones, etc.)
·
Medición de relaciones entre variables estadísticas.
·
Predicción: Prever
la evolución de una variable estudiando su historia y/o relación con otras
variables.
·
Permite extraer conclusiones generales.
4.
Objetivo
El objetivo
de la Estadística como Ciencia es mejorar el nivel de vida de la sociedad.
Estadística deriva de la palabra Estado, y etimológicamente significa recoger
información para tomar decisiones de cómo repartir comida o trabajo. La
Estadística moderna se ocupa de la recolección, análisis e interpretación de
información, tanto cuantitativa como cualitativa. Y los métodos estadísticos
son particularmente útiles cuando hay variabilidad en la medición.
5.
Estadística
en las Ciencias Sociales
Un
estadístico trabajando en el campo de las Ciencias Sociales se ocupa de las
siguientes cuestiones:
·
¿Qué datos se necesita recoger?
·
¿Cómo se pueden usar los recursos disponibles más
eficientemente para recolectar los datos?
·
¿Cómo especificar un modelo matemático que describa
el proceso que ha generado los datos?
·
Depuración y transformación de los datos
·
¿Cómo presentar los datos de manera que transmitan
sus rasgos más esenciales de una manera clara?
·
¿Qué conclusiones se pueden extraer de los datos y cuál es el grado de
incertidumbre de estas conclusiones?
·
¿Qué acciones se deben tomar en base a las
conclusiones extraídas de los datos?
En
las Ciencias Sociales la Estadística se estudia en tres secciones: la
Estadística Descriptiva, la Estadística Inferencial y el Diseño Experimental.
La Estadística Descriptiva sirve de herramienta para describir, resumir o
reducir las propiedades de un conglomerado de datos al objeto de que se pueda
manejar. La Estadística Inferencial se utiliza para estimar las propiedades de
una población a partir del conocimiento de las propiedades de una muestra de
ella. Y en tercer lugar, el diseño y análisis de experimentos se desarrolla
para determinar y confirmar relaciones causales entre variables.
6.
La
Estadística en otros campos.
·
En la Administración de Empresas se utiliza para
evaluar la aceptación de un producto antes de
comercializarlo.
·
En Economía para medir la evolución de los precios
mediante números índice o para estudiar los hábitos de consumo mediante
encuestas.
·
En Ciencias Políticas para conocer las preferencias
de los electores antes de la votación mediante sondeos y así orientar las
estrategias de los candidatos.
·
En Sociología para estudiar las opiniones de los
colectivos sociales sobre temas de actualidad.
·
En Psicología para elaborar las escalas de los test
y cuantificar aspectos del comportamiento humano.
·
En las Ciencias Sociales para medir la relación
entre variables y hacer predicciones sobre ellas.
Estadística Descriptiva e
Inferencial
La estadística
descriptiva, está formada por
procedimientos empleados para resumir y describir las características
importantes de un conjunto de mediciones.
La estadística
inferencial está formada por procedimientos empleados para hacer inferencias
acerca de características poblacionales, a partir de información contenida en
una muestra sacada de esta población.
El objetivo de la
estadística inferencial es hacer inferencias (es decir, sacar conclusiones,
hacer predicciones, tomar decisiones) acerca de las características de una
población a partir de información contenida en una muestra.
Estadística Descriptiva
Entonces
la estadística descriptiva“es aquella que describe, analiza y representa un grupo de datos
utilizando métodos numéricos y gráficos que resumen y presentan la información
contenida en ellos”.
a) Población y Muestra
Se
denomina población al conjunto completo de elementos, con alguna característica
común, que es el objeto de nuestro estudio. Esta definición incluye, por
ejemplo, a todos los sucesos en que podría concretarse un fenómeno o experimento.
Una población puede ser finita o infinita.
Ejemplo:
Los
habitantes de un país, los planetas del Sistema Solar, las estrellas en la Vía
Láctea, son elementos de una población finita. Sin embargo, el número de
posibles medidas que se puedan hacer de la velocidad de la luz, o de tiradas de
un dado, forman una poblacióninfinita.
Sin
embargo, es necesario trabajar con solo una parte de dicha población. A un
subconjunto de elementos de la población se le conoce como muestra.
Es
decir la muestra es una parte representativa de la población la cual reproduce
las características más importantes. Al proceso de obtener la muestra se
denomina muestreo.
Ejemplo:
Si
se quiere estudiar las propiedades de las estrellas en nuestra Galaxia, no
tendremos la oportunidad de observarlas todas; tendremos que conformarnos con
una muestra representativa. Obviamente, elegir de forma representativa los
elementos de una muestra es algo muy importante. De hecho existe un grave problema,
conocido como efecto de selección, que puede condicionar el resultado de un
estudio si uno no realiza una selección correcta de los elementos que forman
parte de una muestra.
Al
número de elementos de la muestra se le llama tamaño de la muestra. Y al caso particular de una muestra que
incluye a todos los elementos de la población se le conoce como censo.
b) Métodos de muestreo
Fundamentalmente
el muestreo es de dos tipos básicos:
Probabilístico o aleatorios:
Tipo de muestreo que se obtiene mediante sorteo de los individuos que la forman
teniendo así, cada individuo la misma posibilidad de pertenecer a la muestra,
permitiendo calcular el posible error de la muestra. De entre los que destacan,
el muestreo aleatorio simple, el sistemático, el estratificado y el de
conglomerados.
No probabilística: tipo de
muestreo en el que no es posible estimar la probabilidad de que cada individuo
o elemento estará incluido en la muestra, además no permite el cálculo del
posible error de la muestra. Pueden ser de tres clases: Accidental o
incidental, por cuotas, intencional por conveniencia o de juicio.
El muestreo Aleatorio simple,
es el tipo de muestreo en el cual todos y cada uno de los elementos de la
población se elige de tal forma que tengan la misma posibilidad de ser
seleccionados y pertenecer a la muestra.
El muestreo Sistemático,
se utiliza cuando el universo es de gran tamaño o ha de extenderse en el tiempo
y requiere de una selección aleatoria inicial de observaciones seguida de otra
selección de observaciones, obtenida mediante una constante denominada
constante de sistematización
Cs= N/n; donde
N = es el tamaño de la población y n = el tamaño de la muestra.
Esta
constante nos sirve para determinar cada cuántos elementos o cada cuánto tiempo
se debe elegir el siguiente.
Ejemplo:
Para
obtener una muestra de suscriptores telefónicos en una ciudad grande, puede
obtenerse primero una muestra aleatoria de los números de las páginas del
directorio telefónico; al elegir el vigésimo nombre de cada página obtendríamos
un muestreo sistemático, también podemos escoger un nombre de la primera página
del directorio y después seleccionar cada nombre del lugar número cien a partir
del ya seleccionado. En este caso, podríamos seleccionar un número al azar
entre los primeros 100; suponiendo que el elegido es el 40, entonces
seleccionamos los nombres del directorio que corresponden a los números 40,
140, 240, 340 y así sucesivamente.
El
muestreo sistemático suele ser más preciso que el aleatorio simple, ya que
recorre la población de un modo más uniforme.
El muestreo Estratificado,
involucra la división previa de la población en subgrupos, clases o estratos
que se suponen más homogéneos, y a los cuales se le asigna una cuota que
determina el número de miembros del estrato que compondrán la muestra, estos
son escogidos mediante muestreo aleatorio simple. Según la cantidad de
elementos de la muestra que se han de elegir de cada uno de los estratos,
existen dos técnicas de muestreo estratificado:
·
Asignación proporcional: el tamaño de cada estrato
en la muestra es proporcional a su tamaño en la población.
·
Asignación óptima: la muestra recogerá más
individuos de aquellos estratos que tengan más variabilidad. Para ello es
necesario un conocimiento previo de la población.
Ejemplo:
Suponiendo
un estudio sobre la población de estudiantes de una universidad, en el que a
través de una muestra de 10 de ellos queremos obtener información sobre el uso
del lápiz labial. Pero reflexionando sobre que el comportamiento de la
población con respecto a esta característica no es homogéneo, podemos dividir a
la población en dos estratos:
Estudiantes
masculinos 40%.
Estudiantes
femeninos 60%.
De
modo que la asignación proporcional a esta muestra es en función de sus
respectivos tamaños (6 varones y 4 mujeres).
También
se puede observar que el comportamiento de los varones con respecto a la
característica en estudio es muy homogéneo y diferenciado del grupo de las
mujeres que es muy variable. De modo que
la asignación óptima de una muestra de 10 alumnos, nos indica que es más conveniente
elegir más individuos en los grupos de mayor variabilidad.
Muestreo por conglomerados,se
obtiene al dividir primero la población en grupos o conglomerados convenientes
para el muestreo, seleccionando de cada uno de ellos una porción, al azar o por
un método sistemático. Bajo este método, aunque no todos los grupos son
muestreados, cada grupo tiene una igual probabilidad de ser seleccionado.
Por
lo tanto, la muestra es aleatoria. Una muestra por conglomerados, usualmente
produce un mayor error muestral que una muestra aleatoria simple del mismo
tamaño; sin embargo, puede ser obtenida dentro de un corto período de tiempo y
a bajo costo. Además una muestra por conglomerados ofrece la misma precisión en
la estimación que una muestra aleatoria simple, si la variación de los
elementos individuales dentro de cada conglomerado es proporcionalmente tan
grande como la de la población.
c) Parámetro:Es una
constante que describe una característica de una población. Para poder calcular
el valor de un parámetro, se requiere conocer a ciencia cierta el estado de
naturaleza de la población o realizar un censo.
d) Valor estadístico o estadígrafos.-
Son valores análogos a los parámetros, pero que son calculados con la
información obtenida de la muestra.
Los
valores estadísticos son variables porque pueden tomar diferentes valores al
cambiar de muestra. Un valor estadístico
estima al parámetro correspondiente.
e) Variables
Una
variable es una característica que varía de elemento a elemento en una población
en estudio. Por ejemplo, si nuestra población consta de personas entonces las
siguientes son ejemplos de variables que podrían interesarnos: edad, peso,
sexo, estatura, etc. Las variables pueden ser cuantitativas, cuando se realiza
una medición, o pueden ser cualitativas, cuando solamente presentan una
cualidad. La edad, el peso y la estatura son ejemplos de variables
cuantitativas en una población de personas, mientras que el sexo y el estado
civil son variables cualitativas.
·
Variables
Cuantitativas o numéricas
Son
aquellas que se identifican o se les puede asignar un valor numérico o que
corresponden a aspectos que son medibles.
Ejemplo:
Tiempo de uso, precio, tamaño, velocidades, número de hijos de una familia,
número de carros que circulan por determinada calle, alturas, pesos, tallas,
temperaturas, tiempo de vida de una persona, cantidad de azúcar para endulzar
un café, medida de sombreros, etcétera.
Las
variables cuantitativas o numéricas se dividen en:
Variables cuantitativas Discretas:
son aquellas que solamente toman valores enteros con rango finito.
Ejemplo:
Número de hijos en cada familia de una colonia de la ciudad, talla de calzado
de cada alumno de un grupo escolar, la cantidad de alumnos por grupo, etc.
Variable cuantitativa Continua:
son aquellas que pueden tomar cualquier valor entre dos valores dados. Es
decir, el rango contiene no sólo valores enteros sino un intervalo (finito o
infinito) de valores reales (esto es, que puede ser fraccionario, decimal o
irracional).
Ejemplo:
El tiempo de vida de una persona, la cantidad de azúcar para endulzar un café,
el nivel de hemoglobina de los habitantes de una colonia, la temperatura
ambiental durante un día, etcétera.
·
Variables
Cualitativas o categóricas
Son
aquellas a las que no se les puede asignar o identificar con un valor numérico,
sino con un aspecto, cualidad o característica que las distinga y que no se
pueden medir sino solo observar, a ese aspecto, cualidad o característica se le
llama categoría.
Ejemplos:
Marca, tipo de sangre, deporte preferido,
el estado en general de cualquier cosa, idioma, nacionalidad, colores,
cabello o piel, himnos nacionales, sexo, estado de ánimo, clima, etcétera.
Las
variables cualitativas o categóricas se dividen en:
Variables Cualitativas Nominales:
son aquellas a las que no se les puede asignar un orden, es decir que sólo
permite clasificación en categorías por mención de ésta.
Ejemplo:
La nacionalidad de una persona, idioma, sexo, himnos nacionales.
Variables Cualitativas Ordinales:
son aquellas que además de clasificar a los elementos en distintas categorías
les podemos asignar un orden o que podemos ordenar de acuerdo a cierta
característica.
Ejemplo:
El estado de salud de una persona; que podemos ordenarla según la urgencia del
caso, el color de algún objeto según la tonalidad desde muy clara a más oscuro;
que podemos ordenarlo de acuerdo a la intensidad del color, el grado militar,
puesto en la empresa, día de la mamá, meses del año, etcétera.
f) Distribución de frecuencias
La
Distribución o Tabla de Frecuencias es la representación conjunta de los datos
en forma de tabla o subgrupo de datos correspondientes a un fenómeno en estudio
y su ordenamiento en base al número de observaciones que corresponden a cada
dato o a cada grupo de datos, adecuados según cronología, geografía, análisis
cuantitativo o cualitativo.
Los
principales elementos de una tabla estadística son: Título, unidades,
encabezado, cuerpo o contenido, nota de pie y referencias.
Se
elabora colocando en la primera columna los datos diferentes o subgrupos de
datos (llamados clases o intervalos de clase) y en la columna siguiente el número
de observaciones que corresponden a cada dato o a cada grupo de datos (llamada
frecuencia). Una tabla de este tipo
dará, en forma abreviada, una información completa acerca de la distribución de
los valores observados.
Estas
tablas facilitan el uso de los métodos gráficos y aritméticos. La presentación
de los datos en forma ordenada, por medio de una tabla, dependerá de los datos
de que se trate, y si estos son cualitativos o cuantitativos como se muestra a
continuación:
Ejemplo:
Frecuencia
absoluta, absoluta acumulada, relativa y relativa acumulada.
Frecuencia Absoluta de un
dato:
Es el
número de veces que se repite ese dato, también se presenta la frecuencia
absoluta de un intervalo que se refiere al número de datos que pertenecen a ese
intervalo. Se denota por f.
Frecuencia Absoluta
Acumulada: Hasta un dato específico, es la suma de
las frecuencias absolutas de todos los datos anteriores, incluyendo también la
del dato mismo del cual se desea su frecuencia acumulada. De un intervalo es
la suma de las frecuencias absolutas de todos los intervalos de clase
anteriores,incluyendo la frecuencia del intervalo mismo del cual se desea su Frecuencia acumulada. La última frecuencia absoluta acumulada
deberá ser igual al número total de datos. Se denota por: fa.
Frecuencia Relativa:De un dato, se obtiene al dividir la
frecuencia absoluta de cada dato entre el número total de datos. De un intervalo
se obtiene al dividir la frecuencia absoluta de cada intervalo entre el número
total de datos. Se denota por: fr.
Frecuencia Relativa
Acumulada: Hasta un dato específico de la
observación, es la suma de las frecuencias relativas de todos los datos
anteriores, incluyendo también la del dato mismo del cual se desea su
frecuencia relativa acumulada de un intervalo es la suma de las frecuencias
relativas de todos los intervalos de clase anteriores incluyendo la frecuencia
del intervalo mismo del cual se desea su frecuencia relativa acumulada. La
última frecuencia relativa acumulada deberá ser igual a la unidad. Se denota
por: fra.
Construcción de distribución o tabla de frecuencias para datos
no agrupados y agrupados.
Datos
no agrupados
Consideraremos
a cada uno de los distintos datos que se presentan en la muestra y los
denotaremos por Xi,
y al número total de datos diferentes lo denotaremos por n.
Datos
agrupados
Cuando el tamaño de la muestra es
considerable o grande y los datos numéricos son muy diversos (n>15), conviene agrupar los datos de tal
manera que permita establecer patrones, tendencias o regularidades de los
valores observados. De esta manera podemos ordenar los datos tabulando las
frecuencias asociadas a ciertos intervalos de los valores observados.
- Intervalos
de Clase:Son
los intervalos en los que se agrupan y ordenan los valores observados. Cada uno
de estos intervalos está delimitado (acotado) por dos valores extremos que les
llamamos límites.
Pasos para construir intervalos de
frecuencia.
Primero:Determinar la cantidad de intervalos apropiada: La
selección del número adecuado de intervalos y los límites entre ellos dependen
del criterio o experiencia de quien realiza el estudio. Sin embargo, existen
reglas empíricas para calcular el número de intervalos; la más empleada es la
Regla de Sturges, cuya expresión es:
K= 1 + 3.3 Log n
Dónde:
K=Número
de intervalos el cual siempre debe ser un número entero. Razón por la cual se
deberá redondear el resultado al entero más cercano.
n=
Número de datos.
Log
= logaritmo en base 10.
Otra
regla utilizada es la de Vellemanque
establece que el número de Intervalos se obtiene de la raíz cuadrada del número
de datos; es decir K= √n,recomendable
para tamaños de muestra pequeños (n< 50)
El
número de intervalos determinado
mediante cualquier regla se aproxima al valor entero más cercano pero deberá
ser responsabilidad de quien realiza el estudio, pudiendo utilizar éste en
ocasiones uno menor o mayor al obtenido por cualquier regla, si esto le permite
tener intervalos con la misma amplitud. Sin embargo, la mayoría de las reglas
subestiman el número de intervalos.
Segundo:Calcular
el rango de los datos.
Se
le llama rango al número de unidades de variación presente en los
datos recopilados y se obtiene de la diferencia entre el dato mayor y el dato
menor. Se representa con la letra R.
R= Dato mayor - dato
menor
Tercero:Obtención de la amplitud o anchura que tendrá cada
intervalo.
Se
encuentra dividiendo el rango por el número de intervalos regularmente es de 5
a 6. Y se representa con la letra A. Se denota por:
A= R/K
Cuarto:Construcción
de los intervalos.
Los
pasos son los siguientes:
a)
El primer intervalo se construye de la siguiente manera: Se inicia con el dato
menor, el cual será el extremo inferior del intervalo; el otro extremo se obtiene
de la suma del dato menor y la amplitud, con este mismo valor iniciamos el
segundo intervalo, del cual el segundo extremo se encuentra sumando al valor anterior
la amplitud y este proceso se repite sistemáticamente hasta completar el total
de intervalos indicado por la regla elegida, por ejemplo la de Sturges.
b) Los valores extremos o límites de intervalo:
Los intervalos de clase deben estar definidos por límites que permitan
identificar plenamente si un dato pertenece a uno u otro intervalo. Estos
límites son los valores extremos de cada intervalo.
Límite inferior:
Es el valor menor de cada intervalo, se denota por Li
Límite superior:
Es el número mayor de cada intervalo, se denota por Ls
c)
Calcular la Marca
de Clase (MC) de cada intervalo: Se refiere al
Punto Medio del intervalo y a través de él representaremos a todo el intervalo
y una de las maneras de calcularla es promediando los valores límite de cada
intervalo, su fórmula es: MC =Li + Ls / 2
Ejemplo:
Un grupo de investigadores pertenecientes
a la secretaría de seguridad pública, tomó una muestra aleatoria de las velocidades
(km/h) registradas por 30 vehículos en el trayecto Lima - Piura, con el fin de establecer
nuevos límites máximos de velocidad para una carretera. La muestra arrojo los
datos siguientes:
90, 99, 104, 99, 119, 98, 95, 112, 95, 120,
100, 90, 116, 96, 114, 108, 98, 118,100, 106, 114, 100, 112, 106, 100, 115,
111, 105, 114, 97
Paso
N°1:
Ordenar de menor a mayor.
90, 90, 95, 95, 96, 97, 98, 98, 99, 99,
100, 100, 100, 104,
105,106, 108, 111, 112, 112, 114, 114,
115, 116, 118, 119, 120
Paso
N°2: Obtener
el número de intervalos para lo cual se aplicara la Regla de Sturges.
K = 1 + 3.3Log (30) = 1+ 3.3
(1.4771212547) =1+ 4.87 = 5.87 ≈ 6
Paso
N°3:
Calcular el rango de variación.
R = 120 – 90 = 30
Paso N°4: Obtener la amplitud de cada intervalo de clase.
Ac= 30/6= 5
Paso
N°5:
Construir los intervalos.
El primero de ellos inicia con 90 que es
el extremo inferior que, sumado a 5 obtenemos 95, que será el extremo superior;
este extremo será el inferior del segundo intervalo; y al sumar nuevamente la amplitud
tendremos 100 que será el extremo superior y así sucesivamente hasta completar
los 6 intervalos., que se muestran:
[90 – 95), [95 – 100), [100 – 105), [105
– 110), [110 – 115) y [115 – 120]
Para la construcción de distribuciones de
frecuencias, aplicaremos las fórmulas que anteriormente se explicaron.
A continuación se presenta la
tabla de resumen de la muestra:
g) RepresentaciónGráfica
Los gráficos como un vehículo de presentación y herramienta en la
estadística, que permite conocer los resultados de un hecho observable de todas
las tendencias presentes con los datos obtenidos y hacer el análisis del
estudio y tomar decisiones.
Los gráficos son muy útiles como apoyo e incluso sustitutos de las
tablas o distribuciones y como una herramienta para el análisis de los datos,
lo que los convierte en el medio más efectivo para la presentación,
descripción, resumen y análisis de la información.
Para variables discretas (datos no agrupados) las de: Barras y circulares
o de pastel; y para variables continuas (datos agrupados) el histograma,
polígono de frecuencias y ojiva. Estos gráficos no son los únicos para la
presentación y análisis de datos estadísticos.
Gráfica de Barras:
Es
un método gráfico que consta de dos ejes: Uno horizontal, en el que se representan
los valores (Eje de los datos) utilizando barras verticales en forma rectangular
y de la misma amplitud, y un eje vertical, en el cual la frecuencia representa
la altitud que tendrá la barra rectangular (Eje de las frecuencias), las barras
van separadas la misma distancia unas de otras y para distinguirlas puede
utilizarse distintos colores o entramados según se considere.
Ejemplo:
Gráfica Circular o de
Pastel:
Este
gráfico se utiliza fundamentalmente, para representar distribuciones de frecuencias
relativas (es decir, porcentajes % o proporciones) haciendo corresponder la
medida de la frecuencia relativa con la medida del ángulo en grados; es decir,
si el 100 % de los datos son 360º de la circunferencia.
Ejemplo:
Histograma:
Es
una gráfica en forma de barras que consta de dos ejes, uno horizontal, llamado
eje de la variable en observación y un eje vertical llamado eje de las
frecuencias.
Polígono de Frecuencias:
Es
una gráfica del tipo de las gráficas de líneas trazadas sobre las marcas de clase,
(de ahí el nombre de polígono), y se traza uniendo
con segmentos de recta, de izquierda a derecha, las parejas ordenadas que se
forman, al considerar como abscisa la marca de clase (eje horizontal) y como ordenada
la frecuencia del intervalo representado (eje vertical); la primera y última
parejas ordenadas se unen mediante un segmento de recta al eje horizontal, con
las que serían la marca de clase anterior y posterior respectivamente si estas
existieran. Este tipo de gráfico adquiere mayor importancia cuando se quiere
mostrar en un mismo gráfico más de una distribución o una clasificación cruzada
de una variable continúa con una discreta, situación que no se puede observar
en uno de los gráficos presentados anteriormente por la forma de construcción
del mismo gráfico.
Ejemplo:
Gráfica de Frecuencias
Acumuladas u Ojiva:
Es
un gráfico que igual al histograma y polígono de frecuencias se utiliza para el
análisis y representación de variables continuas, sólo que en vez de utilizar
las frecuencias absolutas, por sus características se construye uniendo con segmentos
de recta, de izquierda a derecha, las parejas ordenadas que se forman, al
considerar como abscisa los límites superiores de cada intervalo (eje horizontal)
y como ordenada las frecuencias relativas acumuladas hasta cada intervalo
representado (eje vertical). Existen dos tipos de ojivas, las llamadas de mayor
que, iniciando en la frecuencia más alta 1 hacia la más baja 0 y las llamadas
de menor que, iniciando en la frecuencia más baja 0 hacia la más alta 1.
El
gráfico ojiva representa mayor importancia cuando se trata de comparar las observaciones
de una misma característica en dos experimentos distintos, ya que no se puede
ejecutar comparaciones sobre frecuencias absolutas, es necesario una comparación
sobre frecuencias relativa; además permite ver cuántas observaciones se hallan
por arriba o debajo de ciertos valores establecidos.
Ejemplo:
Medidas de centralización
Las medidas de tendencia central, de centralización o posición
facilitan la interpretación de
información sobre un conjunto o serie de datos que se están analizando, una vez
que estos datos fueron recopilados u organizados, ya sea en una investigación
documental o en una investigación de campo.
Entre ellos tenemos:
I. Medidas de centralización para datos no agrupados
a)
Media Aritmética:La medida más evidente que podemos
calcular para describir un conjunto de observaciones numéricas es su valor
medio. La media no es más que la suma de todos los valores de una variable dividida
entre el número total de datos de los que se dispone. Siendo su fórmula:
Ejemplo:
Se
considera 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60, 71, y 80.
La media de edad o edad media de estas personas será de:
Del
ejemplo anterior, para obtener la mediana de los datos, primero ordenamos en
forma ascendente o descendente observando la siguiente secuencia de datos:
15,
21, 32, 59, 60, 60,61, 64, 71, 80
Como
podemos observar el número de datos es de 10 personas, los dos valores que se
encuentran en medio son 60 y 60. Por lo tanto la mediana de los datos será 60
años, ya que este dato se encuentra más al medio.
Nota:Si la media y la mediana son
iguales, la distribución o conjunto de datos de la variable es simétrica. Sin embargo, la media es muy
sensible a la variación de las puntuaciones, y la mediana es menos sensible a
dichos cambios.
c) La moda :Se
suele definir como el valor más frecuente. En el caso de una variable no agrupada,
es el valor de la variable que más se repite.
En
el caso del ejemplo anterior 15, 21, 32, 59, 60, 60, 61, 64, 71, 80.
La
moda será: 60 años (Unimodal)
Ejemplo N°1:
Determinar
la moda del siguiente conjunto de datos
1,
2, 3, 4, 4, 5, 2, 1, 3, 4, 2, 3, 4, 6, 3
Datos
ordenados: 1, 1, 2, 2, 2, 3, 3,
3, 3, 4, 4, 4, 4, 5, 6.
La
moda será:3
y 4 (Bimodal)
Ejemplo N°2:
Determinar
la moda del siguiente conjunto de datos
1,
2, 3, 4, 5, 6, 7, 8, 9
En
este caso, como ningún dato se repite será amodal.
Nota: En el caso que tenga más de dos modas, se
le llamará polimodal.
II. Medidas de centralización para datos
agrupados
a)Media aritmética para datos agrupados
Para
calcular esta medida de centralización o tendencia central se tomaran en cuenta
las frecuencias absolutas y la marca de clase de cada clase; mediante la siguiente
fórmula:
b) Mediana para datos agrupados.
Para
calcular esta medida de centralización se utilizara la siguiente fórmula:
c) Moda para datos agrupados.
Para
calcular la moda, en una distribución de frecuencias absolutas, observaremos la
columna de las frecuencias absolutas, después escogeremos la frecuencia mayor
de todas ellas.
Medidas de variabilidad o dispersión
Se llaman medidas de dispersión o variabilidad a aquellas que
permiten retratar la distancia de los valores de la variable a un cierto valor
central, o que permiten identificar la concentración de los datos en un cierto
sector del rango de la variable.
Las medidas de tendencia central tienen como objetivo el
sintetizar los datos en un valor representativo, las medidas de dispersión nos
dicen hasta qué punto estas medidas de tendencia central son representativas
como síntesis de la información. Las medidas de dispersión cuantifican la
separación, la dispersión, y la variabilidad de los valores de la distribución
respecto al valor central.
Se distingue:
1. Medidas de Variabilidad o Dispersión Absolutas
a) Rango (R):
Es una medida razonable de Variabilidad llamada también en algunas ocasiones
amplitud y que se obtiene restando el valor más bajo de un conjunto de
observaciones del valor más alto.
b)
Desviación Media: Se
define como la media de las diferencias en valor absoluto de los valores de la
variable a la media (D.M.); es decir, que se define como desvió que es la
diferencia que se observa entre la variable y la media aritmética.
d) Desviación típica o Standard: cuyo
símbolo es (S), es simplemente la raíz cuadrada de la varianza.
2. Medidas de dispersión relativas
a) Coeficientes de variación:
Estas
dispersiones relativas van a permitir además comparar la dispersión entre
diferentes muestras (con unidades diferentes). Entre estas medidas hay que
destacar el coeficiente de variación de Pearson,
definido como el cociente entre la desviación típica y la media aritmética.
Medidas de posición: cuartiles,
deciles y percentiles
Como
se señaló anteriormente, la mediana divide a la muestra en dos mitades iguales.
Sin embargo existen otras formas de dividir a la muestra en otras partes como
los cuartiles, deciles y percentiles.
a) Los cuartiles: Dividen
a la muestra en cuatro partes iguales.
Así el primer cuartil Q1/4 será la medida tal que el 25% de los datos sean
inferiores a su valor y el 75% de los datos sean superiores. El segundo cuartil
Q2/4 coincide con la mediana, mientras que el tercer
cuartil Q3/4 marca el valor tal que las tres cuartas partes de
las observaciones sean inferiores a él y una cuarta parte sea superior. La
forma de calcular los cuartiles es: Q1/4,Q2/4
y así sucesivamente.
b) Los deciles: Son aquellos valores de la variable
que dividen la muestra, ordenada, en 10 partes iguales. Estos valores son denotados
por Dk (con k = 1,
2, 3, 4,…9)
c) Los percentiles: También llamados centiles,
como aquellos valores Pk(con k = 1,
2,. . .,99) que dividen la muestra
en 100 partes iguales.
Medidas de forma de la curva de
datos
Las
medidas de forma permiten comprobar si una distribución de frecuencia tiene
características especiales como simetría, asimetría, nivel de concentración de
datos y nivel de apuntamiento que la clasifiquen en un tipo particular de
distribución. Es decir, permiten identificar si una distribución de
frecuencia presenta uniformidad.
Las
medidas de forma son necesarias para determinar el comportamiento de los datos
y así, poder adaptar herramientas para el análisis probabilístico.
Tipos de distribución
a) Distribución simétrica
Se
obtiene cuando al dividir una distribución de frecuencia mediante la mediana,
ambas áreas resultantes son iguales, es decir, los datos se distribuyen de la
misma forma y el área abarcada por ambos lados es equivalente (50% de los datos
se encuentran distribuidos en ambas secciones). Tenemos:
1.
Distribución simétrica: Los datos se concentran hacia el centro de la
distribución. Existe una distribución simétrica con características muy
definidas conocida como distribución Normal.
2. Distribución Uniforme: Las frecuencias tienen
todas las mismas alturas.
4. Distribución Binomial Simétrica: Presenta
simetría con dos modas.
b) Distribución asimétrica
Los
datos no se distribuyen de forma uniforme y similar en las áreas que dan como
resultado al dividir la distribución de frecuencia por la mediana.
1.
Distribución Sesgada hacia la Izquierda: Los datos se concentran hacia la
izquierda de la distribución.
2.
Distribución Sesgada hacia la Derecha: Los datos se concentran hacia la derecha
de la distribución.
3.
Distribución asimétrica: No presenta uniformidad en la distribución de los
datos.
Coeficiente de asimetría
Mide
el grado de asimetría de la distribución con respecto a la media. Un valor positivo de este indicador significa
que la distribución se encuentra sesgada
hacia la izquierda (orientación positiva).
Un resultado negativo significa que la distribución se sesga a la
derecha.
Curtosis
Indica
que tan apuntada o achatada se encuentra una distribución respecto a un comportamiento
normal (distribución normal). Si los datos están muy concentrado hacia la
media, la distribución es leptocúrtica (curtosis mayor a 0). Si los datos están
muy dispersos, la distribución es platicúrtica (curtosis menor a 0). El
comportamiento normal exige que la curtosis sea igual a 0 (distribución mesocúrtica).
Formula:
Bibliografía
Libros
1.
Batanero,
C. (2001). Didáctica de la Estadistica. Granada: Facultad de Ciencias
Universidad de Granada. España.
2. Instituto
Nacional de Estadistica y Geografía. (2011). Epoca antigua: Historia de la Estadística
mundial. Mexico.
3. Gorgas García, J.; Cardiel López,
N. y Zamorano Calvo, J. (2011). Estadística
básica para estudiantes de ciencias. Primera edición. Madrid. Departamento
de Astrofísica y Ciencias de la Atmósfera Facultad de Ciencias Físicas
Universidad Complutense de Madrid.
4. Camacho Rosales, J. (2003)
Aplicaciones Estadísticas en Ciencias Sociales. Departamento de Didáctica e
Investigación Educativa y del Comportamiento. Universidad de la Laguna.
Páginas
web
1.
Medidas de forma
2. Medidas de
forma y concentración