jueves, 19 de noviembre de 2015

Estadística


UNIVERSIDAD NACIONAL FEDERICO VILLAREAL

ESCUELA PROFESIONAL DE TRABAJO SOCIAL


Visión
“La Universidad Nacional Federico Villareal” será una comunidad académica acreditada bajo estándares globales de calidad, posicionada internacionalmente, y al servicio del desarrollo humano sostenible. 

Misión
"La Universidad Nacional Federico Villarreal" tiene por misión, la formación de la persona humana, y el fortalecimiento de la identidad cultural de la nación, fundado con el conocimiento científico y tecnológico, en correspondencia con el desarrollo humano sostenible.








Estadística


1.   Historia
La estadística es conocida actualmente como una ciencia aplicada, útil en las investigaciones realizadas en el campo de las Ciencias Económicas, Ciencias Sociales, Ciencias de la Salud, etc.; para la recopilación de información, análisis, interpretación y  predicción.
En épocas anteriores a la nuestra, la estadística tuvo su primera aparición en civilizaciones como Egipto, Babilonia, Sumeria, China y también en Mesopotamia.
Los gobernantes tenían poder absoluto sobre la tierra y la comunidad, además tenían control sobre lo económico, político y religioso.  Por ello, para los gobernantes fue necesario tener información precisa sobre los pobladores y la tierra para impartir los recursos e imponer su dominio.
Es en este contexto que la estadística dio sus primeros pasos, lo cuales comprobado por los datos recogidos sobre población, número de bienes y producción.
La presencia de la estadística en la época antigua se vio también reflejada en la información obtenida sobre cálculos de ingresos y egresos lo cual demuestra que fueron elaborados con propósitos fiscales, se encontró también archivos de provisiones y tributos, casos legales y diplomáticos, contactos comerciales y censos.
El Instituto Nacional de Estadística y Geografía (2011, p. 5) dice lo siguiente:
Fue inminente la necesidad de contar con información confiable para la administración de los recursos, que desde el nacimiento de las ciudades fue prioridad de los gobernantes, y originó la aparición de burocracias más o menos numerosas, encargadas de organizar dicha información.
En efecto, el uso de la estadística en la época antigua fue necesaria para establecer el ordenamiento de la informaciónque se obtenía de la comunidad  y para dar cuenta de los movimientos económicos que se realizaba.
Más adelante,  la presencia de la Estadística en Grecia y el Imperio Romano fue notoria,  su uso se dio para propósitos militares en épocas de guerra, propósitos políticos en días de elección, y propósitos comerciales fue muy recurrente. Además,  debido a la expansión de la población se tuvieron que  realizar censos, lo que llevo a una división de la población para distribuir el ingreso y cobrar impuestos, en el caso de Grecia se dio una división en polis o ciudades estado. En Roma el censo era una revisión general y periódica de la posición familiar, patrimonial y política de la población y determinaba sus deberes militares y fiscales, el cual se realizaba cada cinco años. Y era ya una institución en el siglo IV a.C.
La estadística se ve también incluso en la Biblia, en el libro de Números aparecen referencias al recuento de los israelitas en edad de servicio militar. Y es que fue un censo lo que motivó el viaje de José y María a Belén, según el Evangelio. Claramente el uso de los censos para obtener información específica fue y es fundamental.
Sin embargo, recientemente  la Estadística ha adquirido una categoría de ciencia.  En el siglo XVII surge la aritmética política, proveniente de la escuela alemana de Conring. Hace su apariciónGodofredo Achenwall (1719 – 1772) quien, fue profesor de la Universidad de Leipzig, oriento su trabajo a la recogida y análisis de datos numéricos, con fines específicos y en base a los cuales se hacen estimaciones y conjeturas, es decir se observa ya los elementos básicos del método estadístico. Lo que posteriormente lo lleva a escribir sobre el descubrimiento de una nueva ciencia a la que llamó Estadística y la definió como “el conocimiento profundo de la situación respectiva y comparativa de cada Estado”.  
Para los aritméticos políticos de los siglos XVII y XVIII la estadística era el arte de gobernar; su función era la de servir de ojos y oídos al gobierno.
La proliferación de tablas numéricas permitió observar la frecuencia de distintos sucesos y el descubrimiento de leyes estadísticas.Estos avances se ven reflejados enlos estudios de Graunt sobre tablas de mortalidad y esperanza de vida a partir de los registros estadísticos de Londres desde 1592 a 1603 o los de Halley entre 1687 y 1691, para resolver el problema de las rentas vitalicias en las compañías de seguros.
Ya en el siglo XIX aparecen las leyes Bernouilli y Poissony un interés por parte de los matemáticos de su tiempo, como Euler, Simpson, Lagrange, Laplace, Legendre y Gauss sobre el problema del ajuste de curvas a los datos.
Con estos avances la estadística logra una relevancia científica, siendo reconocida por la British AssociationfortheAdvancement of Science, como una sección en 1834, naciendo así la Royal StatisticalSociety. 
En este contexto se definió a la Estadística como un: “Conjunto de hechos, en relación con el hombre, susceptibles de ser expresados en números, y lo suficiente numerosos para ser representados por leyes".
Es así que se fueron creando poco a poco sociedades estadísticas y oficinas estadísticas para organizar la recopilación de datos estadísticos; la primera de ellas se dio en Francia 1800 Como consecuencia, fue posible comparar las estadísticas de cada país en relación con los demás, para determinar los factores determinantes del crecimiento económico y comenzaron los congresos internacionales, con el fin de homogeneizar los métodos usados.
El primero de ellos fue organizado por Queteleten Bruselas en 1853. Posteriormente, se decidió crear una sociedad estadística internacional, naciendo en 1885 el Instituto Internacional de Estadística(ISI). Su finalidad es conseguir uniformidad en los métodos de recopilación y abstracción de resultados e invitar a los gobiernos al uso correcto de la estadística en la solución de los problemas políticos y sociales. 
En la actualidad la Estadística es concebida, como una ciencia aplicada. La cual se divide en estadística  descriptiva y estadística inferencial.
Batanero (2001, p.10) define lo siguiente:
La estadística descriptiva tiene como fin presentar resúmenes de un conjunto de datos y poner de manifiesto sus características, mediante representaciones gráficas. Los datos se usan para fines comparativos, y no se usan principios de probabilidad. El interés se centra en describir el conjunto de datos y no se plantea el extender las conclusiones a otros datos diferentes o a una población. Por otro lado la inferencia estadística, estudia los resúmenes de datos con referencia a un modelo de distribución probabilístico o una familia de modelos, determinando márgenes de incertidumbre en las estimaciones  de los parámetros desconocidos del mismo. Dado  que el conjunto de datos analizados es una muestrade una población y el interés principal es predecir el comportamiento de la población, a partir de los resultados en la muestra.

2.   ¿Qué es Estadística?
Proviene del latín “status” o ciencia del estado. Es una ciencia encargada de recoger, organizar e interpretar datos provenientes de la investigación científica; para extraer conclusiones, usando modelos matemáticos.
Es una herramienta de trabajo profesional, se utiliza en Medicina, Economía, Psicología, Sociología, Trabajo Social entre otras ciencias y/o disciplinas, para el análisis de los datos obtenidos y diseño de experimentos.

3.   Utilidad
Como sabemos, la estadística es la ciencia encargada del análisis e interpretación de los datos obtenidos, su aplicación en la investigación científica nos ayuda a resolver problemas que se planteen, dicho lo anterior, su utilidad es importante para:
·         Análisis de muestras: Se elige una muestra de una población para hacer inferencias respecto a esa población a partir de lo observado en la muestra (sondeos de opinión, control de calidad, etc.)

·         Descripción de datos: Procedimientos para resumir la información contenida en un conjunto (amplio) de datos.

·         Contraste de hipótesis: Metodología estadística para diseñar experimentos que garanticen que las conclusiones que se extraigan sean válidas. Sirve para comparar las predicciones resultantes de las hipótesis con los datos observados (medicina, diferencias entre poblaciones, etc.)

·         Medición de relaciones entre variables estadísticas.

·         Predicción: Prever la evolución de una variable estudiando su historia y/o relación con otras variables.

·         Permite extraer conclusiones generales.


4.   Objetivo
El objetivo de la Estadística como Ciencia es mejorar el nivel de vida de la sociedad. Estadística deriva de la palabra Estado, y etimológicamente significa recoger información para tomar decisiones de cómo repartir comida o trabajo. La Estadística moderna se ocupa de la recolección, análisis e interpretación de información, tanto cuantitativa como cualitativa. Y los métodos estadísticos son particularmente útiles cuando hay variabilidad en la medición. 

5.   Estadística en las Ciencias Sociales 
Un estadístico trabajando en el campo de las Ciencias Sociales se ocupa de las siguientes cuestiones:  
·         ¿Qué datos se necesita recoger? 
·         ¿Cómo se pueden usar los recursos disponibles más eficientemente para recolectar los datos? 
·         ¿Cómo especificar un modelo matemático que describa el proceso que ha generado los datos? 
·         Depuración y transformación de los datos
·         ¿Cómo presentar los datos de manera que transmitan sus rasgos más esenciales de una manera clara?
·         ¿Qué conclusiones se pueden extraer  de los datos y cuál es el grado de incertidumbre de estas conclusiones?
·         ¿Qué acciones se deben tomar en base a las conclusiones extraídas de los datos?
En las Ciencias Sociales la Estadística se estudia en tres secciones: la Estadística Descriptiva, la Estadística Inferencial y el Diseño Experimental. La Estadística Descriptiva sirve de herramienta para describir, resumir o reducir las propiedades de un conglomerado de datos al objeto de que se pueda manejar. La Estadística Inferencial se utiliza para estimar las propiedades de una población a partir del conocimiento de las propiedades de una muestra de ella. Y en tercer lugar, el diseño y análisis de experimentos se desarrolla para determinar y confirmar relaciones causales entre variables.

6.   La Estadística en otros campos.

·         En la Administración de Empresas se utiliza para evaluar la aceptación de un producto antes de  comercializarlo.
·         En Economía para medir la evolución de los precios mediante números índice o para estudiar los hábitos de consumo mediante encuestas.
·         En Ciencias Políticas para conocer las preferencias de los electores antes de la votación mediante sondeos y así orientar las estrategias de los candidatos.
·         En Sociología para estudiar las opiniones de los colectivos sociales sobre temas de actualidad.
·         En Psicología para elaborar las escalas de los test y cuantificar aspectos del comportamiento humano.
·         En las Ciencias Sociales para medir la relación entre variables y hacer predicciones sobre ellas. 




Estadística Descriptiva e Inferencial


La estadística descriptiva,  está formada por procedimientos empleados para resumir y describir las características importantes de un conjunto de mediciones.
La estadística inferencial está formada por procedimientos empleados para hacer inferencias acerca de características poblacionales, a partir de información contenida en una muestra sacada de esta población.
El objetivo de la estadística inferencial es hacer inferencias (es decir, sacar conclusiones, hacer predicciones, tomar decisiones) acerca de las características de una población a partir de información contenida en una muestra.

Estadística Descriptiva
Entonces la estadística descriptiva“es aquella que describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos.

a) Población y Muestra
Se denomina población al conjunto completo de elementos, con alguna característica común, que es el objeto de nuestro estudio. Esta definición incluye, por ejemplo, a todos los sucesos en que podría concretarse un fenómeno o experimento. Una población puede ser finita o infinita.
Ejemplo:
Los habitantes de un país, los planetas del Sistema Solar, las estrellas en la Vía Láctea, son elementos de una población finita. Sin embargo, el número de posibles medidas que se puedan hacer de la velocidad de la luz, o de tiradas de un dado, forman una poblacióninfinita.
Sin embargo, es necesario trabajar con solo una parte de dicha población. A un subconjunto de elementos de la población se le conoce como muestra.
Es decir la muestra es una parte representativa de la población la cual reproduce las características más importantes. Al proceso de obtener la muestra se denomina muestreo.
Ejemplo:
Si se quiere estudiar las propiedades de las estrellas en nuestra Galaxia, no tendremos la oportunidad de observarlas todas; tendremos que conformarnos con una muestra representativa. Obviamente, elegir de forma representativa los elementos de una muestra es algo muy importante. De hecho existe un grave problema, conocido como efecto de selección, que puede condicionar el resultado de un estudio si uno no realiza una selección correcta de los elementos que forman parte de una muestra.
Al número de elementos de la muestra se le llama tamaño de la muestra. Y al caso particular de una muestra que incluye a todos los elementos de la población se le conoce como censo.

b) Métodos de muestreo 
Fundamentalmente el muestreo es de dos tipos básicos: 
Probabilístico o aleatorios: Tipo de muestreo que se obtiene mediante sorteo de los individuos que la forman teniendo así, cada individuo la misma posibilidad de pertenecer a la muestra, permitiendo calcular el posible error de la muestra. De entre los que destacan, el muestreo aleatorio simple, el sistemático, el estratificado y el de conglomerados. 
No probabilística: tipo de muestreo en el que no es posible estimar la probabilidad de que cada individuo o elemento estará incluido en la muestra, además no permite el cálculo del posible error de la muestra. Pueden ser de tres clases: Accidental o incidental, por cuotas, intencional por conveniencia o de juicio.
El muestreo Aleatorio simple, es el tipo de muestreo en el cual todos y cada uno de los elementos de la población se elige de tal forma que tengan la misma posibilidad de ser seleccionados y pertenecer a la muestra. 

El muestreo Sistemático, se utiliza cuando el universo es de gran tamaño o ha de extenderse en el tiempo y requiere de una selección aleatoria inicial de observaciones seguida de otra selección de observaciones, obtenida mediante una constante denominada constante de sistematización  
Cs= N/n; donde    N = es el tamaño de la población y n = el tamaño de la muestra. 
Esta constante nos sirve para determinar cada cuántos elementos o cada cuánto tiempo se debe elegir el siguiente.
Ejemplo:
Para obtener una muestra de suscriptores telefónicos en una ciudad grande, puede obtenerse primero una muestra aleatoria de los números de las páginas del directorio telefónico; al elegir el vigésimo nombre de cada página obtendríamos un muestreo sistemático, también podemos escoger un nombre de la primera página del directorio y después seleccionar cada nombre del lugar número cien a partir del ya seleccionado. En este caso, podríamos seleccionar un número al azar entre los primeros 100; suponiendo que el elegido es el 40, entonces seleccionamos los nombres del directorio que corresponden a los números 40, 140, 240, 340 y así sucesivamente. 
El muestreo sistemático suele ser más preciso que el aleatorio simple, ya que recorre la población de un modo más uniforme.  

El muestreo Estratificado, involucra la división previa de la población en subgrupos, clases o estratos que se suponen más homogéneos, y a los cuales se le asigna una cuota que determina el número de miembros del estrato que compondrán la muestra, estos son escogidos mediante muestreo aleatorio simple. Según la cantidad de elementos de la muestra que se han de elegir de cada uno de los estratos, existen dos técnicas de muestreo estratificado: 
·         Asignación proporcional: el tamaño de cada estrato en la muestra es proporcional a su tamaño en la población.  
·         Asignación óptima: la muestra recogerá más individuos de aquellos estratos que tengan más variabilidad. Para ello es necesario un conocimiento previo de la población.  
Ejemplo:
Suponiendo un estudio sobre la población de estudiantes de una universidad, en el que a través de una muestra de 10 de ellos queremos obtener información sobre el uso del lápiz labial. Pero reflexionando sobre que el comportamiento de la población con respecto a esta característica no es homogéneo, podemos dividir a la población en dos estratos: 
Estudiantes masculinos 40%.
Estudiantes femeninos 60%.  
De modo que la asignación proporcional a esta muestra es en función de sus respectivos tamaños (6 varones y 4 mujeres).  
También se puede observar que el comportamiento de los varones con respecto a la característica en estudio es muy homogéneo y diferenciado del grupo de las mujeres que es muy variable.  De modo que la asignación óptima de una muestra de 10 alumnos, nos indica que es más conveniente elegir más individuos en los grupos de mayor variabilidad.  

Muestreo por conglomerados,se obtiene al dividir primero la población en grupos o conglomerados convenientes para el muestreo, seleccionando de cada uno de ellos una porción, al azar o por un método sistemático. Bajo este método, aunque no todos los grupos son muestreados, cada grupo tiene una igual probabilidad de ser seleccionado.  
Por lo tanto, la muestra es aleatoria. Una muestra por conglomerados, usualmente produce un mayor error muestral que una muestra aleatoria simple del mismo tamaño; sin embargo, puede ser obtenida dentro de un corto período de tiempo y a bajo costo. Además una muestra por conglomerados ofrece la misma precisión en la estimación que una muestra aleatoria simple, si la variación de los elementos individuales dentro de cada conglomerado es proporcionalmente tan grande como la de la población.

c) Parámetro:Es una constante que describe una característica de una población. Para poder calcular el valor de un parámetro, se requiere conocer a ciencia cierta el estado de naturaleza de la población o realizar un censo.

d) Valor estadístico o estadígrafos.- Son valores análogos a los parámetros, pero que son calculados con la información obtenida de la muestra. 
Los valores estadísticos son variables porque pueden tomar diferentes valores al cambiar de muestra.  Un valor estadístico estima al parámetro correspondiente.

e) Variables
Una variable es una característica que varía de elemento a elemento en una población en estudio. Por ejemplo, si nuestra población consta de personas entonces las siguientes son ejemplos de variables que podrían interesarnos: edad, peso, sexo, estatura, etc. Las variables pueden ser cuantitativas, cuando se realiza una medición, o pueden ser cualitativas, cuando solamente presentan una cualidad. La edad, el peso y la estatura son ejemplos de variables cuantitativas en una población de personas, mientras que el sexo y el estado civil son variables cualitativas.

·         Variables Cuantitativas o numéricas
Son aquellas que se identifican o se les puede asignar un valor numérico o que corresponden a aspectos que son medibles.  
Ejemplo: Tiempo de uso, precio, tamaño, velocidades, número de hijos de una familia, número de carros que circulan por determinada calle, alturas, pesos, tallas, temperaturas, tiempo de vida de una persona, cantidad de azúcar para endulzar un café, medida de sombreros, etcétera.  
Las variables cuantitativas o numéricas se dividen en: 
Variables cuantitativas Discretas: son aquellas que solamente toman valores enteros con rango finito.  
Ejemplo: Número de hijos en cada familia de una colonia de la ciudad, talla de calzado de cada alumno de un grupo escolar, la cantidad de alumnos por grupo, etc. 
Variable cuantitativa Continua: son aquellas que pueden tomar cualquier valor entre dos valores dados. Es decir, el rango contiene no sólo valores enteros sino un intervalo (finito o infinito) de valores reales (esto es, que puede ser fraccionario, decimal o irracional).  
Ejemplo: El tiempo de vida de una persona, la cantidad de azúcar para endulzar un café, el nivel de hemoglobina de los habitantes de una colonia, la temperatura ambiental durante un día, etcétera.

·         Variables Cualitativas o categóricas
Son aquellas a las que no se les puede asignar o identificar con un valor numérico, sino con un aspecto, cualidad o característica que las distinga y que no se pueden medir sino solo observar, a ese aspecto, cualidad o característica se le llama categoría. 
Ejemplos: Marca, tipo de sangre, deporte preferido,  el estado en general de cualquier cosa, idioma, nacionalidad, colores, cabello o piel, himnos nacionales, sexo, estado de ánimo, clima, etcétera.     
Las variables cualitativas o categóricas se dividen en:  
Variables Cualitativas Nominales: son aquellas a las que no se les puede asignar un orden, es decir que sólo permite clasificación en categorías por mención de ésta. 
Ejemplo: La nacionalidad de una persona, idioma, sexo, himnos nacionales. 
Variables Cualitativas Ordinales: son aquellas que además de clasificar a los elementos en distintas categorías les podemos asignar un orden o que podemos ordenar de acuerdo a cierta característica.  
Ejemplo: El estado de salud de una persona; que podemos ordenarla según la urgencia del caso, el color de algún objeto según la tonalidad desde muy clara a más oscuro; que podemos ordenarlo de acuerdo a la intensidad del color, el grado militar, puesto en la empresa, día de la mamá, meses del año, etcétera.

f) Distribución de frecuencias
La Distribución o Tabla de Frecuencias es la representación conjunta de los datos en forma de tabla o subgrupo de datos correspondientes a un fenómeno en estudio y su ordenamiento en base al número de observaciones que corresponden a cada dato o a cada grupo de datos, adecuados según cronología, geografía, análisis cuantitativo o cualitativo.  
Los principales elementos de una tabla estadística son: Título, unidades, encabezado, cuerpo o contenido, nota de pie y referencias.  
Se elabora colocando en la primera columna los datos diferentes o subgrupos de datos (llamados clases o intervalos de clase) y en la columna siguiente el número de observaciones que corresponden a cada dato o a cada grupo de datos (llamada frecuencia).  Una tabla de este tipo dará, en forma abreviada, una información completa acerca de la distribución de los valores observados.
Estas tablas facilitan el uso de los métodos gráficos y aritméticos. La presentación de los datos en forma ordenada, por medio de una tabla, dependerá de los datos de que se trate, y si estos son cualitativos o cuantitativos como se muestra a continuación: 
Ejemplo:

Frecuencia absoluta, absoluta acumulada, relativa y relativa acumulada.



Frecuencia Absoluta de un dato: Es el número de veces que se repite ese dato, también se presenta la frecuencia absoluta de un intervalo que se refiere al número de datos que pertenecen a ese intervalo. Se denota por f.

Frecuencia Absoluta Acumulada: Hasta un dato específico, es la suma de las frecuencias absolutas de todos los datos anteriores, incluyendo también la del dato mismo del cual se desea su frecuencia acumulada. De un intervalo es la suma de las frecuencias absolutas de todos los intervalos de clase anteriores,incluyendo la frecuencia del intervalo mismo del cual se desea su Frecuencia acumulada. La última frecuencia absoluta acumulada deberá ser igual al número total de datos. Se denota por: fa.

Frecuencia Relativa:De un dato, se obtiene al dividir la frecuencia absoluta de cada dato entre el número total de datos. De un intervalo se obtiene al dividir la frecuencia absoluta de cada intervalo entre el número total de datos. Se denota por: fr.

Frecuencia Relativa Acumulada: Hasta un dato específico de la observación, es la suma de las frecuencias relativas de todos los datos anteriores, incluyendo también la del dato mismo del cual se desea su frecuencia relativa acumulada de un intervalo es la suma de las frecuencias relativas de todos los intervalos de clase anteriores incluyendo la frecuencia del intervalo mismo del cual se desea su frecuencia relativa acumulada. La última frecuencia relativa acumulada deberá ser igual a la unidad. Se denota por: fra.

Construcción de distribución o tabla de frecuencias para datos no agrupados y agrupados.

Datos no agrupados
Consideraremos a cada uno de los distintos datos que se presentan en la muestra y los denotaremos por Xi, y al número total de datos diferentes lo denotaremos por n.
Ejemplo:

 Datos agrupados
Cuando el tamaño de la muestra es considerable o grande y los datos numéricos son muy diversos (n>15), conviene agrupar los datos de tal manera que permita establecer patrones, tendencias o regularidades de los valores observados. De esta manera podemos ordenar los datos tabulando las frecuencias asociadas a ciertos intervalos de los valores observados.

-     Intervalos de Clase:Son los intervalos en los que se agrupan y ordenan los valores observados. Cada uno de estos intervalos está delimitado (acotado) por dos valores extremos que les llamamos límites.

Pasos para construir intervalos de frecuencia.

Primero:Determinar la cantidad de intervalos apropiada: La selección del número adecuado de intervalos y los límites entre ellos dependen del criterio o experiencia de quien realiza el estudio. Sin embargo, existen reglas empíricas para calcular el número de intervalos; la más empleada es la Regla de Sturges, cuya expresión es:

K= 1 + 3.3 Log n

Dónde:
K=Número de intervalos el cual siempre debe ser un número entero. Razón por la cual se deberá redondear el resultado al entero más cercano.
n= Número de datos.
Log = logaritmo en base 10.

Otra regla utilizada es la de Vellemanque establece que el número de Intervalos se obtiene de la raíz cuadrada del número de datos; es decir K= √n,recomendable para tamaños de muestra pequeños (n< 50)

El número de intervalos determinado mediante cualquier regla se aproxima al valor entero más cercano pero deberá ser responsabilidad de quien realiza el estudio, pudiendo utilizar éste en ocasiones uno menor o mayor al obtenido por cualquier regla, si esto le permite tener intervalos con la misma amplitud. Sin embargo, la mayoría de las reglas subestiman el número de intervalos.

Segundo:Calcular el rango de los datos.
Se le llama rango al número de unidades de variación presente en los datos recopilados y se obtiene de la diferencia entre el dato mayor y el dato menor. Se representa con la letra R.

R= Dato mayor -  dato menor

Tercero:Obtención de la amplitud o anchura que tendrá cada intervalo.
Se encuentra dividiendo el rango por el número de intervalos regularmente es de 5 a 6. Y se representa con la letra A. Se denota por:  A= R/K

Cuarto:Construcción de los intervalos.

Los pasos son los siguientes:

a) El primer intervalo se construye de la siguiente manera: Se inicia con el dato menor, el cual será el extremo inferior del intervalo; el otro extremo se obtiene de la suma del dato menor y la amplitud, con este mismo valor iniciamos el segundo intervalo, del cual el segundo extremo se encuentra sumando al valor anterior la amplitud y este proceso se repite sistemáticamente hasta completar el total de intervalos indicado por la regla elegida, por ejemplo la de Sturges.

b) Los valores extremos o límites de intervalo: Los intervalos de clase deben estar definidos por límites que permitan identificar plenamente si un dato pertenece a uno u otro intervalo. Estos límites son los valores extremos de cada intervalo.
Límite inferior: Es el valor menor de cada intervalo, se denota por Li
Límite superior: Es el número mayor de cada intervalo, se denota por Ls

c) Calcular la Marca de Clase (MC) de cada intervalo: Se refiere al Punto Medio del intervalo y a través de él representaremos a todo el intervalo y una de las maneras de calcularla es promediando los valores límite de cada intervalo, su fórmula es: MC =Li + Ls / 2

Ejemplo:

Un grupo de investigadores pertenecientes a la secretaría de seguridad pública, tomó una muestra aleatoria de las velocidades (km/h) registradas por 30 vehículos en el trayecto Lima - Piura, con el fin de establecer nuevos límites máximos de velocidad para una carretera. La muestra arrojo los datos siguientes:

90, 99, 104, 99, 119, 98, 95, 112, 95, 120, 100, 90, 116, 96, 114, 108, 98, 118,100, 106, 114, 100, 112, 106, 100, 115, 111, 105, 114, 97

Paso N°1: Ordenar de menor a mayor.

90, 90, 95, 95, 96, 97, 98, 98, 99, 99, 100, 100, 100, 104,
105,106, 108, 111, 112, 112, 114, 114, 115, 116, 118, 119, 120

Paso N°2: Obtener el número de intervalos para lo cual se aplicara la Regla de Sturges.

K = 1 + 3.3Log (30) = 1+ 3.3 (1.4771212547) =1+ 4.87 = 5.87 6

Paso N°3: Calcular el rango de variación.

R = 120 – 90 = 30

Paso N°4: Obtener la amplitud de cada intervalo de clase.
Ac= 30/6= 5

Paso N°5: Construir los intervalos.

El primero de ellos inicia con 90 que es el extremo inferior que, sumado a 5 obtenemos 95, que será el extremo superior; este extremo será el inferior del segundo intervalo; y al sumar nuevamente la amplitud tendremos 100 que será el extremo superior y así sucesivamente hasta completar los 6 intervalos., que se muestran:

[90 – 95), [95 – 100), [100 – 105), [105 – 110), [110 – 115) y [115 – 120]

Para la construcción de distribuciones de frecuencias, aplicaremos las fórmulas que anteriormente se explicaron.
A continuación se presenta la tabla de resumen de la muestra:
g) RepresentaciónGráfica

Los gráficos como un vehículo de presentación y herramienta en la estadística, que permite conocer los resultados de un hecho observable de todas las tendencias presentes con los datos obtenidos y hacer el análisis del estudio y tomar decisiones.
Los gráficos son muy útiles como apoyo e incluso sustitutos de las tablas o distribuciones y como una herramienta para el análisis de los datos, lo que los convierte en el medio más efectivo para la presentación, descripción, resumen y análisis de la información.
Para variables discretas (datos no agrupados) las de: Barras y circulares o de pastel; y para variables continuas (datos agrupados) el histograma, polígono de frecuencias y ojiva. Estos gráficos no son los únicos para la presentación y análisis de datos estadísticos.

Gráfica de Barras:
Es un método gráfico que consta de dos ejes: Uno horizontal, en el que se representan los valores (Eje de los datos) utilizando barras verticales en forma rectangular y de la misma amplitud, y un eje vertical, en el cual la frecuencia representa la altitud que tendrá la barra rectangular (Eje de las frecuencias), las barras van separadas la misma distancia unas de otras y para distinguirlas puede utilizarse distintos colores o entramados según se considere.

Ejemplo:
Gráfica Circular o de Pastel:
Este gráfico se utiliza fundamentalmente, para representar distribuciones de frecuencias relativas (es decir, porcentajes % o proporciones) haciendo corresponder la medida de la frecuencia relativa con la medida del ángulo en grados; es decir, si el 100 % de los datos son 360º de la circunferencia.

Ejemplo: 
Histograma:
Es una gráfica en forma de barras que consta de dos ejes, uno horizontal, llamado eje de la variable en observación y un eje vertical llamado eje de las frecuencias.

Ejemplo:
Polígono de Frecuencias:
Es una gráfica del tipo de las gráficas de líneas trazadas sobre las marcas de clase, (de ahí el nombre de polígono), y se traza uniendo con segmentos de recta, de izquierda a derecha, las parejas ordenadas que se forman, al considerar como abscisa la marca de clase (eje horizontal) y como ordenada la frecuencia del intervalo representado (eje vertical); la primera y última parejas ordenadas se unen mediante un segmento de recta al eje horizontal, con las que serían la marca de clase anterior y posterior respectivamente si estas existieran. Este tipo de gráfico adquiere mayor importancia cuando se quiere mostrar en un mismo gráfico más de una distribución o una clasificación cruzada de una variable continúa con una discreta, situación que no se puede observar en uno de los gráficos presentados anteriormente por la forma de construcción del mismo gráfico.


Ejemplo: 
Gráfica de Frecuencias Acumuladas u Ojiva:
Es un gráfico que igual al histograma y polígono de frecuencias se utiliza para el análisis y representación de variables continuas, sólo que en vez de utilizar las frecuencias absolutas, por sus características se construye uniendo con segmentos de recta, de izquierda a derecha, las parejas ordenadas que se forman, al considerar como abscisa los límites superiores de cada intervalo (eje horizontal) y como ordenada las frecuencias relativas acumuladas hasta cada intervalo representado (eje vertical). Existen dos tipos de ojivas, las llamadas de mayor que, iniciando en la frecuencia más alta 1 hacia la más baja 0 y las llamadas de menor que, iniciando en la frecuencia más baja 0 hacia la más alta 1.

El gráfico ojiva representa mayor importancia cuando se trata de comparar las observaciones de una misma característica en dos experimentos distintos, ya que no se puede ejecutar comparaciones sobre frecuencias absolutas, es necesario una comparación sobre frecuencias relativa; además permite ver cuántas observaciones se hallan por arriba o debajo de ciertos valores establecidos.

Ejemplo: 




Medidas de centralización



Las medidas de tendencia central, de centralización o posición facilitan la  interpretación de información sobre un conjunto o serie de datos que se están analizando, una vez que estos datos fueron recopilados u organizados, ya sea en una investigación documental o en una investigación de campo.

Entre ellos tenemos:

I. Medidas de centralización para datos no agrupados

a) Media Aritmética:La medida más evidente que podemos calcular para describir un conjunto de observaciones numéricas es su valor medio. La media no es más que la suma de todos los valores de una variable dividida entre el número total de datos de los que se dispone. Siendo su fórmula:



Ejemplo:

Se considera 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60, 71, y 80. La media de edad o edad media de estas personas será de: 


b) Mediana: En esta medida, los datos u observaciones equidistantes o que se encuentran más en medio de todo el conjunto de datos.
Del ejemplo anterior, para obtener la mediana de los datos, primero ordenamos en forma ascendente o descendente observando la siguiente secuencia de datos:

15, 21, 32, 59, 60, 60,61, 64, 71, 80

Como podemos observar el número de datos es de 10 personas, los dos valores que se encuentran en medio son 60 y 60. Por lo tanto la mediana de los datos será 60 años, ya que este dato se encuentra más al medio.

Nota:Si la media y la mediana son iguales, la distribución o conjunto de datos de la variable es simétrica. Sin embargo, la media es muy sensible a la variación de las puntuaciones, y la mediana es menos sensible a dichos cambios.

c) La moda :Se suele definir como el valor más frecuente. En el caso de una variable no agrupada, es el valor de la variable que más se repite.

En el caso del ejemplo anterior 15, 21, 32, 59, 60, 60, 61, 64, 71, 80.

La moda será: 60 años (Unimodal)

Ejemplo N°1:

Determinar la moda del siguiente conjunto de datos
1, 2, 3, 4, 4, 5, 2, 1, 3, 4, 2, 3, 4, 6, 3

Datos ordenados: 1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4, 5, 6.

La moda será:3 y 4 (Bimodal)

Ejemplo N°2:

Determinar la moda del siguiente conjunto de datos
1, 2, 3, 4, 5, 6, 7, 8, 9

En este caso, como ningún dato se repite será amodal.
Nota: En el caso que tenga más de dos modas, se le llamará polimodal.

II. Medidas de centralización para datos agrupados

a)Media aritmética para datos agrupados
Para calcular esta medida de centralización o tendencia central se tomaran en cuenta las frecuencias absolutas y la marca de clase de cada clase; mediante la siguiente fórmula:


Ejemplo:




b) Mediana para datos agrupados.
Para calcular esta medida de centralización se utilizara la siguiente fórmula:
 






















c) Moda para datos agrupados.
Para calcular la moda, en una distribución de frecuencias absolutas, observaremos la columna de las frecuencias absolutas, después escogeremos la frecuencia mayor de todas ellas.
















Medidas de variabilidad o dispersión



Se llaman medidas de dispersión o variabilidad a aquellas que permiten retratar la distancia de los valores de la variable a un cierto valor central, o que permiten identificar la concentración de los datos en un cierto sector del rango de la variable.
Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo, las medidas de dispersión nos dicen hasta qué punto estas medidas de tendencia central son representativas como síntesis de la información. Las medidas de dispersión cuantifican la separación, la dispersión, y la variabilidad de los valores de la distribución respecto al valor central.
Se distingue:

1. Medidas de Variabilidad o Dispersión Absolutas
a) Rango (R): Es una medida razonable de Variabilidad llamada también en algunas ocasiones amplitud y que se obtiene restando el valor más bajo de un conjunto de observaciones del valor más alto. 

b) Desviación Media: Se define como la media de las diferencias en valor absoluto de los valores de la variable a la media (D.M.); es decir, que se define como desvió que es la diferencia que se observa entre la variable y la media aritmética.
c) Varianza: cuyo símbolo es ( ), es la media de las desviaciones al cuadrado, calculada usando n o n-1 como divisor.



d) Desviación típica o Standard: cuyo símbolo es (S), es simplemente la raíz cuadrada de la varianza.

2. Medidas de dispersión relativas

a) Coeficientes de variación:
Estas dispersiones relativas van a permitir además comparar la dispersión entre diferentes muestras (con unidades diferentes). Entre estas medidas hay que destacar el coeficiente de variación de Pearson, definido como el cociente entre la desviación típica y la media aritmética.







Medidas de posición: cuartiles, deciles y percentiles


Como se señaló anteriormente, la mediana divide a la muestra en dos mitades iguales. Sin embargo existen otras formas de dividir a la muestra en otras partes como los cuartiles, deciles y percentiles.

a) Los cuartiles: Dividen a  la muestra en cuatro partes iguales. Así el primer cuartil Q1/4 será la medida tal que el 25% de los datos sean inferiores a su valor y el 75% de los datos sean superiores. El segundo cuartil Q2/coincide con la mediana, mientras que el tercer cuartil Q3/4 marca el valor tal que las tres cuartas partes de las observaciones sean inferiores a él y una cuarta parte sea superior. La forma de calcular los cuartiles es: Q1/4,Q2/4 y así sucesivamente.


b) Los deciles: Son aquellos valores de la variable que dividen la muestra, ordenada, en 10 partes iguales. Estos valores son denotados por Dk (con k = 1, 2, 3, 4,…9)

c) Los percentiles: También llamados centiles, como aquellos valores Pk(con k = 1, 2,. . .,99) que dividen la muestra en 100 partes iguales.





Medidas de forma de la curva de datos

Las medidas de forma permiten comprobar si una distribución de frecuencia tiene características especiales como simetría, asimetría, nivel de concentración de datos y nivel de apuntamiento que la clasifiquen en un tipo particular de distribución.  Es decir,  permiten identificar si una distribución de frecuencia presenta uniformidad.
Las medidas de forma son necesarias para determinar el comportamiento de los datos y así, poder adaptar herramientas para el análisis probabilístico.

Tipos de distribución

a) Distribución simétrica 
Se obtiene cuando al dividir una distribución de frecuencia mediante la mediana, ambas áreas resultantes son iguales, es decir, los datos se distribuyen de la misma forma y el área abarcada por ambos lados es equivalente (50% de los datos se encuentran distribuidos en ambas secciones). Tenemos:
1. Distribución simétrica: Los datos se concentran hacia el centro de la distribución. Existe una distribución simétrica con características muy definidas conocida como distribución Normal.


2.  Distribución Uniforme: Las frecuencias tienen todas las mismas alturas.

3. Distribución Triangular: Los datos se distribuyen dando forma a un triángulo.


4.  Distribución Binomial Simétrica: Presenta simetría con dos modas.
b) Distribución asimétrica 
Los datos no se distribuyen de forma uniforme y similar en las áreas que dan como resultado al dividir la distribución de frecuencia por la mediana.

1. Distribución Sesgada hacia la Izquierda: Los datos se concentran hacia la izquierda de la distribución.


2. Distribución Sesgada hacia la Derecha: Los datos se concentran hacia la derecha de la distribución.
3. Distribución asimétrica: No presenta uniformidad en la distribución de los datos.

Coeficiente de asimetría
Mide el grado de asimetría de la distribución con respecto a la media.  Un valor positivo de este indicador significa que  la distribución se encuentra sesgada hacia la izquierda (orientación positiva).  Un resultado negativo significa que la distribución se sesga a la derecha.


Curtosis

Indica que tan apuntada o achatada se encuentra una distribución respecto a un comportamiento normal (distribución normal). Si los datos están muy concentrado hacia la media, la distribución es leptocúrtica (curtosis mayor a 0). Si los datos están muy dispersos, la distribución es platicúrtica (curtosis menor a 0). El comportamiento normal exige que la curtosis sea igual a 0 (distribución mesocúrtica).


Formula:



Bibliografía

Libros
1.  Batanero, C. (2001). Didáctica de la Estadistica. Granada: Facultad de Ciencias Universidad de Granada. España.
2.  Instituto Nacional de Estadistica y Geografía. (2011). Epoca antigua: Historia de la Estadística mundial. Mexico.
3. Gorgas García, J.; Cardiel López, N. y Zamorano Calvo, J. (2011). Estadística básica para estudiantes de ciencias. Primera edición. Madrid. Departamento de Astrofísica y Ciencias de la Atmósfera Facultad de Ciencias Físicas Universidad Complutense de Madrid.
4. Camacho Rosales, J. (2003) Aplicaciones Estadísticas en Ciencias Sociales. Departamento de Didáctica e Investigación Educativa y del Comportamiento. Universidad de la Laguna.

Páginas web
1.   Medidas de forma

2.   Medidas de forma y concentración


No hay comentarios:

Publicar un comentario