sábado, 23 de mayo de 2009

DIAGRAMA DE TALLOS Y HOJAS

Diagrama de

tallo y hojas

image


Un diagrama donde cada valor de datos es dividido en una "hoja" (normalmente el último dígito) y un "tallo" (los otros dígitos). Por ejemplo "32" sería dividido en "3" (tallo) y "2" (hoja).

Los valores del "tallo" se escriben hacia abajo y los valores "hoja" van a la derecha (o izquierda) del los valores tallo.

El "tallo" es usado para agrupar los puntajes y cada "hoja" indica los puntajes individuales dentro de cada grupo.

Es una técnica estadística para representar un conjunto de datos. Cada valor numérico se divide en dos partes. El o los dígitos principales forman el tallo y los dígitos secundarios las hojas. Los tallos están colocados a lo largo del eje vertical, y las hojas de cada observación a lo largo del eje horizontal.

Ejemplo

La siguiente distribución de frecuencia muestra el número de anuncios comerciales pagados por los 45 miembros de Greater Buffalo Automobile Dealer´s Association en 1999. Observemos que 7 de los 45 comerciantes pagaron entre 90 y 99 anuncios (pero menos de 100). Sin embargo, ¿El numero de comerciantes pagados en esta clase se agrupan en alrededor de 90, están dispersos a lo largo de toda clase, o se acumulan alrededor de 99? No podemos saberlo.

            # De anuncios comprados                     Frecuencia

80 a 90 2

90 a 100 7

100 a 110 6

110 a 120 9

120 a 130 8

130 a 140 7

140 a 150 3

150 a 160 3

sumatoria de la frecuencia= 45

Una técnica que se usa para presentar información cuantitativa en forma condensada es el diagrama de tallo y hoja. En el ejemplo anterior no se da la identidad de los valores de la clase de 90 a 100. Para ilustrar la construcción de un diagrama de tallo y hojas usando el número de comerciales comprados, supongamos que las 7 observaciones en la clase de 90 a 100 sean 96, 94, 93, 94, 95, 96, 97. EL valor de tallo es el digito o dígitos principales, en este caso el 9. Las hojas son los dígitos secundarios. EL tallo se coloca a la izquierda de una línea vertical y los valores de las hojas a la derecha.

Los valores de las clases de 90 a 100, aparecerían como sigue:

9 | 6 4 3 4 5 6 7

Por ultimo, ordenamos los valores dentro de cada tallo de menor a mayor. El segundo renglón del diagrama de tallo y hojas aparecería como sigue:

9 | 3 4 4 5 6 6 7

Con el diagrama de tallo y hojas podemos observar rápidamente que hubo 2 comerciantes que compraron 94 comerciales y que el número de anuncios comprados fue desde 93 hasta 97. Un diagrama de tallo y hojas es semejante a una distribución de frecuencia, pero con más información, esto es, valores de datos en lugar de marcas.



DIGRAMA DE CAJAS

Diagrama de caja (Box-Plot)

Un diagrama de caja es un gráfico, basado en cuartiles, mediante el cual se visualiza un conjunto de datos. Está compuesto por un rectángulo, la caja, y dos brazos, los bigotes.

Es un gráfico que se suministra información sobre los valores mínimo y máximo, los cuartiles Q1, Q2 o mediana y Q3, y sobre la existencia de valores atípicos y simetría de la distribución.

Como dibujarlo

                            +-----+-+ 
* o |-------| | |---|
+-----+-+

+---+---+---+---+---+---+---+---+---+---+---+---+
0 1 2 3 4 5 6 7 8 9 10 11 12
  • Ordenar los datos y obtener el valor mínimo, el máximo, los cuartiles Q1, Q2 y Q3 y el rango intercuartil (IQR)

En el ejemplo: Valor 7: es el Q1 (25% de los datos) Valor 8.5: es el Q2 o mediana (el 50% de los datos) Valor 9: es el Q3 (75% de los datos) Rango intercuartil IQR (Q3-Q1)=2

  • Dibujar un rectángulo con Q1 y Q3 como extremos e indicar la posición de la mediana (Q2) mediante una línea.
  • Para dibujar los bigotes, las líneas que se extienden desde la caja, hay que calcular los límites superior e inferior, Li y Ls, que identifiquen a los valores atípicos.

Para ello se calcula cuando se consideran atípicos los valores. Son aquellos inferiores a Q1-1.5*IQR o superiores a Q3+1.5*IQR. En el ejemplo: inferior: 7-1.5*2=4 superior: 9+1.5*2=12 Ahora se buscan los úl

timos valores que NO son atípicos, que serán los extremos de los bigotes. En el ejemplo: 5 y 10

  • Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls).

En el ejemplo: 0.5 y 3.5 Pero además



se puede

n considerar valores extremadamente atípicos a los que exceden Q1-3*IQR o Q3+3*IQR. De tal modo que, en el ejemplo: inferior: 7-3*2=1 superior: 9+3*2=15 El valor 0.5 seria atípico extremo y 3.5 sería atípico


LOS DIAGRAMAS DE CAJAS Y BIGOTES

Los diagramas de cajas y bigotes –también llamados boxplots o box and whiskers – son representaciones gráficas de una distribución estadística unidimensional en las que se reflejan cinco parámetros: límite inferior, primer cuartil, mediana, tercer cuartil y límite superior. A partir de estos cinco parámetros se pueden obtener fácilmente otros dos: el rango y el rango intercuartílico. Además, también dan una medida de la simetría o asimetría de la distribución, del sesgo y de la dispersión.
Se observa que:
1. El bigote de la izquierda es algo más corto que el de la derecha, lo que indica que las calificaciones de la cuarta parte más baja de la clase están algo más concentradas que las calificaciones de la cuarta parte que las tienen más altas.
2. También se observa que la parte izquierda de la caja, que corresponde a los alumnos que han obtenido calificaciones entre el 25% y el 50% es menor que la de la derecha, lo que indica que las calificaciones de estos últimos alumnos están más dispersas.
3. Es fácil ver que el rango es: Ls - Li = 9 – 3 = 6

Y el rango intercuartílico es: Q3 -

Q1=6,5– 4,5 = 2

También se observa que la distribución es asimétrica y ligeramente sesgada hacia la

derecha.


COVARIANZA

Covarianza



El análisis de la covarianza o ANCOVA, acrónimo del inglés analysis of covariance, es un modelo lineal general con una variable cuantitativa y uno o más factores. El ANCOVA es una fusión del ANOVA y de la regresión lineal múltiple. Es un procedimiento estadístico que permite eliminar la heterogeneidad causada en la variable de interés (variable dependiente) por la influencia de una o más variables cuantitativas (covariables). Básicamente, el fundamento del ANCOVA es un ANOVA al que a la variable dependiente se le ha eliminado el efecto predicho por una o más covariables por regresión lineal múltiple. La inclusión de covariables puede aumentar la potencia estadística porque a menudo reduce la variabilidad. la covarianza es una medida de dispersión conjunta de dos variables estadísticas

La covarianza S(X,Y) de dos variables aleatorias X e Y se define como:

S_{xy} = \frac 1n \sum_{i=1}^n { (x_i - \overline{x})(y_i - \overline{y})}
  • Si Sxy > 0 hay dependencia directa (positiva), es decir, a grandes valores de x corresponden grandes valores de y.
  • Si Sxy = 0 Una covarianza 0 se interpreta como la no existencia de una relación lineal entre las dos variables estudiadas.
  • Si Sxy <> hay dependencia inversa o negativa, es decir, a grandes valores de x corresponden pequeños valores de y.

La matriz de covarianza ΣXY de dos variables aleatorias n-dimensionales expresadas como vectores columna X=(X_1,\ldots,X_n)^t e Y=(Y_1,\ldots,Y_n)^t se define como:

S_{XY}={\operatorname{E}([X - \operatorname{E}(X)][Y - \operatorname{E}(Y)]^t)}

covarianza o ANCOVA, acrónimo del inglés analysis of covariance, es un modelo lineal general con una variable cuantitativa y uno o más factores. El ANCOVA es una fusión del ANOVA y de la regresión lineal múltiple. Es un procedimiento estadístico que permite eliminar la heterogeneidad causada en la variable de interés (variable dependiente) por la influencia de una o más variables cuantitativas (covariables). Básicamente, el fundamento del ANCOVA es un ANOVA al que a la variable dependiente se le ha eliminado el efecto predicho por una o más covariables por regresión lineal múltiple. La inclusión de covariables puede aumentar la potencia estadística porque a menudo reduce la variabilidad.

CORRELACION CUADRATICA

Una de las tres medidas de ajuste calculadas por ALSCAL. RSQ es la más fácil de entender, pero ALSCAL no la optimiza. RSQ es la correlación cuadrática entre las disparidades y las distancias. Las disparidades son los datos, después de haber sido transformadas óptimamente para maximizar la medida S-STRESS. Las distancias son generadas por el modelo. Así, RSQ mide el ajuste del modelo a los datos transformados. Indica la proporción de la varianza de los datos transformados que es explicada por las distancias del modelo. RSQ es una medida de bondad de ajuste, con un valor de 1 para un ajuste perfecto y un valor de 0 para la falta total de ajuste.

REGESION LINEAL

Regresión lineal

Artículo bueno Wikipedia:Artículos buenos
Ejemplo de una regresión lineal con una variable dependiente y una variable independiente.

En estadística la regresión lineal o ajuste lineal es un método matemático que modeliza la relación entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:

Y = \beta_0  + \beta_1 X_1 + \beta_2 X_2 +  \cdots +\beta_p X_p + \varepsilon

donde β0 es la intersección o término "constante", las βi son los parámetros respectivos a cada variable independiente, y p es el número de

parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal.

CORRELACION

Correlación


la correlación indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los de B y viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad.


Fuerza, sentido y forma de la correlación

La relación entre dos super variables cuantitativas queda representada mediante la línea de mejor ajuste, trazada a partir de la nube de puntos. Los principales componentes elementales de una línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el sentido y la forma:

  • La fuerza extrema segun el caso, mide el grado en que la a representa a la nube de puntos: si la nube es estrecha y alargada, se representa por una línea recta, lo que indica que la relación es fuerte; si la nube de puntos tiene una tendencia elíptica o circular, la relación es débil.
  • El sentido mide la variación de los valores de B con respecto a A: si al crecer los valores de A lo hacen los de B, la relación es positiva; si al crecer los valores de A disminuyen los de B, la re lación es negativa.

Coeficientes de correlación

Existen diversos coeficientes que miden el grado de correlación, adaptados a la naturaleza de los datos. El más conocido es el coeficiente de correlación de Pearson (introducido en realidad por Francis Galton), que se obtiene dividie

ndo la covarianza de dos variables por el producto de sus desviaciones estándar. Otros coeficientes son:

Interpretación geométrica

Ambas series de valores X (x_1, \ldots, x_n) e Y (y_1, \ldots, y_n) pueden estar consideradas como vectores en un espacio a n dimensiones. Reemplacemoslos por vectores centrados:

X (x_1 - \bar x, \ldots, x_n - \bar x) e Y (y_1 - \bar y, \ldots, y_n - \bar y).


El coseno del ángulo alfa entre estos vectores es dada por la fórmula siguiente :

 cos(\alpha) = \dfrac{\displaystyle \sum_{i=1}^N (x_i - \bar x)\cdot(y_i - \bar y)}{\sqrt{\displaystyle \sum_{i=1}^N (x_i - \bar x)^2}\cdot\sqrt{\displaystyle \sum_{i=1}^N (y_i - \bar y)^2}}

Pues cos(α) es el coeficiente de correlación de

Pearson.

¡ El coeficiente de correlación es el coseno entre ambos vectores centrados!

Si r = 1, el ángulo α = 0°, ambos vectores son colineales (paralelos).
Si r = 0, el ángulo α = 90°, ambos vectores son ortogonales.
Si r =-1, el ángulo α = 180°, ambos vector es son colineales de dirección opuesto.
Más generalmente : α = arcCos(r).

Por supuesto, del punto vista geométrica, no hablamos de correlación lineal: el coeficiente de correlación tiene siempre un sentido, cualquiera que sea su valor entre -1 y 1. Nos informa de modo preciso, no tanto sobre el grado de dependencia entre las variables, que sobre su distancia angular en la hyperesfera a n dimensiones.

TABLAS DE DOBLE ENTRADA

En una tabla de doble entrada, los datos se muestran en columnas y filas al igual que en las tablas. Sin embargo, en comparación con las tablas, cada columna tiene por lo menos un encabezado y cada fila tiene por lo menos un encabezado de fila. Los datos correspondientes aparecen en la intersección de los encabezados de la columna y la fila: esta sección corresponde al "cuerpo".

El ejemplo de la tabla de doble entrada muestra el volumen de negocios por prestación y por trimestre. Los rótulos de las prestaciones son encabezados de fila y, los rótulos de trimestre son encabezados de columna. El volumen de negocios para cada prestación para cada trimestre aparece en el cuerpo.

Para entender la disposición de los elementos en una tabla de doble entrada, imagínese la tabla de doble entrada como un bloque terminado. Los objetos que se colocan en el cuadrante inferior izquierdo de la tabla de doble entrada proporcionan los datos para los encabezados de fila; los objetos colocados en el cuadrante superior derecho proporcionan los datos para los encabezados de columna, y los objetos del cuadrante inferior derecho proporcionan los datos para el cuerpo de la tabla. No puede colocar ningún objeto en el cuadrante superior izquierdo.



Uso

Presentación de la información en un formato multidimensional de filas y columnas, donde cada elemento está asociado a otro. Por ejemplo, un tipo de prestación podría estar asociado a un centro de vacaciones en particular.



Importante

  • Organice los objetos en el orden en que desea que aparezcan en el bloque.
  • Depende de si el documento contiene secciones o no, la disposición del cuerpo de la tabla de doble entrada corresponde siempre a la organización de los objetos del panel Bloque.
  • Los objetos de tipo indicador no se pueden utilizar en los encabezados verticales u horizontales; sólo se pueden utilizar en el cuerpo de la tabla de doble entrada.
  • Puede utilizar más de un objeto en el cuerpo de la tabla de doble entrada.
  • Puede utilizar varios objetos en los encabezados verticales u horizontales.
    Por ejemplo, podría utilizar los objetos Tipos de prestaciones y Prestaciones en un encabezado, de modo que tanto el tipo de prestaciones como las prestaciones se muestren en la tabla de doble entrada.
  • Los objetos no tienen que formar parte de la misma clase. Por ejemplo, podría utilizar los objetos Tipo de prestaciones y Centro de vacaciones para mostrar información por tipo de prestaciones por centro de vacaciones.

MEDIDAS DE FORMA

medidas de forma permiten comprobar si una distribución de frecuencia tiene características especiales como simetría, asimetría, nivel de concentración de datos y nivel de apuntamiento que la clasifiquen en un tipo particular de distribución.

Las medidas de forma son necesarias para determinar el comportamiento de los datos y así, poder adaptar herramientas para el análisis probabilístico.

Medidas de forma: Son indicadores estadísticos que permiten identificar si una distribución de frecuencia presenta uniformidad.

En este capitulo analizaremos dos medidas de forma:

  • Coeficiente de asimetría

  • Curtosis

Antes de empezar con cada uno de estos indicadores, analizaremos los tipos más comunes de distribución de frecuencia y la relación media, mediana y moda como primera medida para identificar el grado de asimetría en una distribución de frecuencia.


Un sesgo es un error que aparece en los resultados de un estudio debido a factores que dependen de la recolección, análisis, interpretación, publicación o revisión de los datos que pueden conducir a conclusiones que son sistemáticamente diferentes de la verdad o incorrectas.




















la curtosis es el coeficiente de apuntamiento (concentrado en torno al pico máximo) de la distribución de probabilidad de una variable aleatoria de número real.

El cuarto momento estándar se define como \frac{\mu_4}{\sigma^4}, donde μ4 es el 4º momento centrado sobre la media y σ es la desviación estándar. Esta es la definición de curtosis que se suele emplear en libros antiguos, pero no es la que se expondrá aquí.

Comúnmente se define la curtosis como

\gamma_2 = \frac{\kappa_3}{\kappa_2^2} = \frac{\mu_3}{\sigma^3} - 3, \!

también conocida como exceso de Andre. La sustracción del 3 al final de la fórmula se explica generalmente como una corrección que se hace a la curtosis de una distribución normal igual a cero. Otra razón se obtiene examinando la fórmula de la curtosis de la suma de variables aleatorias. Si Y es la suma de n variables aleatorias estadísticamente independientes, todas con igual distribución X, entonces Kurt[Y] = \frac{Kurt[X]}{n}

, complicándose la fórmula si la curtosis se hubiese definido como \frac{\mu_4}{\sigma^4}.



viernes, 22 de mayo de 2009

CUARTILES, DECILES Y PERCENTILES






Los cuartiles, deciles y percentiles

Son tres el primer cuartil que se representa por Q1; el segundo cuartil que se representa Q2; y el tercer cuartil que se representa Q3; el cuarto cuartil no tiene representación, porque es el último valor de la escala e indica la totalidad de los casos.






Un conjunto de puntajes o mediciones puede dividirse en un cierto número de partes iguales mediante la selección de valores que correspondan a una posición determinada en dicho conjunto. Por ejemplo, la mediana divide a un conjunto de valores dados en dos partes iguales, y su posición es, en consecuencia, a la mitad del mismo. De manera que 50% de los puntajes quedan a uno u otro lado valor estadístico.
En general, se llaman cuantiles (o "cuantilas") a estos valores con posición divisora determinada. Pueden considerarse los siguientes cuantiles, además de la mediana:
a) cuartil (o "cuartila")
b) decil (o "decila")
c) centil (o "centila")
que son respectivamente, los cuantiles que corresponden a la división en 4, 10, y 100 partes iguales del conjunto dado. A continuación se describen estos valores característicos.
Cuartiles. Son los puntos que dividen a una distribución de valores en cuatro porciones iguales o intervalos. Se representan por , , y se ilustran en el esquema siguiente:

Deciles. Son los cuantiles que dividen una distribución en 10 tantos o intervalos, por lo que se tienen 9 puntos de división, los deciles, que originan los 10 intervalos.
Los deciles, que se representan por pueden ser marcados en una gráfica como la siguiente:

Centiles o porcentiles. *Generalmente los puntajes no elaborados o burdos (los que se obtienen en forma directa al aplicar una prueba psicológica o, en general, cualquier medición), no indican nada en lo relativo al desempeño de las personas, y del lugar que ocupan con respecto al resultado de dicha prueba (o bien, de la medición de que se trate) con respecto al grupo al cual pertenecen. Por consiguiente, es necesario utilizar varios procedimientos estadísticos, los cuales serán útiles para describir el puntaje o calificación de un individuo particular en relación con otros valores.
Un procedimiento muy adecuado para la comprensión global de los datos obtenidos en un test psicológico o en una prueba de conocimientos, comprensión, etc., es determinar los denominados centiles. El centil de una distribución es el valor dado abajo del cual queda el porcentaje indicado de los valores del conjunto. Un centil indica, entonces, la posición de un puntaje en una distribución porcentual (o en términos de porcentajes). Por ejemplo, si un estudiante obtuvo una calificación que fue más alta que el 70% de los puntajes en la distribución de estas calificaciones, pero no superior al 71%, el centil correspondiente será entonces el de número 70. En otras palabras a tal estudiante le corresponde el "70º (septuagésimo) centil".
Cuando se emplea el término centil, se refiera siempre a un punto en una distribución de puntajes o valores, por abajo del cual queda un porcentaje dado en los casos; así, el centil 45 de un conjunto total de 100 puntos, es un valor o punto por debajo del cual quedan 45 calificaciones. Un centil se representa por (o por si se utiliza el término porcentil).
Para encontrar cuartiles y porcentiles puede emplearse el mismo razonamiento que se usa para la mediana. El primer cuartil (notación:) es el número mayor que 25 por 100 de las puntuaciones (y menor que 75 por 100 ). El segundo cuartil, , es la media. El tercer cuartil, , es mayor que 75 por 100 de las puntuaciones. El porcentil 60 (notación ) es mayor que 60 por de las puntuaciones (y menor que 40 por 100). Adviértase que
Los cuartiles y porcentiles se llaman también medidas de localización.
Si se ordenan por rango ocho resultados o números, será mayor que 2 y menor que 6; el primer cuartil estará a mitad de la distancia entre la segunda y la tercera puntuaciones. Si es entero, entonces está a mitad de la distancia entre esta puntuación y la inmediata superior. Si no es entero, se acostumbra redondearlo para encontrar . Por ejemplo: si n = 50, será el decimotercer número después de que se colocan en orden creciente, pues 50/4=12.5, que se redondea a 13. Doce números son menores y 37 son mayores. Sin embargo, si se imagina que el decimotercer número está por mitad en cada grupo, habrá 12.5 por debajo 37.5 por arriba de .
y se estiman de la misma manera: multiplíquese respectivamente. Si el resultado es entero, elíjase el número a mitad de la distancia entre esta cifra y la siguiente; de lo contrario, redondéese.
Ejemplo 1
Noventa cifras se disponen en orden creciente. Encontrar: (a), (b) (c) (d) .
(a) es la vigésima tercera cifra.
(b) es la cifra sexagésima octava.
(c) está a mitad de la distancia entre las cifras quincuagésima cuarta y quincuagésima quinta.
(d) es la decimoquinta cifra.
El rango porcentil de un conjunto de números es el porcentaje de números o puntuaciones que son menores. Si 75 es la puntuación 349 en una lista de 400 cifras dispuestas en orden creciente, habrá 348 cifras menores; por 100 son menores que 75; el rango porcentil de la puntuación de 75 es 87.
Ejemplo 2
Un estudiante de secundaria tiene calificación promedio de 92.5; ocupa el decimosexto lugar en un grupo de 300. ¿Cuál es el rango porcentil?
Tiene mejores calificaciones que 300 - 16 = 284 en todo el grupo. El rango porcentil es .

Tómese en cuenta la relación que existe entre los centiles, los deciles, los cuartiles, y la mediana; su relación se representa en forma sinóptica en la siguiente forma:
Cuartil 1: = = (porcentil 25 o 25º. centil).
Cuartil 2: = = = = Me (porcentil 50 o 50º, centil, decil 5, o mediana)
Cuartil 3: = = (porcentil 75 o 75º. centil).
La ojiva de Galton (el polígono de frecuencias relativas acumuladas) se puede utilizar, en un análisis exploratorio, para ubicar cualquier cuantil (cuartiles, deciles, centiles o la mediana) en una distribución dada.
Ejemplo: En el caso de la siguiente ojiva, encontrar:
(a) El centil del puntaje 49.5.
(b) El puntaje correspondiente a o .
(c) La mediana.
a) Se localiza la calificación en el eje horizontal x (puntajes), y luego se levanta una línea vertical desde dicho eje hasta encontrar la ojiva; a partir del punto de intersección se traza una línea horizontal hasta llegar al eje vertical (frecuencia relativa acumulada), donde se lee el centil (que es un valor porcentual) correspondiente al puntaje buscado. En este caso se tiene el centil 40, o sea,
b) En este caso se invierte el proceso anterior, o sea, el eje vertical se ubica el cuantil deseado (centil, decil o cuartil), en este ejemplo o ; se traza luego una horizontal hasta la ojiva, y a partir del punto determinado se lleva una vertical hasta el eje horizontal; se lee a continuación el puntaje o calificación correspondiente al cuantil anterior. En este caso (aproximadamente 60 puntos).
c) Se procede como en el inciso anterior, pero buscando en el eje vertical el valor 50% que, como se ha visto con anterioridad, corresponde al o o , que equivalen a la mediana.
La mediana vale aproximadamente, utilizando este método, 57 puntos.


LA MEDIA ARMONICA

La Media Armónica

Se define como el inverso de la media aritmética de los inversos de los valores de la variable.


denominada H, de una cantidad finita de números es igual al recíproco, o inverso, de la media aritmética de los recíprocos de dichos números
Así, dados los números a1,a2, ... , an, la media armónica será igual a:

La media armónica resulta poco influida por la existencia de determinados valores mucho más grandes que el conjunto de los otros, siendo en cambio sensible a valores mucho más pequeños que el conjunto.
La media armónica no está definida en el caso de la existencia en el conjunto de valores nulos.


jueves, 21 de mayo de 2009

LA MEDIA GEOMETRICA

Media Geométrica

Se define como la raíz encima de los productos de los “n” valores de la variable.

En estadística la media geométrica sirve para calcular el crecimiento o de crecimiento de las poblaciones en donde los valores están dado en sucesión geométrica.


La media geométrica de una cantidad finita de números (digamos 'n' números) es la raíz n-ésima del producto de todos los números.
Por ejemplo, la media geométrica de 2 y 18 es

Otro ejemplo, la media de 1, 3 y 9 seria

Sólo es relevante la media geométrica si todos los números son positivos. Si uno de ellos es 0, entonces el resultado es 0. Si hay un número negativo (o una cantidad impar de ellos) entonces la media geométrica es, o bien negativa o bien inexistente en los números reales.
En muchas ocasiones se utiliza su trasformación en el manejo estadístico de variables con distribución no normal.
La media geométrica es relevante cuando varias cantidades son multiplicadas para producir un total.


LA MEDIA ARITMETICA



Media aritmética

Es un determinado valor de una serie de valores, comprendido entre el valor mayor y el valor menor y que los representa a datos, y también es una serie de valores, es igual al cociente que resulta de dividir la suma de todos los valores entre el numero total de ellas.






Es el valor resultante que se obtiene al dividir la sumatoria de un conjunto de datos sobre el número total de datos. Solo es aplicable para el tratamiento de datos cuantitativos.









Media aritmética para datos agrupados

En el capitulo 2 explicábamos dos tipos de tablas de frecuencias (A y B). Cuando los datos se agrupan en tablas tipo A, la media aritmética es igual a la división de la sumatoria del producto de las clases por la frecuencia sobre el número de datos.
La sumatoria parte desde el primer intervalo de clase (i = 1) hasta el último (Nc), siendo Xi la clase del intervalo i.
Cuando los datos se agrupan en tablas de frecuencias tipo B, el cálculo de la media varía un poco, ya que existe una pérdida de información en el momento en que se trabaja con intervalos de frecuencia y no con los datos directamente (los datos se agrupan por intervalo, desconociendo el valor exacto de cada uno de ellos).
Las marcas de clases (Mc) cumple la función de representar los intervalos de clase.


Media aritmética para datos no agrupados

Podemos diferenciar la fórmula del promedio simple para datos poblaciones y muestrales:
Observe que la variación de ambas fórmulas radica en el tamaño de los datos (N identifica el tamaño de la población, mientras que n el de la muestra).



martes, 19 de mayo de 2009

CODIFICACION

Codificar

Nos sirve para facilitar los cálculos en estadística. Y depende de cuantos decimales tenga lo puedo multiplicar, si tiene un decimal entonces es por 10, y si tiene 2 decimales entonces es por 100, y si tiene 3 entonces es por 1000.

La codificación consiste en la traducción de los valores de tensión eléctrica analógicos que ya han sido cuantificados (ponderados) al sistema binario, mediante códigos preestablecidos. La señal analógica va a quedar transformada en un tren de impulsos digital (sucesión de ceros y unos).

CLASES DE CODIFICACIÓN

La codificación puede ser de dos clases: codificación parcial y codificación total. La codificación parcial es cuando en un Código se regula sólo una parte de la rama del derecho regulada. La codificación total es cuando en un Código se regula total e íntegramente la rama del derecho regulado. Es decir, que cuando en una rama el derecho se encuentra codificado el código no siempre regula toda una rama del derecho sino que algunas veces regula toda una rama del derecho y otras veces regula sólo una parte de una rama o institución del derecho.
En tal sentido, en el derecho peruano el derecho comercial principalmente es derecho codificado parcialmente, por que existen otras
normas de derecho comercial peruano que no se encuentran reunidas en el Código de Comercio Peruano de 1902.
En el derecho
español, el derecho comercial es derecho codificado parcialmente, por que existen otras normas de derecho comercial español que no se encuentran reunidas en el Código de Comercio español.
En el derecho argentino el derecho comercial es derecho codificado parcialmente, por que existen otras normas de derecho comercial argentino que no se encuentran reunidas en el Código estudiado.
Citamos primero la codificación parcial en el derecho comercial por que es la rama de la cual mas se conoce esta característica.
Igualmente en el derecho peruano el derecho procesal civil es derecho codificado parcialmente por que existen otras normas de derecho procesal civil que no se encuentran reunidas en el
Código Procesal Civil Peruano de 1993, como el Texto Unico Ordenado de la Ley Orgánica del Poder Judicial.
En el derecho peruano el derecho procesal penal es derecho codificado parcialmente por que existen otras normas de derecho procesal penal que no se encuentran reunidas en los Códigos Procesales Penales y en el Código de
Procedimientos Penales todos peruanos.

TABLAS NO CONTINUAS

Tabla no continuas: Es cuando nos lo representan con números enteros.

TABLAS CONTINUAS

Tablas continuas: Es cuando nos representan los datos con números decimales.


Si el número de datos es grande ó la variable es continua, los datos se agrupan en intervalos o clases. Todas las clases deben tener la misma amplitud.

LAS TABLAS

TABLAS

Es una cierta representación de datos con cierto ordeno cierta jerarquía.

Las tablas con mas de 15 datos distintos y auque se repitan es una tabla agrupada.

La tabla que tiene menos de 15 datos y se repiten es una tabla no agrupada.

Una tabla que sus datos sean menores de 15 datos pero sean iguales es una tabla simple.


Tablas tipo I:
Cuando el tamaño de la muestra y el recorrido de la variable son pequeños, por ejemplo si tenemos una muestra de las edades de 5 personas, por lo que no hay que hacer nada especial simplemente anotarlas de manera ordenada en filas o columnas.
Edad de los 5 miembros de una familia:
5, 8, 16, 38, 45

















ESTADISTICA INFERENCIAL

Estadística inferencial o inductiva: Es la parte de los métodos de estadísticos que ayuda a conocer algún aspecto de la población mediante el conocimiento de ciertos aspectos de la muestra.

La inferencia estadística o estadística inferencial es una parte de la Estadística que comprende los métodos y procedimientos para deducir propiedades (hacer inferencias) de una población, a partir de una pequeña parte de la misma (muestra).
La bondad de estas deducciones se mide en términos probabilísticos, es decir, toda inferencia se acompaña de su probabilidad de acierto.
La estadística inferencial comprende:
La
Teoría de muestras.

ESTADISTICA DESCRIPTIVA

La Estadística Descriptiva: También se le pude llamar Deductiva, que es la parte de la estadística que da los procedimientos para transformar los datos del análisis de un fenómeno colectivo, ose que al calcular los valores del fenómeno o variable en estudio.


La estadística descriptiva es una parte de la estadística que se dedica a analizar y representar los datos. Este análisis es muy básico, pero fundamental en todo estudio. Aunque hay tendencia a generalizar a toda la población las primeras conclusiones obtenidas tras un análisis descriptivo, su poder inferencial es mínimo y debería evitarse tal proceder. Otras ramas de la estadística se centran en el contraste de hipótesis y su generalización a la población.
Algunas de las técnicas empleadas en este primer análisis de los datos se enumeran más abajo en el listado de conceptos básicos. Básicamente, se lleva a cabo un estudio calculando una serie de
medidas de tendencia central, para ver en qué medida los datos se agrupan o dispersan en torno a un valor central.


ESTADISTICA

QUE ES ESTADISTICA

La estadística tiene su etimología pero no existe acuerdo sobre la etimología
de la palabra estadística pero no hemos visto sus primeras aplicaciones han
estado ligadas a la actividad del estado, pero lo que se puede decir que deriva
de la voz de estado.


La estadística es una ciencia con base matemática referente a la recolección, análisis e interpretación de datos, que busca explicar condiciones regulares en fenómenos de tipo aleatorio. Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad, y es usada para la toma de decisiones en áreas de negocios e instituciones gubernamentales.