miércoles, 28 de noviembre de 2012

Regresión y Correlación


Regresión y Correlación
La regresión y la correlación son dos técnicas estrechamente relacionadas y comprenden una forma de estimación.
En forma más especifica el análisis de correlación y regresión comprende el análisis de los datos muestrales para saber que es y como se relacionan entre si dos o mas variables en una población. El análisis de correlación produce un número que resume el grado de la correlación entre dos variables; y el análisis de regresión da lugar a una ecuación matemática que describe dicha relación.
El análisis de correlación generalmente resulta útil para un trabajo de exploración cuando un investigador o analista trata de determinar que variables son potenciales importantes, el interés radica básicamente en la fuerza de la relación. La correlación mide la fuerza de una entre variables; la regresión da lugar a una ecuación que describe dicha relación en términos matemáticos
Los datos necesarios para análisis de regresión y correlación provienen de observaciones de variables relacionadas.
Regresión lineal
La regresión lineal simple comprende el intento de desarrollar una línea recta o ecuación matemática lineal que describe la reacción entre dos variables.
La regresión puede utilizadas de diversas formas. Se emplean en situaciones en la que las dos variables miden aproximadamente lo mismo, pero en las que una variable es relativamente costosa, o, por el contrario, es poco interesante trabajar con ella, mientras que con la otra variable no ocurre lo mismo.
La finalidad de una ecuación de regresión seria estimar los valores de una variable con base en los valores conocidos de la otra.
Otra forma de emplear una ecuación de regresión es para explicar los valores de una variable en término de otra. Es decir se puede intuir una relación de causa y efecto entre dos variables. El análisis de regresión únicamente indica qué relación matemática podría haber, de existir una. Ni con regresión ni con la correlación se pude establecer si una variable tiene “causa “ciertos valores de otra variable.
Ecuación Lineal
Dos características importantes de una ecuación lineal

  • la independencia de la recta
  • la localización de la recta en algún punto. Una ecuación lineal tiene la forma

  • y = a + bx
    En la que a y b son valores que se determina a partir de los datos de la muestra; a indica la altura de la recta en x= 0, y b señala su pendiente. La variable y es la que se habrá de predecir, y x es la variable predictora.
    Determinación de la ecuación matemática
    En la regresión, los valores de y son predichos a partir de valores de x dados o conocidos. La variable y recibe le nombre variable dependiente y la variable x, el de variable independiente.
    Métodos de mínimos cuadrados
    EL procedimiento mas utilizado por adaptar una recta aun conjunto de punto se le que conoce como método de mínimos cuadrados. La recta resultante presenta 2 característica importantes

  • es nula la suma desviaciones verticales en los puntos a partir de la recta
  • es mínima la suma de los cuadrados de dicha desviaciones

  • (yi - yc)2
    En el cual
    Yi = valor esperado de y
    Yc= valor calculado de y utilizando la ecuación de mínimos cuadrados con el valor correspondientes x para yi
    Los valores de a y b para la recta es Yc = a + bx que minimiza la suma de los cuadrados de la desviación “ecuaciones normales “
    y = na + ( x)
    xy= a ( x) +b ( x2)
    En las que n es el numero de pares de observaciones. Evaluando las cantidades  x, y, etc. Se puede resolver estas dos ecuaciones simultáneamente para determinar a b. la ecuaciones puede despejarse. Se obtuvieron dos formulas aun para a y otra para b.
    n( xy)- ( x)( y)
    b=
    n( x2)-( x)2
    y - b x
    a=
    n
    Inferencia en el análisis de regresión
    Los supuestos para el análisis de regresión son como:

  • Existen datos de medición para a x y z.
  • la variable dependiente es una variable aleatoria.
  • para cada valor de x, existe una distribución condicional de la qué es de naturaleza normal
  • la desviación estándar de toda las distribuciones condicionales son iguales

  • EL error estándar de estimación
    La determinante primaria de la exactitud es el grado de dispersión de la población: cuanto mas dispersa este, menor será la exactitud de la estimación. El grado de dispersión en la población se puede estimar a partir del grado de dispersión en las observaciones de la muestra con respecto a la línea de regresión calculada, utilizando la formula.
    S" (yi -yc)
    n-2
    en la cual:
    yi = cada valor de y
    yc = valor de línea de regresión correspondiente a partir de la ecuación de regresión.
    n = números de observaciones.
    La formula anterior no se utiliza por lo general para cálculos reales, es mas fácil trabajar con la formula simplificada
    Se " y- a y - b xy
    n - 2
    Inferencia de acerca de la pendiente de una línea de regresión
    Aun cuando es muy poca o nula relación entre dos variables de aun población, es posible obtener valores maestrales que hacen que parezca que la variables están relacionadas, es importantes probar los resultados tales de caculo, a fin determinar si son significativos (es decir si los parámetros verdaderos no son cero), Si no existe ninguna relación se esperaría obtener aun pendiente cero, se pone a prueba la hipótesis nula contra la hipótesis alternativa.
    La significación del coeficiente de regresión se puede probar comparándolo con su desviación estándar
    t = valor de la muestra - valor esperado
    Desviación estándar
    Análisis de regresión lineal múltiple
    La regresión múltiple comprende tres o más variables. Existe solo una variable dependiente, pero hay dos o mas tipo independiente. Esta operación al desarrollo de una ecuación que se pede utilizar para predecir valore de y, respecto a valores dados de la diferencia variables independientes adicionales es incrementar la capacidad predicativa sobre la de la regresión lineal simple.
    Las técnicas de los mínimos cuadrados se utilizan para obtener ecuaciones de regresión.
    Yc= a +b1x1+b2x2+…bkxk
    a = ordenada en el origen
    b1= pendiente
    k = numero de variables independientes
    Un análisis de regresión simple de dos variable da lugar a la ecuación de una recta, un problema de tres variables produce un plano, y un problema de k variables implica un hiperplano de a
    (k +1) dimensiones.
    Análisis de Correlación
    EL objetivo de un estudio de correlación es determinar la consistencia de una relación entre observaciones por partes. EL termino “correlación “significa relación mutua, ye que indica el grado en el que los valores de una variable se relacionan con los valores de otra. Se considera tres técnicas de correlación uno para datos de medición, otro para datos jerarquizados y el último para clasificaciones nominales.
    Datos Continuos: r de Pearson
    EL grado de relación entre dos variables continuas se resume mediante un coeficiente de correlación que se conoce como “r de Pearson “en honor del gran matemático Kart Pearson, quien ideo este método. Esta técnica es valida mientras si es posible establecer ciertos supuestos bastante estrictos. Tales supuestos son los siguientes:

  • Tanto x como y son variables continuas aleatorias. Es decir, a diferencia del análisis de referencia de regresión, no es aceptable seleccionar ciertos valores de x, y después medir y; tanto y como x deben de variar libremente.
  • La distribución conjunta de frecuencia es normal. Esto recibe el nombre de de distribución normal divariada.

  • Carácter de r
    El coeficiente de relación presenta dos propiedades que establecen la naturaleza de una relación entre dos variables. Una es su signo (+ o -) y la otra, es su magnitud. El signo es igual al de la pendiente de una recta que podría “ajustarse” a los datos si estos se graficaran en un diagrama de dispersión, y la magnitud de r indica cuan cerca esta de la “recta” tales puntos.
    Método practicar para calcular r
    Dado que los cálculos necesarios pueden requerir mucho tiempo especialmente cuando se resta las medias del grupo de cada observación se elevan a cuadrado esas diferencias. Existe una versión, la cual simplifica los cálculos:
    r= n ("xy)-("x)("y) _
    "n("x2)-("x)2 ·"n("y2)("y)2
    Existen 3 formas posibles para obtener el valor de r en el caso de datos de medición: estandarizar cada conjunto y hallar el producto medio, calcular el coeficiente de determinación r2 y obtener su raíz cuadrada como utilizar la formula. Para un conjunto de datos los tres métodos producirán el mismo valor para r no obstante cada método agrega algo a la comprensión del significado del termino “correlación”
    Inferencia acerca del coeficiente de correlación
    Intervalo de confianza para la correlación de la población
    El valor del coeficiente de correlación de la muestra se puede utilizar como un estimado de la correlación verdadera de población existen varios métodos para obtener un método de confianza para pero quizás la forma mas directa es usar un diagrama.
    Si se examinan el diagrama se observara que el intervalo de los valores potenciales (no conocidos) se indica a lo largo de la escala vertical los posibles valores r de la muestra se indica en la escala inferior una serie de curvas representan tamaño de muestras seleccionadas.
    Prueba de significación de r
    Puede ser necesario evaluar una aseveración con respecto al valor de . La forma mas sencilla es obtener un intervalo de confianza para r y observar si el valor propuesto esta incluido en el intervalo de ser así se rechaza a Ho y se acepta la alternativa.
    Datos jerarquizados de: r Spearman
    Es una técnica no paramétrica que utiliza para medir la fuerza de una relación por pares de 2 variables cuando los datos se encuentran en forma jerarquizados. El objeto de calcular un coeficiente de correlación estos ejemplos es determinar el grado en el que dos conjuntos de jerarquización concuerdan o no. Esta técnica también se puede extender a calificaciones u otro tipo de medición si estas se convierten a rangos.
    Las medidas de l grado de concordancia son sol cuadrados de las diferencias entre los dos conjuntos de rangos: si la suma de éstos es pequeña, esto significa que hay acuerdo; si la suma es grande, esto indica lo contrario. EL calculo real de la correlación comprende la formula.
    rsp = 1 - 6"d2
    n(n2 -1)
    En la cual n es el número de observaciones y "d2 es la suma de los cuadrados de la diferencia entre los rangos. El coeficiente de correlación de jerarquía obtenido recibe el nombre de r Spearman. La suma de la diferencia es cero. Esto no sirve como una comprobación útil de los cálculos aunque no es necesaria en la fórmula.
    El procedimiento es como el siguiente:

  • Obtener la diferencia en rango para cada par de observaciones
  • Como comprobaciones, verificar que la diferencias se sumen a 0
  • elevar el cuadrado la diferencias
  • sumar los cuadrados de la diferencia para obtener "d2
  • Calcular rsp

  • Si el valor rsp es pequeño para situaciones en donde n es mayor que 10, la hipótesis nula de rsp = 0 puede ser probada utilizándola la fórmula
    rsp - 0
    t=
    "(1- rsp 2) (n -2)
    Datos nominales: el coeficiente de contingencia
    Cuando ambas variables se miden en escalas nominales ( es decir , categorías ) , el análisis es fácilmente mediante el desarrollo de una tabla de contingencia semejante a la que se utilizo en el análisis de k proporciones ( prueba de ji cuadrada ), el procedimiento en realidad de aun extensión del análisis de una tabla r * k.
    Una medida de relación es calcular el coeficiente de contingencia en C, donde
    x2
    C=
    X+ N
    Un aspecto interesante de una tabla ji cuadrada es que l tamaño máximo posible de x2 es función de N, de las observaciones y del tamaño de la tabla.
    En le caso de tabla con los valores cuadrado, esto lleva obtener un valor máximo de C de
    K - 1
    max =
    k
    En el cual k es el número de fila o columnas. La comprar C con C max se pude obtener una idea de la intensidad de la asociación entre la variables.
    Esta es una relación moderada, no muy intensa. Su interpretación exacta en parte de la naturaleza de los datos y de los resultados comparables que se obtengan de otros estudios, por lo que es difícil establecer valores definitivos dé intensidades.
    Se bebe observar que la formula no fórmula no produce automáticamente el signo del coeficiente de contingencia. DE ahí que no siempre resulte evidente el existe aun relación positiva o negativa.
    Ventajas:

  • Nos e requiere de supuestos con respectos a la formula de población
  • Solamente se necesita una medición nominal ( categorías)

  • Limitaciones

  • El limite superior de C es menor que 1.00 incluso Para un correlación perfecta.
  • El límite superior depende del tamaño de la tabla, por lo que no son comparables los coeficientes de contingencia de tablas de tamaño diferente
  • El coeficiente de contingencia no es directamente comprable con otras medidas de correlación, como la r de Pearson y la r de Spearman, o incluso con otras tablas de contingencia de tamaño diferente.
  • Cada casilla deberá tener una frecuencia esperada por lo menos 5.
  • C max solamente se puede calcular a partir de tabla de valores al cuadrado

  • EJERCICIOS PAG. 411
    1.- Cual es la ecuación de una recta con las siguientes características?

  • pendiente 10.2 y ordenada en el origen 5.0.

  • Yc=5 + 10.2x.

  • pendiente 55 y ordenada en el origen 0.

  • Yc=55x.

  • Pendiente 27 y ordenada en el origen -2.

  • Yc=-2 + 27x.

  • Pendiente -13 y ordenada en el origen 200.

  • Yc=200 - 13x.

  • Pendiente 0 y ordenada en el origen 2.4.

  • Yc=2.4
    2.- Calcule los valores de a y b en la ecuación lineal yc =a+bx apartir de las gráficas de la fig. 14.4.
    Yc= 6+(7.5/500)x Yc=-1 +(12/4)x

    No hay comentarios:

    Publicar un comentario