Tema 67 – Inferencia estadística. Tests de hipótesis.

Tema 67 – Inferencia estadística. Tests de hipótesis.

1. Intervalos confidenciales.

2. Intervalos confidenciales para la media de una distribución normal.

3. Intervalos confidenciales para la varianza de una distribución normal.

4. Región confidencial para la media y la varianza de una distribución normal.

5. Intervalos confidenciales para el parámetro de una distribución binomial.

6. Intervalos confidenciales múltiples.

7. Intervalos confidenciales para muestras grandes.

8. Intervalos confidenciales múltiples.

9. Introducción al contraste de hipótesis.

10. Contraste de una hipótesis simple contra una alternativa simple.

11. Hipótesis compuestas.

12. Contraste de è è1 contra è>è1 para densidades con un parámetro único è. Bibliografía Recomendada.

1. INTERVALOS CONFIDENCIALES.

La estimación puntual de un parámetro no resulta de mucho valor si no se posee alguna medida del posible error cometido en la estimación. Toda estimación 8ˆ de un parámetro 8 debería acompañarse de cierto intervalo que incluyera a 8ˆ , por ejemplo, de la forma (8ˆ -d, 8ˆ +d), junto con alguna medida de seguridad de que el parámetro verdadero 8 fuera interior a dicho intervalo. A menudo las estimaciones se dan de esta manera. Así la carga electrónica puede estimarse que vale (4,770 ± 0,005)10-10 unidades electrostáticas, dándose a entender con ello que es muy poco probable que el primer factor sea exterior al intervalo 4,765 a 4,775. Un contable que se ocupe de los costes de una editorial, y que quiera tener en cuenta todos los factores que intervienen en le coste de producción de cierto libro (costes efectivos de producción, proporción de sostenimiento, proporción de sueldos directos, etc.), podrá estimar el coste en 83 ± 4,5 centavos por volumen, lo que significa que es muy probable que el coste correcto esté comprendido entre 78,5 y 87,5 centavos por volumen. La Oficina de Estadística del Trabajo puede estimar el número de parados en un momento dado en 2,4 ± 0,3 millones, teniendo bastante seguridad en que el número verdadero está comprendido entre 2,1 y 2,7 millones.

A fin de precisar a estas ideas, consideremos un caso particular. Supongamos una muestra (1,2; 3,4; 0,6; 5,6) de cuatro observaciones, extraída de una población normal de media desconocida m y desviación estándar conocida 3. La estimación máximo-

verosímil de m es la media de las observaciones maestrales,

clip_image002x = 2,7

Queremos determinar los límites superior e inferior entre los cuales queda comprendido, con bastante seguridad, el valor verdadero del parámetro. En general, para muestras de tamaño cuatro, procedentes de la distribución dada, la cantidad

clip_image003clip_image004y = x m

clip_image005tendrá una distribución normal con media cero y varianza unidad; x es la media

clip_image006muestral, y 3/2 es a / . Por tanto, la cantidad y tiene por función de densidad

f ( y) =

1 – 1 y 2

clip_image007clip_image008e 2

(3)

que es independiente del valor verdadero del parámetro desconocido, y se podrá calcular la probabilidad de que y esté situado entre dos números elegidos

arbitrariamente. Así, por ejemplo,

1,96

P(-1,96 < y < 1,96) = ∫-1,96

f ( y)dy = 0,95

(4)

En esta relación, la desigualdad -1,96< y , o bien

clip_image009

clip_image010– 1,96 < x m

3/ 2

(5)

equivale a la desigualdad

clip_image002[1]clip_image011m < x + 3/ 2(1,96) = x + 2,94

y la desigualdad

y < 1,96

es equivalente a

clip_image012m > x – 2,96

cabe por tanto, volver a escribir (4) en la forma

clip_image012[1]clip_image012[2]P( x – 2,94 < m < x + 2,94) = 0,95 (6)

clip_image005[1]y sustituyendo x por 2,7

P(-0,24 < m < 5,64) = 0,95 (7)

Podemos decir que estos límites obtenidos, -0,24 y 5,64, contendrán el valor del parámetro verdadero, con una seguridad del 95%.

clip_image013clip_image013[1]clip_image014clip_image013[2]Debe examinarse cuidadosamente el significado de (6) y (7). La probabilidad de que el intervalo aleatorio x -2,94 a x +2,94 cubra a la media verdadera m es 0,95. Esto es, si se extraen repetidamente de la población muestras de tamaño 4, y si se calcula para cada muestra el intervalo aleatorio x -2,94 a x +2,94, es de esperar que le 95% de estos

intervalos contengan la media verdadera m. Tenemos, pues, una gran confianza en que

el intervalo -0,24 a 5,64 cubra la media verdadera. La medida de nuestra confianza es 0,95, porque antes de extraer la muestra, la probabilidad de que el intervalo que intentamos construir cubra la media verdadera es 0,95.

El intervalo -0,24 a 5,64 recibe el nombre de intervalo confidencial o, más concretamente, intervalo confidencial del 95%; la probabilidad, en este caso 0,95, se denomina coeficiente confidencial o coeficiente de confianza.

Es posible obtener intervalos con cualquier grado de confianza que se desee. Así, puesto que

P(-2,58 < y < 2,58) = 0,99 (8)

clip_image015se obtiene un intervalo confidencial del 99% para la media verdadera considerando las desigualdades como antes, y sustituyendo x =2,7, con lo que resulta

P(-1,17 < m < 6,57) = 0,99 (9)

Debe observarse que hay muchos intervalos posibles con la misma probabilidad. Así

, por ejemplo, ya que

P(-1,68 < y < 2,70) = 0,95 (10)

tenemos otro intervalo confidencial del 95% para m, dado por

P(-1,35 < m < 5,22) = 0,95 (11)

Este intervalo es inferior al de antes obtenido, ya que su longitud 6,57 es superior a la longitud 5,88 del intervalo dado en (7), por lo que procura una información menos precisa sobre la situación de m. Dos números cualesquiera a y b, tales que las

clip_image016ordenadas que les corresponden incluyan el 95%. En general, se desea que el intervalo confidencial sea lo más pequeño posible; esto se logra haciendo que a y b estén tan próximos como sea posible, ya que la relación P(a < y < b)=0,95 da lugar a un intervalo

confidencial de longitud

(a /

) (b-a). La distancia (b-a) se hace mínima para un área

dada cuando f(a) = f(b), como se ve claramente en la figura 1. si el punto b se desplaza un poco hacia la izquierda, el a deberá moverse una distancia menor hacia la izquierda, a fin de que el área siga siendo la misma; esta operación disminuye la longitud del intervalo y continua dis minuyéndola mientras f(b) < f(a). Como en este ejemplo f(y) es simétrica respecto a y = 0, el valor mínimo de b – a, para un valor prefijado del área, corresponde a b = -a. Por tanto, (7) da el intervalo confidencial más corto del 95%, y (9) da el intervalo confidencial más corto del 99%, ambos para el parámetro m.

En muchos problemas no es posible construir los intervalos confidenciales más cortos para un coeficiente de confianza dado. En estos casos, resultará deseable hallara un intervalo confidencial que tenga las más corta longitud esperada, o que sea tal que haga mínima la probabilidad de que el intervalo confidencial cubra un valor m*, donde

m* ¹ m.

clip_image018

Fig. 1

El método general que aquí exponemos es el siguiente. Se halla, si es posible, una función de las observaciones muestrales y del parámetro a estimar (la función y anterior), cuya distribución sea independiente del parámetro y de otros parámetros

cualesquiera. Entonces, cualquier afirmación probabilística de la forma P(a < y < b) = y. en donde y es la función, dará lugar a una afirmación probabilística relativa al parámetro. Esta técnica es aplicable en muchos problemas importantes, pero hay

también otros muchos en los que no puede aplicarse, por ser imposible hallar funciones de la forma deseada y cuya distribución no dependa de parámetros. Estos últimos problemas se abordan mediante una técnica más general que describiremos en la sección 5.

La idea de la estimación por intervalos puede generalizarse de modo que incluya la estimación simultánea de varios parámetros. Así, los dos parámetros de la distribución normal se estiman mediante una cierta región plana R, en el llamado espacio

paramétrico, espacio de todas las combinaciones posibles de los valores de m y a 2 .

Una región confidencial del 95% es una región que se puede construir a partir de la muestra, de tal forma que, si se extraen muestras repetidamente, construyendo una región para cada una de ellas, el 95% (por término medio) de estas regiones incluirán el

punto paramétrico verdadero (m ,a2 ) . (véase figura 2)

0 0

Los intervalos y regiones confidenciales ilustran adecuadamente acera ce la incertidumbre de las inferencias. En (7) se hizo la inferencia de que el intervalo -0,24 a5,64 cubre el valor verdadero del parámetro, pero no se estableció de forma categórica. La medida 0,05 de la incertidumbre de esta inferencia constituye parte esencial de la afirmación.

clip_image020

Fig. 2

2. INTERVALOS CONFIDENCIALES PARA LA MEDIA DE UNA DISTRIBUCIÓN NORMAL.

El método utilizado en la sección anterior no suele ser de posible utilización para estimar la media de una población normal, pues lo corriente es que se desconozca la varianza a 2 . La función y toma la forma (para muestras de tamaño n)

clip_image021clip_image022y = x m

(1)

y transformando las desigualdades:

x +

se tiene

P(-1,96 < y < 1,96) = 0,95

(2)

clip_image023

ç x

Pæ -1,96

è

a < m < 1,96

a ö

clip_image024÷ = 0,95

ø

(3)

clip_image015[1]Para una muestra dada se conocen x y n, pero no a , de modo que no será posible calcular límites para m. Claro es que puede sustituirse a por una estimación aˆ ; pero entonces la afirmación probabilística ya no sería exacta, y para muestras pequeñas podría ser muy errónea.

W. S. Gossett (que utilizó el seudónimo de Student) indicó el camino para resolver esta dificultad en una publicación clásica en que introdujo la distribución t. Se le considera como fundador de la teoría de la inferencia estadística exacta. La cantidad

clip_image025clip_image026t = x m (4)

comprende solo el parámetro m y tiene la distribución t con n -1 grados de libertad, sin

incluir parámetros desconocidos. Por tanto, será posible hallar un número

t0,05 tal que

ò-t

t0, 05

P(-t0,05 < t < t 0,05 ) =

0,05

f (t; n -1)dt = 0,90

(5)

convirtiendo después las desigualdades para obtener

é

Pêx t0,05

êë

clip_image027

x + t 0,05

ù

clip_image028ú = 0,90

úû

(6)

donde los limites se calculan para cada muestra dada, obteniendo así un intervalo confidencial del 90%.

clip_image030

Fig. 3

El número

t0,05

recibe el nombre de nivel del 5% de t, y sitúa a los puntos que

separa un 5% del área limitada por f(t) en cada rama de la curva. Cabe obtener otros intervalos confidenciales, empleando distintos niveles de t. Así, se puede hallar un

intervalo confidencial del 98% usando el número rama de la distribución. (véase fig. 3)

t0,01 , que separa 0,01 del área en cada

En este ejemplo la longitud del intervalo confidencial es

0,05

w = x + t

clip_image031x + t 0,05

clip_image032clip_image033= 2t0,05

La longitud es una variable aleatoria, ya que es función de las variables aleatorias

xi . Es

también función del tamaño n de la muestra en que se basa el intervalo confidencial. Si este es muy amplio, quizá resulta poco útil aunque sea alta la probabilidad de que cubra al parámetro desconocido. Así, es preciso que el tamaño n de la muestra sea suficientemente grande para que siendo la probabilidad alta, la longitud resulte lo bastante pequeña para ser útil.

3. INTERVALOS CONFIDENCIALES PARA LA VARIAN ZA DE UNA DISTRIBUCIÓN NORMAL.

Para muestras de tamaño n de una población normal la cantidad

clip_image034u = å(x

x) 2

clip_image035i (1)

a2

clip_image005[2]donde x es la media muestral, tiene la distribución ji cuadrado con n – 1 grados de libertad. Por tanto, puede construirse un intervalo confidencial con coeficiente confidencial gamma, hallando dos números a y b tales que

b

P(a < u < b) = òa

f (X2

)dX2 = y

(2)

Transformando las desigualdades, obtenemos

clip_image009[1]éå(x

x )2

å(x

x )2 ù

clip_image036Pê i

ê b

< a 2 <

i ú = y

clip_image013[3]clip_image037a úû

(3)

que proporciona un intervalo confidencial para a 2 .

clip_image039

Fig. 5

Puesto que la longitud de este es

å

1 1

ç – ÷ ( x

x) 2

(4)

clip_image015[2]

i

æ ö

clip_image040 clip_image040[1]

è a b ø

el intervalo confidencial más pequeño para una muestra dada se obtendría eligiendo a de modo que [(1/a)-(1/b)] resultase mínimo para el valor elegido de y . El cálculo necesario resulta muy laborioso. Las tablas ordinarias de la distribución ji cuadrado proporcionan

números X2 tales que

2 ¥ 2 2

e

P(u > Xe ) = òX 2 f (X

)dX

(5)

para valores elegidos de Î. Al construir, por ejemplo, un intervalo confidencial del

95%, se suele elegir a =

2

X

0,975

y b =

2

X

0,025

, esto es, se eligen a y b de modo que quede

separado 0,025 del área en cada rama de la distribución. Esto da aproximadamente la longitud mínima del intervalo confidencial, a menos que el número de grados de libertad sea muy pequeño (véase fig. 5).

4. REGIÓN CONFIDENCIAL PARA LA MEDIA Y LA VARIANZA DE UNA DISTRIBUCIÓN NORMAL.

Al construir una región para la distribución conjunta de la media

2

m0 y la varianza

m0 de una distribución normal, cabría inclinarse a primera vista a utilizar las

estimaciones individuales dadas por las distribuciones t y X2 . Así, por ejemplo, podría

construirse una región 0,9025 ( = 0,952), como en la figura 6, haciendo uso de las dos relaciones:

é

Pêx t0,025

ê

ë

clip_image041< m0 < x + t0,025

ù

clip_image042ú = 0,95

ú

û

(1)

clip_image043éå( x

x )2

å( x

x )2 ù

clip_image044

X

0

ê

2

P i

ê 0,025

< a2 <

i

clip_image045clip_image046

X

2

0,975

ú = 0,95

úû

(2)

y suponiendo que la probabilidad de los dos sucesos fuera el producto de las dos

probabilidades de cada uno. Esto no es correcto, puesto que las distribuciones de t y X2

clip_image048

Fig. 6

no son independientes. La probabilidad conjunta de que ambos parámetros cubran los valores del parámetro verdadero no es igual al producto de las probabilidades correspondientes. Por tanto, la probabilidad de que la región rectangular de la figura 6

cubra al punto paramétrico verdadero ( m ,a 2 ) no es 0,9025.

0 0

clip_image015[3]Sin embargo es posible construir una región confidencial utilizando las

clip_image049distribuciones de x y å(xi


x) 2 , que son independientes. Si, por ejemplo, se desea

una región confidencial del 95%, pueden hallarse números a, a’ y b’ tales que

æ

Pç- a <

ç

è

x m0

ö

clip_image050< a÷ =

÷

ø

clip_image045[1]clip_image051@ 0,975

(3)

clip_image002[2]clip_image052Pêa‘< å i < b‘ú =

(4)

é ( x

a

x ) 2 ù

2

ê 0 úû

La probabilidad conjunta es

clip_image014[1]x

Pê- a <

m0 < a, a‘ < å i < b‘ú = 0,95

(5)

clip_image053clip_image014[2]é – (x x) 2 ù

a

2

 0 û

debido a la independencia de las distribuciones. Las cuatro desigualdades de (5) determinan una región en el espacio paramétrico, fácil de determinar trazando las líneas que la limitan.

clip_image055

Fig. 7

Basta reemplazar los signos de desigualdad por otros de igualdad y representar

cada una de las cuatro relaciones resultantes como funciones de m y a 2 en el espacio

paramétrico. Resultará así una región como la que aparece rayada en la figura 7. Exactamente del mismo modo se obtendría una región confidencial para ( m0 ,a0 ); la

relaciones se representarían como funciones de a en lugar de figura 7 se transformaría en un par de rectas

clip_image025[1]clip_image056m = x ± aa

a 2 , y la parábola de la

clip_image057que se cortarían en x sobre el eje de las m.

La región que hemos construido no es la de área mínima, pero se construye fácilmente a partir de las tablas y difiere poco de la región de área mínima, a menos que sea pequeño el tamaño de la muestra. La región mínima es, aproximadamente, de forma elíptica y difícil de construir.

5. MÉTODO GENERAL PARA LA OBTENCIÓN DE INTERVALOS CONFIDENCIALES.

El método utilizado en las secciones anteriores para la determinación de intervalos y regiones confidenciales obliga a encontrar funciones de la muestra y de los parámetros, distribuidas independientemente de estos. No obstante, es posible establecer intervalos confidenciales sin tener en cuenta la existencia previa de tales funciones.

Dada una población por f(x ; 8) y un estimador (x1 , x2 ,…, xn ) para muestras de tamaño n (generalmente, se usará el estimador de máxima verosimilitud), determinaremos la distribución del estimador, que vendrá dada por g( 8ˆ ;8). Supongamos, para fijar ideas, que se desea un intervalo confidencial del 95%. Si se sustituye 8 , en g( 8ˆ ;8), por el número arbitrario 8’, la distribución de 8ˆ quedará completamente especificada, y será posible dar enunciados probabilísticos relativos a 8ˆ . En particular, será posible hallar dos números h1 y h2 tales que

P(8ˆ < h )= òh1 g (8ˆ;8‘)d8ˆ = 0,025

(1)

1

2

P(8ˆ > h

ò

) = h2 g(8ˆ;8‘)d8ˆ = 0,025

(2)

Claro es que los números h1 y h2 dependerán del número que sustituye a 8ˆ en g( 8ˆ ;8). En efecto, h1 y h2 son ciertas funciones de 8, esto es h1(8) y h2(8). Los valores de estas funciones para cualquier valor de 8 vienen determinados por las dos ecuaciones anteriores. Evidentemente,

P[h (8) < 8ˆ < h (8)]= òh2 (8 ) g(8ˆ;8)d8ˆ = 0,95

(3)

1 2 h1(8 )

Las funciones h1( 8) y h2(8) pueden representarse en función de 8, como se ha hecho en la figura 8. Trazando una vertical por cualquier valor 8’ de 8, esta cortará a ambas curvas en puntos que, proyectados sobre el eje de las 8ˆ , darán limites entre los cuales caerá 8ˆ , con probabilidad de 0,95.

Construidas las dos curvas 8ˆ = h1( 8) y 8ˆ = h2( 8), cabe obtener un intervalo confidencial para 8 del siguiente modo: Se extrae una muestra de tamaño n y se calcula el valor del estimador 8ˆ ’. La horizontal trazada por el punto 8ˆ ’ del eje 8ˆ (fig. 8) cortará a ambas curvas en puntos que pueden proyectarse sobre el eje 8 y que

llamaremos

81 y

82 , según se indica en la figura. Estos dos números definen el

intervalo confidencial, pues se ve fácilmente que

P(82 < 8 < 81 ) = 0,95

(4)

Supongamos que estuviésemos extrayendo muestras de una población en que el valor de 8 fuese 8’. La probabilidad de que la estimación 8ˆ quede comprendida entre h1( 8’) y h2(8’) es 0,95. Si la estimación cae entre estos dos limites, dicho horizontal cortará a la vertical trazada por 8’ en cierto punto situado entre las curvas, y el intervalo correspondiente ( 82 ,81 ) cubrirá a 8’. Se deduce, por tanto, que la probabilidad de que un intervalo (82 ,81 ), construido por este método, cubra a 8’, es exactamente 0,95. Esta afirmación es cierta cualquiera que sea el valor de 8 en la

población. A veces, es posible determinar los límites 82 y 81 para una estimación dada,

si necesidad de hallar efectivamente las funciones h1( 8) y h2( 8).

clip_image059

Fig. 8

Con referencia a la fig 8, los limites para 8 son los puntos

82 y

81 , tales que

h1( 81 ) = 8ˆ ’ y h2( 82 )=8ˆ ’. Basándonos en la definición de h1 y h2, diremos que valor de 8 para el cual

81 es el

8ˆ ‘ ˆ ˆ

ò-¥ g(8;8)d8 = 0,025

(5)

y 82

es el valor de 8 para el cual

¥ ˆ ˆ

ò8ˆ’ g(8;8)d8 = 0,025

(6)

Si es posible expresar los primeros miembros de estas dos ecuaciones explícitamente en función de 8, y si las ecuaciones pueden resolverse unívocamente respecto a 8, las raíces son los límites confidenciales del 95%, para 8.

Si h1(8) y h2(8) no son funciones monótonas de 8, el intervalo confidencial puede ser, en realidad, un conjunto de intervalos. Así, por ejemplo, supongamos que las curvas de la figura 8 se inclinaran mas hacia la derecha de modo que la horizontal

trazada por 8’ volviera a cortarlas, por ejemplo, en los puntos

83 y

84 . El intervalo

confidencial consistiría en dos intervalos (82 ,81 ) y (83 ,84 ). La afirmación sobre 8

sería de la forma

P(82 < 8 < 81 , ó,83 < 8 < 84 ) = 0,95

(7)

Sin embargo, en la mayoría de las situaciones que se plantean en la práctica habrá un intervalo único, o será posible elegir un intervalo único basándose en otros datos disponibles relativos al experimento que dio lugar a las observaciones maestrales.

El método aquí descrito para la obtención de intervalos confidenciales se extiende al caso de varios parámetros; pero la representación geométrica ya no es posible, ni siquiera para dos parámetros. Supongamos una distribución que dependa de dos

ˆ ˆ

parámetros 81 y 82 ; podemos hallar una región plana R en el plano 81 ,82

tal que

P(8ˆ ,8ˆ enR)= ò ò g(8ˆ ,8ˆ

;8 ,8 )d8ˆ d8ˆ

= 0,95

(8)

1 2 1

R

2 1 2 1 2

Cons iderando todos los pares posibles de valores

81 y 82

limitaremos una región

cuatridimensional en el espacio, 81 ,

82 ,

8ˆ ,

8ˆ , que es análo ga a la región

1

2

bidimensional entre las curvas de la figura 8. Supongamos ahora que se extrae una

ˆ ˆ

muestra y se calculan las estimaciones

81 ’ y82 ’. La intersección de los dos hiperplanos

8ˆ =8ˆ ’ y

8ˆ =8ˆ

’ con la región cuatridimensional determinará una región

1 1 2 2

bidimensional que, proyectada sobre el plano 95% para 81 , 82 .

81 , 82 , será una región confidencial del

clip_image061

Fig. 9

Este razonamiento se generaliza para abarcar el caso de K parámetros. El método determinará una región confidencial para todos los parámetros de una distribución. Si se desea estimar algunos, pero no todos los parámetros de un conjunto de ellos, dicho método no podrá usarse en general, pero en determinadas circunstancias si puede modificarse para adaptarse al problema en cuestión. Por ahora, no hay solución general del problema de construir regiones confidenciales para una parte del conjunto de K parámetros de una función de distribución, excepto en el caso de muestras grandes.

6. INTERVALOS CONFIDENCIALES PARA EL PARÁMETRO DE UNA DISTRIBUCIÓN BINOMIAL.

Aplicaremos el método general descrito en la sección precedente a un problema que

exige su empleo. Si una muestra

x1 , x2 ,…, xn procede de una población binomial con

f (x; p) = p x (1 – p)1- x

x = 0,1;

0 £ p £ 1

(1)

el estimador máximo-verosímil de p es

clip_image062pˆ = y

n

(2)

en donde dada por

y = å xi

puede tomar los valores 0, 1, 2, …, n. La distribución de pˆ viene

n

g( pˆ ; p) = ç ÷ p npˆ (1- p) n(1- pˆ )

pˆ = 0,

, ,…,1

(3)

æ ö 1 2

clip_image063clip_image064

ø

è

ç npˆ ÷ n n

y no es posible hallar una función de pˆ y p, cuya distribución sea independiente de p.

Volveremos a suponer, para fijar ideas, que el intervalo confidencial a construir es

del 95%. El primer paso consiste en determinar las funciones

h1 ( p) y h2 ( p) . Así, para p

= 0,4, y de acuerdo con la sección anterior, buscaríamos un número

nh1 æ n ö

h1 (0,4) , tal que

P[pˆ < h1 (0,4)] = åç

÷(0,4) y (0,6)ny

= 0,025

(4)

y =0 è y ø

No obstante, por tratarse de una distribución discreta, nh1 deberá ser un entero, y será imposible lograr que la suma valga exactamente 0,025 para todo valor de p. Sin

embargo, no nos preocuparemos por esto, ya que no necesitamos una curva

h1 ( p)

definida para todo valor de p. Los únicos puntos de interés son los que corresponden a valores posibles de pˆ . En efecto, es posible utilizar la técnica indicada por las

ecuaciones (5-5) y (5-6), por disponerse inmediatamente de una expresión explicita por las probabilidades que figuran en el primer miembro de dichas ecuaciones. Suponiendo que tenemos una estimación

clip_image065pˆ ‘= k

n

(5)

puede determinarse el límite superior confidencial de p para el cual

p1 , del 95%, hallando el valor de

k æ n ö

åç ÷ p y (1 – p) ny

= 0,025

(6)

y =0 è y ø

siendo el límite inferior

p2 el valor de p para el cual

n æ n ö

åç ÷ p y (1 – p) ny

= 0,025

(7)

y = k è y ø

Si es k = 0, se toma cero como límite inferior, y si k = n, se toma 1 como límite superior.

Para valores pequeños de n, las ecuaciones (6) y (7) pueden resolverse por tanteos, a

fin de obtener las raíces

p1 y

p2 ; pero este cálculo se hace más prolijo a medida que

aumenta n. Un método sencillo consiste en utilizar las tablas de Pearson para la función beta incompleta. La forma acumulativa de la distribución beta es

F( x; , ) =

( + + 1)!

clip_image066

! !

x

ò0 t

(1 – t ) dt

(8)

y por integración reiterada por partes se obtiene

æ + +1ö

F( x; , ) = -åç

i =0 è i

÷x i (1 – x) +

ø

+1- i +1

(9)

Se deduce que las sumas binomiales parciales vienen dadas por la tabla de F(x; ). Podemos escribir la ecuación (6) del siguiente modo:

k æ n ö

åç ÷ p y ( y p)n y

= 1 – F ( p; k, n k -1) = 0,025

(10)

y =0 è y ø

hallando inmediatamente en la tabla el valor de p que corresponde a F =0,975 para los valores dados de k y n – k -1. Análogamente, puesto que

n æ n ö

k -1 æ n ö

åç ÷ p y (1 – p)ny

= 1 – åç

÷p y (1 – p)n y

k è y ø 0 è y ø

se obtendrá el límite confidencial inferior escribiendo (7) en la forma

k æ n ö

åç ÷ p y (1 – p)n y

=F ( p; k – 1, n k) = 0,025

(11)

n è y ø

Para valores de n que excedan de los tabulados, puede emplearse la aproximación normal a la distribución binomial, y obtener intervalos confidenciales de p, tal como se

indica en la sección siguiente, o bien utilizar las Tables of the Binomial Probability Distribution (National Boreau of Standards, Applied Mathematics Series 6, Washington DC, 1950).

7. INTERVALOS CONFIDENCIALES PARA MUESTRAS GRANDES.

Para muestras grandes, el estimulador 8ˆ máximo-verosímil para el parámetro 8 de una distribución dada por f(x; 8) tiene, bajo condiciones bastante generales, una distribución aproximadamente normal respecto de 8. Cuando se satisfacen tales condiciones, se obtienen fácilmente intervalos confidenciales aproximados. La varianza del estimulador en las muestras grandes es

a 2 (8) =

– 1

clip_image067nE[¶ 2 log f (x;8) / ¶82 ]

(1)

en donde a 2(8) indica que es una función de 8, porque ordinariamente dependerá de este parámetro. Para muestras grandes, por tanto, puede determinarse un intervalo confidencial con probabilidad y , convirtiendo las desigualdades en

é

Pê- dy

ë

< 8ˆ – 8 < d

clip_image068a(8)

ù

y ú @ 2y

û

(2)

en donde

dy se ha elegido de modo que

y

d

ò-d

1 – 1t 2

clip_image069

e 2

dt = 2y

8. INTERVALOS CONFIDENCIALES MÚLTIPLES.

En la secciones anteriores hemos indicado que la interpretación frecuencial- probabilística de los intervalos confidenciales es la siguiente: En repetidos muestreos, 100(1- )% de los intervalos confidenciales construidos contendrán el parámetro desconocido 8, donde 1 – es el coeficiente confidencial. Para ilustrar esta interpretación con mayor precisión, supongamos que se extrae una muestra aleatoria de

tamaño k de cada una de 3 poblaciones normales de medias

m1 ,

m2 y

m3 ,

respectivamente y varianza común a 2 .

clip_image012[3]Construiremos un intervalo confidencial del 95% para

m1 – m2 ,

m2 – m3 y

m1 – m3 .

clip_image015[4]Para hallar un intervalo confidencial para

m1 – m2

tenemos en cuenta que x m1 es

normal, con media 0 y varianza

a 2 /k; y m es normal con media 0 y varianza

a 2 /k;

clip_image013[4]clip_image013[5]

2

y m2 y x m1

son independientes luego

clip_image070clip_image003[1]clip_image003[2]clip_image003[3]w = ( x m1 ) – ( y m2 ) = ( x y ) – ( m1 – m2 )

es normal con media 0 y varianza 2 a 2 /k y , por tanto,

w

clip_image071

es también normal, con media 0 y varianza 1. Si hacemos

å i

2 1 2

clip_image072s1 = ( x

k -1


x)

2 1 2

s2 =

clip_image073

k – 1

å( yi y)

entonces

1

clip_image074

s

= å( z – 2

2 z)

3 k -1 i

3(k -1)s 2

clip_image075a2

(k -1)s2 + (k -1)s2 + (k -1)s 2

= 1 2 3

a 2

(2)

se distribuye según una ji cuadrado con 3k -3 grados de libertad, y s2 es independiente de w. Por tanto,

clip_image076clip_image077t = =

se distribuye según una t de Student con 3(k -1) grados de libertad. Un intervalo

confidencial del 95% para

m1 – m2 es

é

Pê(x y) – t

êë

0,025

clip_image078< µ1

µ2

< (x y) + t

0 ,025

ù

clip_image079ú = 0,95

úû

(3)

Por un proceso semejante se deduce que un intervalo confidencial del 95% para

m3 es

m1 –

é

Pê(x z ) – t

êë

0 ,025

clip_image080< µ1

µ3

< ( x z) + t

0,025

ù

clip_image081ú = 0,95

úû

(4)

y, análogamente, un intervalo confidencial del 95% para

m2 – m3 es

é

Pê( y z ) – t

êë

0,025

clip_image082< m2

µ3

< ( y z ) + t

0,025

ù

clip_image083ú = 0,95

úû

(5)

Si se toman repetidos conjuntos de observaciones (1), y se calcula (3) para cada conjunto de 3k observaciones, entonces, para un número grande de repeticiones, el 95%

de los intervalos confidenciales cubrirán a

m1 – m2 .

Si para cada conjunto de 3k observaciones se calcula el intervalo confidencial (4),

para un número grande de repeticiones el 95% de estos intervalos cubrirán a

m1 – m3 .

Análogamente, si para cada conjunto se calcula el intervalo confidencial (5), en un

número grande de repeticiones, el 95% de los intervalos contendrán a

m2 – m3 .

Deseamos calcular intervalos confidenciales para

m1 – m2 ,

m1 – m3 y

m2 – m3 , tales que la

probabilidad de que los tres intervalos confidenciales resulten simultáneamente verdaderos sea, por ejemplo, el 95%. Si los tres intervalos dados por (3) a (5) fuesen independientes, en un número grande de repeticiones, para el (0,95)3 de los conjuntos,

(3) cubriría a

m1 – m2 , (4) cubriría a

m1 – m3 , y (5) cubriría a

m2 – m3 . Sin embargo, puesto

que (3), (4) y (5) no son independientes, esta probabilidad no es (0,95)3. Para resolver este problema definiremos el coeficiente confidencial experimentativo. Un conjunto de observaciones tales como (1) recibirá el nombre de experimento; puede haber t poblaciones en lugar de 3. En cada experimento, se calculan interva los confidenciales

para las t(t-1) diferencias

mi mj . Si en el 95% de los experimentos la totalidad de los

t(t-1) intervalos confidenciales cubren a sus diferencias respectivas ( mi mj ), diremos que el coeficiente confidencial experimentativo es 0,95.

Enunciaremos el siguiente teorema aunque no daremos su demostración.

Teorema.

Sea v1 , v2 ,…, vn una muestra aleatoria de tamaño n de una población normal de media

0 y varianza a 2 , y designaremos por R el recorrido de estas variables aleatorias; es

2 2

decir, R = máx

vi -mínvi . Supongamos que

vs / a es independiente de las

vi y esta

distribuida según una ji cuadrado con v grados de libertad. La variable aleatoria

clip_image084q = R

s

se distribuye como el recorrido studentizado, con n y v grados de libertad en el numerador y en el denominador, respectivamente.

La función frecuencial de q es bastante complicada y no se dará aquí, pero la

cantidad

q , definida por P(q< q )=1- , puede obtenerse en para varios valores de n, v

y = 0,01, 0,05 y 0,10.

Para ilustrar como puede emplearse este teorema, hallaremos un conjunto de intervalos confidenciales con un coeficiente confidencial experimentativo del 0,95. Consideremos las variables aleatorias (nos limitaremos al caso especial de 3)

3(k -1)s 2

clip_image085a2

,u1 , u2 ,u3

en donde s2 está dada por (2), y

u1 ,u2

, u3

son los estadísticos ordinales de las tres

variables aleatorias

v1 , v2 , v3

con

clip_image025[2]clip_image086v1 = (x m1 )

v2 = ( y m2 )

v3 = ( z m3 )

clip_image002[3]clip_image087clip_image057[1]clip_image088Puesto que las

vi son variables normales independientes, de medias 0 y varianzas

a 2 , y dado que 3(k -1)s2/a 2

es una variable de ji cuadrado independiente, con v = 3(k

-1) g. de l., utilizaremos el teorema 1 para demostrar que q se distribuye como el recorrido studentizado, con n =3 g. de l. en el numerador y v =3(k -1) g. de l. en el denominador, siendo

clip_image089clip_image090q = R = u3 – u1

max v – min v

clip_image091= i i

s s

También

s

æ u3 – u1 ö

clip_image0921- = P(q < q ) = Pç

è s

< q ÷ =

ø

clip_image091[1]

ç

= Pæ max vi – min vi

< q ö =

÷

è s ø

= P(max vi – min vi < sq )

(6)

Pero si

max vi – min vi < s q , se tienen las tres desigualdades siguientes:

clip_image009[2]clip_image035[1]clip_image093clip_image094clip_image095( x m ) – ( y m )

< sq

1 2

clip_image009[3]clip_image096clip_image093[1]clip_image093[2]clip_image097( x m ) – ( z m ) < sq

1 3

y

clip_image013[6]clip_image098clip_image099clip_image100clip_image101( y m ) – (z m ) < sq

2 3

lo que implica

clip_image102sq

clip_image013[7]clip_image013[8]< ( x y) – (µ1

clip_image103

2

m ) < sq

clip_image104sq

< ( x z ) – (m m ) < sq

(7)

clip_image013[9]clip_image105clip_image1061 3

clip_image107clip_image096[1]sq

< ( y z) – (m2

m ) < sq

clip_image108clip_image109

3

Si utilizamos (7) con (6), la probabilidad de que las seis desigualdades (8) sean verdaderas es 1 – :

clip_image110clip_image111clip_image112( x y) – sq

< m m

< ( x y) + sq

clip_image013[10]clip_image005[3]clip_image1131 2

clip_image035[2]clip_image035[3]clip_image114( y x ) – sq

< µ2

µ1

< ( y x ) + sq

clip_image035[4]clip_image035[5]clip_image107[1]clip_image096[2]clip_image096[3]clip_image115( x z) – sq

< µ1

µ3

< ( x z ) + sq

clip_image009[4]clip_image116clip_image117clip_image096[4]clip_image096[5]clip_image115[1]( z x) – sq

< µ3

µ1

< ( z x ) + sq

clip_image098[1]clip_image014[3]clip_image118clip_image035[6]clip_image119clip_image120( y z ) – sq

< µ2

µ3

< ( y z ) + sq

clip_image035[7]clip_image008[1]clip_image121clip_image096[6]clip_image096[7]clip_image122( z y) – sq

< µ3

µ2

< (z y) + sq

clip_image123clip_image124clip_image125En el caso de haber más de tres poblaciones, serían válidas las mismas fórmulas,

salvo que variarían los grados de libertad para confidenciales.

q y que existirían t(t-1) intervalos

9. INTRODUCCIÓN AL CONTRASTE DE HIPÓTESIS.

La inferencia estadística comprende dos partes principales, a saber: la estimación de parámetros y los contrastes de hipótesis. En este capítulo estudiaremos la segunda de ellas, con el objetivo de desarrollar métodos generales para los contrastes de hipótesis y su aplicación a algunos problemas corrientes. Estos métodos también se utilizarán en capítulos posteriores.

En la investigación experimental se pretende a veces simplemente estimar un parámetro; por ejemplo, puede que interese estimar la producción de un nuevo híbrido de maíz. Muchas veces, el objetivo final es la utilización de dicha estimación. Así ocurre cuando se quiere comparar la producción del nuevo híbrido con la correspondiente a una variedad conocida, a fin de recomendar la sustitución de esta por aquel, en caso de que parezca superior. Esto sucede corrientemente en la investigación; puede ocurrir que interese determinar si un método nuevo para cerrar lámparas aumenta la vida de éstas; si un nuevo germicida resulta más efectivo en el tratamiento de cierta infección; si un método de conservación de alimentos es preferible a otros, en lo que se refiere a la conservación de vitaminas, etc.

Utilizando como ejemplo el caso de las lámparas, supongamos que la vida media de las fabricadas por medio de un proceso conocido es de 1400 h. Se desea contrastar un nuevo procedimiento para la fabricación de lámparas. En este caso, el modelo estadístico es el siguiente: se trata de dos poblaciones de lámparas, la constituida por las correspondientes al proceso que se propone. Sabemos (en virtud de numerosas investigaciones anteriormente realizadas) que la media de la primera población es

aproximadamente 1400. Se desea averiguar si la media de la segunda población es superior o inferior a 1400. Tradicionalmente, para resolver este problema, se establece la hipótesis de que una medida es mayor que la otra. Basándose en una muestra de las poblaciones se aceptará o rechazará la hipótesis. (Naturalmente, se confía en que el nuevo proceso es mejor y que la hipótesis será rechazada).

Para contrastar la hipótesis se fabrica cierto número de lámparas mediante el nuevo procedimiento, midiendo después su duració n. Supongamos que la media de esta muestra de observaciones es de 1550 h. Esto parece indicar que el nuevo proceso es mejor; pero supongamos que la estimación de la desviación estándar de la media es

clip_image1268 / , igual a 125 (siendo n el tamaño de la muestra). Por tanto, el intervalo

confidencial del 95% para la media de la segunda población (suponiendo la población normal) es aproximadamente de 1300 h a 1800 h. La media muestral 1550 podría proceder fácilmente de una población cuya media fuese 1400. No tenemos, pues,

clip_image127motivos suficientes para rechazar la hipótesis. Por otra parte, si 8 / fuese igual a 25,

podríamos rechazar la hipótesis con gran confianza y afirmar la superioridad del nuevo proceso de fabricación.

Se ve, pues, que los contrastes de hipótesis está relacionada íntimamente con el problema de la estimación. No obstante resulta instructivo desarrollar la teoría de los contrastes independientemente de la de la estimación al menos en principio.

Los contrastes de hipótesis puede integrarse en la estructura del problema general de decisión de la siguiente forma: existen dos acciones finales posibles, a1 y a2. La acción apropiada a tomar depende del valor del parámetro desconocido 8, llamado algunas veces estado de la naturaleza, que es un elemento del espacio paramétrico W . El

conjunto W puede descomponerse en dos conjuntos,

m1 y m2 , tales que se elige la

acción a1 si 8 pertenece a m1 , y la acción a2 si 8 pertenece a m2 . La pérdida asociada a

la acción a y al estado de la naturaleza 8 viene dada por

l(a;8) , donde

l(a;8) ³ 0 y

l(a1 ;8) = 0

l(a2 ;8) = 0

Si 8 está en m1

Si8 está en m2

(1)

Sea

s = ( x1 , x2 ,…, xn )

una muestra aleatoria procedente de

f (x;8) , y S, el espacio

muestral n-dimensional. Una estrategia (función de decisión) es una función d que asigna a cada posible muestra una acción de A, donde

A = {a : a = a1 o a2 }.

La acción que se toma es

a = d (x1 , x2 ,…, xn )

En este problema en el que existen sólo dos acciones, cada estrategia d (función de decisión) puede representarse por una partición del espacio muestral n-dimensional en dos conjuntos disjuntos, S1 y S2, siendo

clip_image128S2 = S 1 = S S1

tales que se toma la acción a1 si el punto muestral s cae en S1, y la a2 si s cae en S2. El riesgo (pérdida esperada) correspondiente a la estrategia d está dado por

clip_image129clip_image130R(d;8) = l (a1 ;8) P(s Î S1 8) + l (a2 ;8)P(s Î S2 8)

(2)

clip_image094[1]donde

P(s Î S1 8)

denota la probabilidad de que el punto muestral s caiga en S1 cuando

clip_image131el valor del parámetro (estado de la naturaleza) es 8, y análogamente para

P(s Î S2 8) .

Puesto que se toma la acción a1 si s cae en S1 y la a2 si cae en S2, las probabilidades en la ecuación anterior son las correspondientes a adoptar las acciones a1 y a2, respectivamente, cuando 8 es el estado de la naturaleza. Se denominan probabilidades de acción.

DEF Sea S un espacio muestral n-dimensional, y S1 y S2, una partición del espacio muestral, tal que si un punto muestral

s = ( x1 , x2 ,…, xn )

cae en S1, se toma la acción a1, y si s cae en S2 se adopta la acción a2. Las siguientes probabilidades se denominan probabilidades de acción:

clip_image131[1]clip_image132clip_image131[2]P(s Î S1 8) P(s Î S2 8)

donde

P(s Î Si 8)

es la probabilidad de que s caiga en Si (probabilidad de que se tome

la acción ai) cuando el verdadero estado de la naturaleza es 8.

Si en la ecuación (2) calculamos el riesgo cuando 8 pertenece a

m1 , el cual

designaremos por

R(d;8Îm1 ) , se obtiene:

clip_image131[3]clip_image131[4]R(d;8 Îm1 ) = l(a1 ;8 Îm1 ) P(s Î S1 8Îm1 ) +l (a2 ;8 Îm1 ) P(s Î S2 8 Îm1 )

(3)

Utilizando la ecuación (1), resulta

clip_image131[5]R(d;8 Îm1 ) = l(a2 ;8 Îm1 )P(s Î S2 8 Îm1 )

(4)

Por un procedimiento análogo, calcularemos el riesgo cuando 8 está en obteniendo

m2 ,

clip_image094[2]R(d;8 Îm2 ) = l(a1 ;8 Îm2 ) P(s Î S1 8Îm2 )

(5)

Es decir, puesto que una de las dos pérdidas escribiremos el riesgo en la ecuación (2) en la forma

l(a1;8)

y l(a2 ;8)

es igual a 0,

R(d;8) = l(8) (d;8) (6)

donde

l(8) = l (a1 ;8) = 0

Si8 está en m2

(7)

l(a2 ;8) = 0 Si8 está en m1

siendo

l(8)

la perdida asociada con la acción incorrecta cuando el estado de la

naturaleza es 8, y continuación.

(d;8)

en la ecuación (6), es la probabilidad de error definida a

DEF Probabilidades de error.- La probabilidad de error, designada por

(d;8)

en la

ecuación (6), es la probabilidad de adoptar la acción incorrecta. Es decir, es la

probabilidad de tomar la acción a1 si 8 está en en m1 .

m2 , o bien tomar la acción a2 si 8 está

Si 8 Îm1 ,

esta probabilidad se expresará así:

(d;8) = P[(x ,…, x

) Î S

8 Îm ] = P(s Î S

8Îm )

clip_image133clip_image1341 1 n 2 1 2 1

que es la correspondiente a tomar la acción a2 erróneamente; y si probabilidad de error puede escribirse:

8 Îm2 , la

1

2

n

(d;8) = P[(x ,…, x

) Î S1

8 Îm2

] = P(s Î S

8 Îm2 )

clip_image099[1]clip_image131[6]

1

que es la probabilidad de adoptar la acción a1 erróneamente.

DEF Contrastes de hipótesis.- Los conjuntos m 1 y m 2 en la formulación anterior del problema de decisión pueden asociarse a la hipótesis o afirmación H1 : “8 está en m1 ” y a la hipótesis alternativa H2 : “ 8 está en m2 ”, respectivamente. La acción a1 consiste en aceptar la hipótesis (aceptar H1) y la acción a2 en rechazar la hipótesis (rechazar H1). La función de decisión d que, aplicada a los datos, conduce a la aceptación o rechazo de la hipótesis se denomina contraste de la hipótesis.

El objetivo es encontrar el contraste (la función de decisión d) que hace mínimo el riesgo para cada valor de 8 en W . Sin embargo, esto no es generalmente posible, sino que una función de decisión puede dar un riesgo mínimo para ciertos valores de 8, mientras que otra función de decisión puede hacer mínimo el riesgo para otros valores de 8, etc. Por tanto, puesto que 8 es desconocido, hay que contar con la posibilidad de que no exista un método definido para determinar qué función da riesgo mínimo en un problema particular.

Otra dificultad inherente a la utilización de las ecuaciones (4) y (5) se debe a que en gran parte de los problemas de aplicación, donde un experimentador desea utilizar contrastes de hipótesis, la función de pérdida es totalmente desconocida, o bien no se conoce con la función acuracidad para garantizar su empleo. Si la función de pérdida no es conocida, parece que un procedimiento razonable consistirá en utilizar una función de decisión que, en cierto sentido minimice las probabilidades de error. El procedimiento tradicional es elegir una probabilidad , usualmente en el entorno de 0,01, 0,05, 0,10, 0,20 y hallar la clase de funciones de decisión (o sea, determinar los conjuntos S2) tales que se satisfaga

clip_image133[1]P(s Î S2 8 Îm1 ) £

(8)

Entonces, de la clase de contrastes que satisfacen a (8) se considera como “mejor” contraste aquel para la cual

clip_image131[7]P(s Î S1 8 Îm2 )

(9)

es mínimo. En esta formulación, la cantidad

P(s Î S 2 8Îm1 )

de (8) se llama

clip_image132[1]clip_image132[2]probabilidad de rechazar una hipótesis verdadera (rechazar la hipótesis H1 cuando de hecho es cierta), y a veces se la denomina probabilidad de un error de tipo I, y (8) se

escribe en la forma

P( I ) £ . La cantidad

P(s Î S1 8 Îm2 )

de (9) se llama

probabilidad de aceptar una hipótesis falsa (aceptar H1 cuando no es cierta), pero algunas veces se denomina también probabilidad de un error de tipo II, se escribe P(II). Obsérvese que

1 (d;8) = P(I ) y 2 (d;8) = P( II )

clip_image099[2]La región S2 recibe el nombre de región de rechazo o de región crítica, y S1, región de aceptación. Si la afirmación de (8) es verdadera, se dice que la extensión de el

clip_image132[3]contraste es . En lugar de la cantidad

P(s Î S1 8 Îm2 )

de (9) es a menudo más

conveniente utilizar

P(s Î S2 8 Îm2 ) , donde, evidentemente,

clip_image131[8]clip_image132[4]1- P(s Î S1 8Îm2 ) = P(s Î S2 8 Îm2 )

(10)

que es la probabilidad de rechazar la hipótesis H1 cuando de hecho es falsa. La cantidad

clip_image134[1]P(s Î S2 8)

se denomina potencia de el contraste, designándose por

(8) , y es función

de 8. Obsérvese que

(8) = P(I) cuando 8 Îm1 . También

(8)

= 1 – P(II) si 8 Îm2 .

A primera vista puede parecer que esta formulación del problema de los contrastes de hipótesis no tiene en cuenta la función de pérdida. En realidad, no prescinde de ella completamente, puesto que llegar a un valor razonable para requiere que el

experimentador sopese al s consecuencias de cometer errores de los tipos I y II. La

anterior formulación del problema ha recibido una atención preferente por parte de los estadísticos matemáticos y se emplea extensamente por los experimentadores.

10. CONTRASTE DE UNA HIPÓTESIS SIMPLE CONTRA UNA ALTERNATIVA SIMPLE.

Una hipótesis

H : 8Îm

se llama simple si m contiene un punto único. Así, si m 1

consta del punto

81 y si m 2 es el punto

82 , el problema se denomina contrastar una

hipótesis simple contra una alternativa simple.

Aquí la función de riesgo para una estrategia d toma dos valores

R(d;81 ) = l(81 )P(I ) y R(d ;82 ) = l (82 )P(II ) ;

por tanto, para cada función de decisión d, el riesgo

R(d;82 )

puede representarse por

un punto en un gráfico cuyas coordenadas sean

R(d;81 ) y

R(d;82 ) . Análogamente,

(d;8) podrá representarse en un gráfico cuyas coordenadas son las probabilidades de

error P(I) y P(II). Este último gráfico no implica la función de pérdida y es útil en aquellas aplicaciones donde esta función no se conoce perfectamente y P(I) y P(II) pueden utilizarse como se explicó en la sección anterior.

DEF Una estrategia (función de decisión o contraste) d es admisible si no existe otra estrategia d* tal que

R(d*;8) £ R(d;8) y

para todo 8 de W

R(d*;8) < R(d;8)

para algún

8 de W

Como se indicó anteriormente, no hay en general, una función de decisión que dé riesgo mínimo para todos los valores de 8 en W ; por tanto, se comprende que lo más razonable consiste en hallar la clase de las funciones de decisión admisibles y seleccionar una de ellas.

Para ayudar a encontrar la clase de estrategias admisibles, probaremos que toda estrategia admisible es una estrategia de Bayes, y que toda estrategia de Bayes es una contraste de la razón de verosimilitud. Por tanto, toda estrategia admisible es un contraste de la razón de verosimilitud. En consecuencia, si es posible hallar la clase de contrastes de la razón de verosimilitud, está incluirá todas las estrategias admisibles; la obtención de la clase de contrastes de la razón de verosimilitud es, frecuentemente, bastante fácil dedicaremos el resto de esta sección al desarrollo de estas ideas. Recordemos que nos limitamos a considerar una hipótesis simple y una alternativa simple.

DEF Estrategia de Bayes.- Una estrategia d es una estrategia de Bayes

correspondiente a probabilidades “a priori donde

h1 y h2 = 1 – h1 (hi ³ 0)

si hace mínimo B(d),

B(d ) = E[R(d;8)] = h R(d ;8 ) + h R(d ;8 )

1 1 2 2

Esbozaremos la demostración con el siguiente teorema.

TEOREMA

Para contrastar una hipótesis simple contra una alternativa simple, toda estrategia admisible es una estrategia de Bayes.

Dem.

En primer lugar, observamos que la estrategia de Bayes correspondiente a h1 y h2 puede representarse geométricamente dibujando la recta

h1 R1 + h2 R2 = c

y desplazándola mediante la variación de c, paralelamente a sí misma, hasta que toque a

T. El punto (o puntos) donde toca a T corresponde a la estrategia de Bayes. Como h1

varía desde 0 hasta 1, la pendiente de la recta lo hace, desde 0 hasta – ¥ . Una propiedad

de los conjuntos convexos es que, dado cualquier punto del contorno, existe una recta que pasa por ese punto en la que se apoya el conjunto. Luego para toda estrategia admisible, es decir, para cualquier punto de contorno inferior a T, existe una recta de apoyo que pasa por dicho punto. Por tanto, puede trazarse esta recta con pendiente no positiva, y expresarse en la forma

h1 R1 + h2 R2 = c

donde h1 y h2 son probabilidades posibles a priori (o sea, la estrategia admisible es una estrategia de Bayes.

0 £ hi £ 1). Por consiguiente,

El caso especial de contrastar una hipótesis simple contra una alternativa simple nos lleva a un resultado interesante; es decir, toda estrategia de Bayes es un contraste de la razón de verosimilitud.

DEF Contraste de la razón de verosimilitud.- Un contraste basada en una muestra

aleatoria

x1 ,…, xn

de la densidad

f (x;8)

para contrastar

H1 : 8 = 81

contra

H 2 : 8 = 82

es un contraste de la razón de verosimilitud, si existe un número k tal que el contraste permite

Aceptar H1 (acción a1) si Rechazar H1 (acción a2) si

y

> k

< k

una de las dos acciones si = k

donde ë es la razón de verosimilitud dada por

f ( x ;8 ) f ( x

;8 )… f ( x

;8 )

= t( x1 ,…, xn

) = 1 1 2 1 n 1

f (x1 ;82 ) f ( x2 ;82 )… f ( xn ;82 )

(1)

TEOREMA

Para contrastara la hipótesis simple

H1 : 8 = 81

contra la alternativa simple

H 2 : 8 = 82 , toda estrategia de Bayes es un contraste de la razón de verosimilitud.

Cabe interpretar que la razón de verosimilitud ë es una medida de cómo la evidencia confirma H1. Así, es razonable aceptar H1 cuando ë es suficientemente grande. Obsérvese que el ser “suficientemente grande” puede depender de factores tales como las pérdidas debidas al error y el grado de confianza previa, si la hay, en la hipótesis.

11. HIPÓTESIS COMPUESTAS.

En la práctica, la mayor parte de los problemas de contrastes implican hipótesis

compuestas. Estas hipótesis son de la forma

H1 : 8Îm1 , con la alternativa

H 2 : 8 Îm2 ,

en donde m1 y/o m2

contienen más de un elemento.

En los contrastes de hipótesis compuesta la situación resulta mucho más compleja que cuando las hipótesis son simples. En el caso compuesto, los contrastes admisibles son difíciles o imposibles de obtener. En este caso, nos contentaremos, en general, con un análisis de las probabilidades de error P(I) y P(II), e intentaremos hallar contrastes que de cierta manera las controlen.

TEOREMA

La región crítica Rk de extensión á que hace máxima la potencia de el contraste de

la hipótesis

H1 : 8 = 81 , contra la alternativa

H 2 : 8 = 82

donde x1, …, xn es una

muestra aleatoria de tamaño n de que satisface a

f (x;8) , se obtiene hallando la regió n Rk (si existe)

f (x ;8 ) f ( x

;8 )… f (x

;8 )

= t( x1 ,…, xn

) = 1 1 2 1 n 1 < k f ( x1 ;82 ) f (x2 ;82 )… f (xn ;82 )

(2)

para un número fijo k y tal que

Rk

ò ò …ò f (x1 ;81 ) f (x2 ;81 )… f (xn ;81 )dx1dx2 …dxn =

(3)

Esto, evidentemente, constituye una aplicación de la razón de verosimilitud.

A primera vista no parece claro cómo (3) implica k, pero la región en que se verifica

(2) cambia al variar k, y cuando esto ocurre puede haber una región (un valor de k) que satisface a (3). Es importante insistir en que este teorema proporciona una región crítica más potente (de extensión á) para contrastar solo que è es también un único punto. El teorema no da necesariamente un método para hallar una región crítica más potente de extensión á cuando ù 1 o ù2 contienen más de un punto. Veremos más adelante que algunas veces puede utilizarse en tales situaciones, que, evidentemente, son los casos más útiles. Es decir, un experimentador puede desear contrastar que la diferencia de rendimientos medios de dos variedades de trigo es cero cont ra la alternativa de que es

positiva. O un fabricante deseará quizá contrastar la hipótesis

H1 : m £ 0

contra la

alternativa

H 2 : m > 0 , donde ì es la diferencia de eficacia media de dos medicamentos.

En estos casos, ù1 o ù2 (o ambos) contienen más de un punto. Existen cuatro casos distintos:

1) ù1 contiene un punto y ù2 contiene un punto.

2) ù1 contiene un punto y ù2 contiene más de un punto.

3) ù1 contiene más de un punto y ù 2 contiene un punto.

4) ù1 y ù2 contienen más de un punto.

En general, el lema de Neyman-Pearson se aplica únicamente al caso 1, pero veremos que algunas veces es también útil en otros casos.

12. CONTRASTE DE È È1 CONTRA È>È1 PARA DENSIDADES CON UN PARÉMETRO ÚNICO È.

En estadística aplicada existen muchas densidades que contienen un parámetro único desconocido, tales como la binomial, la de Poisson, la normal de media conocida, la normal de varianza conocida, la exponencial, etc. Muchas veces un experimentador

desea contrastar la hipótesis

H1 : 8 £ 81

con la hipótesis alternativa

H 2 : 8 > 81 , siendo

è1 conocido donde la densidad es f (x;8) .

DEF Un contraste de la hipótesis

H1 : 8Îm1 , contra la alternativa

H 2 : 8 Îm2 , se

dice que es un contraste UMP de extensión á si su región critica R es tal que

P(I ) £

(8) = 1 – P(II )

es máximo

para todo 8 dem1

para cada 8 de m2

(1)

En la formulación de los contrastes de hipótesis dada en (12-3-1), un contraste UMP es la “mejor” contraste.

A continuación daremos un teorema bastante útil para determinar un contraste UMP

de H1 : 8 £ 81

contra la hipótesis alternativa

H 2 : 8 > 81 .

TEOREMA

Sea x=(x1, …, xn) una muestra aleatoria de una densidad con un único parámetro 8

en un intervalo W , y sea

f (x;8)

la densidad conjunta de las variables aleatorias.

Supongamos que

f (x;8)

puede escribirse así:

f ( x;D) = s(8)U ( x)ev ( x ) t(8 ) (2)

clip_image129[1]

1

donde t(è) es una función estrictamente creciente de 8 en W . Si existe una constante c

tal que

P[v( x) > c 8 ] = para un á dado y comprendido entre 0 y 1, R es entonces una

región crítica UMP de extensión á para contrastar

H1 : 8 £ 81 contra

H 2 : 8 £ 81 , donde

1

R = {x : v( x) > c}. Si t( 8) es una función estrictamente decreciente de 8 en W y si

existe una constante c tal que

P[v( x) < c8 ] =

para un á dado y comprendido entre 0

y 1, R es una región crítica UMP de extensión á para contrastar

H1 : 8 £ 81

contra

H 2 : 8 £ 81 , donde

R = {x : v( x) < c}.

BIBLIOGRAFÍA RECOMENDADA.

Estadística Teórica. Aut. J.M.Doblado y M.C. Nieto. Edit. UNED Introducción a la Estadística Teórica. Aut.: G Arnáiz. Edit.: Lex Nova Estadística Teórica y Aplicada. Aut.: A. Nortes. Edit.: S. Rodríguez.

Introducción a la Probabilidad y la Medida (I). Aut.: P Zoroa y N. Zoroa. Edit.: Maior DM.