viernes, 19 de febrero de 2016

La jornada de un obseso mental. Parte 1ª

Pormenorizado estudio de un lamentable cuadro clínico.

(Este post, para celebrar el renacimiento del blog tras más de un año de eclipse, no es apto para lectores no adictos a las matemáticas de andar por casa o, en su defecto, no interesados en problemas mentales de obsesión compulsiva).

Hace cosa de dos semanas me llegó una especie de adivinanza, acertijo, problema o como quieran ustedes llamarlo. Decía así: 
Una población tiene dos hospitales. En el hospital más grande nacen unos 45 bebés cada día, y en el más pequeño unos 15 bebés cada día. Como se sabe, alrededor del 50 por ciento de los bebés son niños. Pero el porcentaje exacto varía de un día a otro. Unas veces puede ser superior al 50 por ciento y otras, inferior. 

Durante un período de 1 año cada hospital registra los días en los que más del 60 por ciento de los bebés son niños. ¿Qué hospital crees que registró más días como estos? 

a) El hospital grande. 

 b) El hospital pequeño. 

c) Los dos más o menos lo mismo (es decir, con una diferencia del 5 por ciento entre uno y otro). 
Me pilló con la cabeza en otras cosas y estuve un par de días sin hacerle ni caso. Cuando decidí hacérselo contesté al remitente, tras pensar dos minutos, algo así como: "No veo ningún motivo para que ninguno de los dos tenga más días con un 60 % de varones que el otro, así que imagino que la respuesta correcta es la c). Lo que me desconcierta es que se plantee como problema, a mí me parece obvio. Pero puesto que me lo preguntas, debe de ser que no lo es tanto. Se me debe de estar escapando algo, pero no sé qué."

Me desasosiega mucho la sensación de que algo se me está escapando, así que el problema siguió dándome vueltas dentro de la cabeza. Hasta que para acabar con mi desazón decidí llevarlo a los extremos, que suele ser una excelente manera de razonar (tiene el inconveniente de que nunca falta quien te llame exagerado, o asegure que eso que tú dices no tiene nada que ver con lo que ha dicho él, o te acabe acusando, con virtuosa indignación, de hacer comparaciones escandalosas y ofensivas entre, qué sé yo, la tauromaquia y la ablación del clítoris, por ejemplo. Pero no hay que hacer caso, yo ya estoy acostumbrado y persevero en practicar la reductio ad extremum, que me resulta siempre muy esclarecedora).

Imaginemos otros dos hospitales, más diferentes aún que los del problema, me dije a mí mismo. Uno tan pequeño que solo nazca en él un niño al día y otro tan grande que nazcan cinco mil. ¿Superarán los dos con la misma frecuencia el 60% de nacimientos de un sexo determinado?

Y una vez más, en los extremos se me hizo la luz: el pequeño alcanzará un 60% de varones –lo superará, de hecho, con el 100%–  todos los días en los que su único alumbramiento diario sea niño, es decir, más o menos la mitad de los días. En cambio el enorme es seguro que no lo alcanzará nunca. Es estadísticamente imposible que de cinco mil bebés, tres mil sean varones. Lo previsible es que se repartan por mitades, 2.500 machos y 2.500 hembras. En la práctica, claro, el reparto nunca será tan exacto, puede suceder que un día haya 2.550 niños y 2.450 niñas, o viceversa. Puedo llegar, en un día loco, –con luna llena, o nueva, o como tenga que estar para estas cosas–, a 2.600 de un sexo contra 2.400 del otro, y ya me parece mucho conceder. Pero por muy imprevistamente que la realidad quiera sacudirse las tutelas estadísticas que la apacientan, lo que evidentemente no sucederá nunca en este hospital enorme es que nazcan 3.000 de un sexo y solo 2.000 del otro; y eso es lo que tendría que pasar para que se alcanzara el 60 % de nuestro problema.(1)

O sea, que en el de 1 nacimiento diario se alcanzará el 60% de varones ciento ochenta y tantos días al año. Y en el de 5.000, ni un solo día. La cosa parece clara.

Cuanto más grande sea el hospital y más nacimientos se produzcan en él, más se ceñirán estos nacimientos al reparto esperable entre varones y hembras, que es del 50 % para cada uno, y menos probabilidad habrá de que las desviaciones diarias de esa media sean significativas. Por lo que el hospital grande, de cuarenta y cinco nacimientos diarios, registrará un 60 % o más de varones menos días que el hospital pequeño, de solo quince. La respuesta correcta, comprendí, es la b): el hospital pequeño.

(Es el mismo principio, evidente una vez caes en él, por el que las encuestas son más fiables cuantas más encuestados haya. Si tú le preguntas a diez o doce vecinos lo que piensan votar, el resultado de tu consulta no se parecerá ni de lejos al de las elecciones. Si se lo pudieras preguntar a la mitad del censo, lo clavarías.)

Pero a pesar de mi natural satisfacción por haberme demostrado a mí mismo una vez más lo listo que soy –aunque, eso sí, un poco lento– quedaba un detalle que seguía rondándome por la cabeza. El enunciado del problema hablaba de que hubiera entre los dos hospitales una diferencia de menos del 5 %. Y yo no sabía si ese requisito se cumplía. El hospital de quince nacimientos diarios tendrá más días fastos –o nefastos, según se mire– que el de cuarenta y cinco, de acuerdo, pero ¿cuántos más? Porque si en uno es esperable que se registren... por ejemplo... treinta y cinco días al año con más del 60 % de varones, y en el otro solo treinta y cuatro días al año, esta diferencia cumplirá la regla general de que el pequeño sea estadísticamente más díscolo, pero la respuesta al problema ya no será la b), sino la c), porque la diferencia entre ambos no llegará al 5 %.

Me volví loco buscando por Internet alguna regla estadística que relacionara el tamaño de una muestra (el número diario de nacimientos) con las varianzas, desviaciones típicas o cualquier otra magnitud que mida las diferencias esperables entre los datos reales y la media a la que deberían aproximarse. No creo que exista –lo ignoro todo de la Estadística y casi todo del Cálculo de Probabilidades– pero, en cualquier caso, no la encontré, como era de esperar.

Puesto que la predicción teórica me falla, me dije muy científicamente, recurramos a la comprobación empírica. No puede ser muy difícil hacer con Excel un simulador de nacimientos, niño o niña, y comprobar cuántos días de cada trescientos sesenta y cinco uno de estos dos sexos alcanza o supera el 60% si los hacemos nacer de quince en quince, y cuántos si los hacemos nacer de cuarenta y cinco en cuarenta y cinco.

Soy un poco raro, y pocas cosas (algunas, sí, tranquilos: pero pocas) me entretienen y absorben más que inventarme hojas de Excel para propósitos recónditos y tirando a abstrusos Las hojas de cálculo me parecen la herramienta más asombrosamente útil que nos ha dado la informática a los ciudadanos de a pie –con la posible excepción del FinaleNotepad–. No soy un experto en su uso, manejo con cierta soltura las funciones más básicas, pero precisamente por eso me fascina explorar el enorme campo de sus posibilidades que aún desconozco, y haciéndolo a mi aire es, en realidad, como he llegado a la modesta destreza con que las empleo. Puedo estarme horas trasteando con ellas hasta conseguir que hagan lo que pretendo. Nunca he entendido, por eso, que nadie se gaste un duro de su dinero ni dos minutos de su tiempo en juegos ni en videoconsolas, teniendo un Excel diez veces más apasionante que el mejor de ellos.

Así que al cabo de media horita, o quizás menos, de pensar intensamente y de investigar funciones de Excel ya tenía a punto mi simulador. La función "=aleatorio()" te da, en cada casilla en que la metas, un número decimal entre 0 y 1, uno cualquiera al azar entre los mil billones(2) posibles, todos de la forma "0,453625885714902". Si la metes en quince casillas, y a cada una de ellas le das el valor "1" cuando el numerito en cuestión sea mayor o igual que 0'5, y el valor "0" cuando sea menor, tienes quince fenómenos aleatorios, cada uno de ellos con dos opciones, "0" o "1", de igual probabilidad. Es decir, quince lanzamientos de moneda a cara o cruz. O quince nacimientos a niño o niña: una exacta reproducción de un día de la clínica pequeña.



Si en una decimosexta casilla sumas el contenido de las quince anteriores, sabes cuántos niños ("1") han nacido ese día (o cuántas niñas, si hubieras decidido que el "1" son niñas; no quiero herir suceptibilidades feministas). Si en otra decimoséptima casilla divides ese número de niños por quince, sabes qué porcentaje de niños ("1") ha habido ese día sobre el total de nacimientos. Y si en otra decimoctava casilla haces aparecer un "1" si ese porcentaje es igual o mayor que 0'6, y un "0" si es menor, ya tienes cuantificado uno de tus días, como fasto ("1") o como nefasto ("0").


Basta repetir, copiando y pegando, este mismo esquema en otras trescientas sesenta y cuatro filas para tener un año de la clínica pequeña. En la fila tricentésimo sexagésimo sexta (la número 366, vaya, o la número 367 si se emplea una primera fila en encabezamientos aclaratorios, como yo hice) sumas los días (filas) fastos, y ya sabes cuántos días de ese año el sexo elegido ha alcanzado o superado el 60% de los nacimientos. Cada vez que actualices la hoja con F9, tienes un nuevo año, con su numerito de días "especiales". Y si lo haces una cantidad razonable de veces, apuntas los resultados, los sumas y divides el total por esa cantidad, tienes la media de todos los años así simulados: una aproximación más o menos fiable de lo que cabe esperar que produzca anualmente la clínica pequeña en cuestión de días con más del sesenta por ciento de niños de un sexo determinado.


Veinticinco años nada más simulé yo, porque apuntar el resultado cada vez que "actualizaba" a un nuevo año era una pesadez, y sumar luego los resultados, otra peor. Veinticinco años me parecieron suficiente muestra –y suficiente trabajo–, y me salieron 110 días al año de media, en ese primer y trabajoso recuento. Más o menos, el 30 % de los días.(3)

Y haciendo lo mismo en otra hoja para el hospital grande (la cosa se hace exactamente igual, cambiando quince por cuarenta y cinco: metes la fórmula en cuarenta y cinco casillas, divides por cuarenta y cinco la suma de "unos"... y el resto, igual que en la otra) resultó que en ella la cosa andará, más o menos, en torno a los 43 días al año con más del sesenta por ciento de nacimientos de un sexo determinado: entre el 11 y el 12 % de los días.

Asunto resuelto.

Cabría esperar que con todo esto el obseso mental que hay en mí se quedara tranquilo: la diferencia prevista por la teoría se cumplía muy satisfactoriamente en la práctica, y muy holgadamente, además. Había mucho más de un 5% de distancia entre las frecuencias con las que una y otra clínica superaban el umbral del 60% de varones. Ya podía responder con seguridad que la respuesta correcta era la b) y olvidarme del asunto. 

Pero, amigos míos, la dolencia era más grave de lo que parecía a primera vista, y el adicto no había hecho más que empezar a adentrarse en los infiernos de su vicio.

Lo que quiere decir, tiemblen, que nos espera al menos una segunda parte...



(1) Una simulación con Excel de un hospital de 5.000 nacimientos diarios durante 2.500 días no arrojó ni un solo día con más de 2.680 niños de uno de los dos sexos. La máxima desviación producida sobre el 50% esperable fue el 53'5% (2.673 niños del mismo sexo). A mi ordenador, eso sí, le llevó un ratito el averiguarlo.

(2) Mil billones, claro, si solo consideramos los quince primeros decimales, como hace Excel. En realidad son infinitos. Qué fatiga...

(3) No olvidemos que, presumible y simétricamente, habrá otro treinta por ciento de días en que los varones nacidos no alcancen el 40%, es decir, en que lo que alcance o supere el 60% sea el nacimiento de niñas. O sea, que el porcentaje de días en que alguno de los dos sexos alcance o supere el 60%  será el doble del hallado para un sexo determinado. En este caso, del sesenta por ciento, y en el de la clínica grande, del veintitantos por ciento. Podría hacer una hoja que calculara también esta frecuencia...
 

17 comentarios:

  1. Ya que tuviste a bien ir compartiendo conmigo tus investigaciones neonatalicias antes de publicar la crónica en este tu Blog renacido, fui siguiendo, primero con curiosidad, luego con interés y al final ya casi con hastío tus progresos estadísticos. Hoy, al ver publicada esta reseña, no me queda sino felicitarte por la claridad y amenidad de la exposición de un tema tan abstruso y poco atractivo como para mí es todo lo relacionado con la ciencia probabilística. Y muy especialmente quiero felicitarte por tu correcto uso de los números ordinales, cuando haces referencia a "la fila tricentésimo sexagésimo sexta". En estos tiempos en los que estos nobilísimos números están dejando de ser usados es reconfortante leerte. Como ejemplo de este mal uso puedo citarte el de Radio Clásica, de RNE, (un medio de comunicación supuestamente culto) que lleva una buena temporada destrozando los oídos del oyente sensible al citar una y otra vez que esa casa está celebrando su "cincuenta aniversario" (sic). Y eso que se trata de un medio de comunicación supuestamente culto. ¿Qué cosas dirán en Telecinco?

    ResponderEliminar
  2. En primer lugar, ¡me alegro de tu vuelta!

    Sobre la entrada en sí, me has dejado escamado. No me figuro, te lo digo en serio, qué más se puede sacar de este ejercicio, cuya resolución me parece adecuada. Así que ya espero la entrada siguiente.

    P.D: Muchos juegos de rol (y sus videojuegos correspondientes) tienen una importante carga matemática. Otra cosa es que la gente no lo vea así por razones absurdas.

    ResponderEliminar
  3. Yo lo veo bien resuelto, así que no comprendo que se puede esperar de una segunda parte. Excel y yo somos así.

    Me alegro de que vuelvas aunque sea con los jueguitos

    ResponderEliminar
  4. Hola, Ricardo. Con encomiable modestia, omites decir que fuiste el remitente del problema, o sea, el culpable del post (y de lo que vaya viniendo). Ya tendremos ocasión de conocer otras participaciones tuyas en este triste proceso. Me alegro de que te haya parecido bien.

    Hola, Ozanu y Lansky. Es cierto que el problema no parece dar para mucho más, pero todo es ponerse a investigar. Como pequeño adelanto puedo decir que si, en vez de con sendos hospitales de 45 y 15 nacimientos diarios, se planteara con otros dos de 10 y 4, cabrían serias dudas sobre cuál es la respuesta correcta. Pero la siguiente (o siguientes, aún no lo sé) partes del post dirán...

    ResponderEliminar
  5. Me siento en falta porque no he tenido tiempo para jugar con tu excel; a ver si lo encuentro este fin de semana. Tan sólo una corrección: no es estadísticamente imposible que de cinco mil bebés, tres mil sean varones. Por el contrario, con suficientes días naciendo cinco mil niños, es seguro que en alguno de ellos se alcanzará ese 60% de varones que te parece imposible.

    De hecho, los jugadores de ruleta a rojo/negro (probabilidades del 50%) que creen que es estadísticamente imposible una serie de demasiados rojos (o negros) seguidos cometen el mismo error que tú, pero ellos suelen arruinarse (cuando su sistema es doblar sucesivamente la apuesta).

    La distribución de frecuencias de los nacimientos probablemente respondera a la campana de Gauss, aunque ciertamente bastante estrecha (es una pista para tus investigaciones). Evidentemente, la distribución real se asemejará más a la esperada (Gauss) cuando la muestra sea mayor, como demuestras en el post.

    También yo quedo a la espera de la segunda parte. Y me alegro mucho de leer un nuevo post tuyo.

    ResponderEliminar
  6. Por cierto, al ver la hora en que tu blog dice que he publicado mi comentario, compruebo que vas con la hora de California. Interesante.

    ResponderEliminar
  7. Hola, Miroslav. Mi ordenador empleó entre dos y tres minutos en ordenar las dos mil quinientas cifras de varones nacidos en cada uno de los dos mil quinientos días de mi simulación del hospital enorme, para decirme cuál era la mayor. Lo acabo de comprar -quizás eso explique el asunto de la hora de California, que ahora investigaré- y me resisto a imponerle de nuevo una prueba tan dura. O más dura, en realidad, puesto que tendría que simular la cifra más alta de días que me permitiera Excel para ver si en esos... más de un millón de filas me dice Google que tiene Excel 10; o sea si en ese millón largo de días, cerca de tres mil años, había alguno en que nacieran tres mil niños o más. Pero estoy prácticamente seguro de que no habría ninguno.

    Lo cual no me impide convenir contigo en que, efectivamente, no es estadísticamente imposible que suceda, solo sumamente improbable, lo que basta para validar mi argumento. En el hospital de un nacimiento diario sucede un día sí y otro no, en el de cinco mil nacimientos diarios es sumamente improbable que suceda. ¿Te gusta más así?

    No acabo de entender qué papel juega la campana de Gauss en este asunto, según tú. Mi próximo post contendrá algún que otro gráfico relativo a este asunto, pero ninguno parecido, ni de lejos, a la campana de Gauss, que a mí me sugiere algo que sube para volver luego a bajar, o sea, alto en un valor central y progresivamente bajo a medida que nos alejamos de ese valor en ambas direcciones. Las frecuencias esperables de días fastos, en cambio, parece lógico suponer que comienzan en su valor más alto y descienden desde él hasta desaparecer -o hasta hacerse sumamente improbables, como bien matizas-. Nada de Gauss, pues, salvo que me lo expliques mejor.

    Miro la hora de mi ordenador segundos antes de apretar el botón de publicar, y marca la hora madrileña correcta, las doce y tres minutos de la noche. Veremos qué hora marca este comentario una vez publicado. No me tientes, que aquí puede haber materia para otros tres o cuatro posts...

    ResponderEliminar
    Respuestas
    1. Efectivamente, algo raro pasa con la hora. Dice que lo he publicado a las 15:02 del día 19. Lleva nueve horas de atraso. Vaya usted a saber por qué...

      Eliminar
  8. En nuestra especie la sex ratio a nivel mundial es aproximadamente de 1:1, es decir, del 50%, más concretamente hay 1,01 hombres por cada mujer. Con una muestra total en todas las edades de más de 6.000 millones, claro. Si embargo esa proporción (50,5% vs 49,5%) varía drásticamente analizada por edades y así todos saben que hay más viejas que viejos, ergo hay más niños recién nacidos que niñas y más mortalidad conforme se eleva uno en la pirámide de edades hacia las más avanzadas. Quiero decir que nacen más niños que niñas, una significativa diferencia de hecho; concretamente 1,07 niños frente a una niña, o lo que es lo mismo, 53,5% de varones frente a 46,5 hembras. ¿Sirve esto para este asunto y tus excels? Francamente no lo sé.

    ResponderEliminar
  9. Respetado Lansky: Aunque nunca he comentado tu magnifico blog, lo sigo y lo admiro. A pesar de ello no estoy dispuesto a admitir que 1,07 niños frente a una niña sea lo mismo que el 53,5% de varones y el 46,5% de hembras. Los porcentajes, si por cada 1,07 niños nace una niña, son 51,7% y 48,3%.

    ResponderEliminar
  10. Vanbrugh, supongo que el retraso de nueve horas que aparece en la publicación de los comentarios puede deberse a que se refleje la hora del huso horario en el que se encuentra físicamente el servidor que aloja a este blog. Si es así, quiere decir que este blog está alojado en un servidor situado en el "lejano oeste" de los EEUU, cosa bastante lógica ya que por allí se cuecen todos los asuntos de Google, empresa propietaria de Blogspot.

    ResponderEliminar
  11. Sabía que el porcentaje de nacimiento de niños es ligeramente más alto que el 50% del total, Lansky, y el de niñas correlativamente menor, probablemente para compensar que los hombres, menos resistentes físicamente (no tenemos que parir) o más desgastados por la mala vida, tendemos a morirnos antes. Mi hoja de cálculo podría reflejar este dato muy facilmente, sin más que dar el valor "1" a los números aleatorios iguales o superiores a 0'5169 (en vez de a 0'500, como ahora) y el valor "0" a los inferiores. Pero lo cierto es que cuál sea el porcentaje esperable, 50% 0 51'7%, no afecta en nada a nuestro problema, que sería el mismo si en vez de a nacimientos de niño o niña se refiriera a lanzamientos de monedas, o de dados, o a la extracción de cartas, o a cualquier otro fenómeno aleatorio de probabilidad calculable y conocida; y que lo que trata de ilustrar es la verdad estadística (verdad, pero no inmediata ni intuitivamente evidente, como se comprueba al menos en mi caso, que tardé un buen rato en dar con la respuesta correcta) de que, a mayor tamaño de la muestra, menor probabilidad de que los datos se alejen significativamente de la media, sea esta la que sea.

    (Los porcentajes serían los que tú dices si hubiera 1'07 niños por cada 0'93 niñas. Pero no es así, hay 1'07 niños por cada 1 niña, por lo que el porcentaje de niños es de 1'07/2'07 = 0'516908 = 51'7%, como bien dice Ricardo).

    Ricardo, tu hipótesis sobre el retraso horario de mis comentarios me parece muy verosímil, pero me perturba bastante. ¿Qué cuernos hace mi blog paseándose a esas horas por California?

    ResponderEliminar
    Respuestas
    1. Ricardo y Vanbrugh:lleváis razón

      Vanbrugh (Homo obsesus-mentalis), el coyote (Canis latrans) y el cóndor de California (Gymnogyps californianus) forman parte del mismo ecosistema, así que es lógico que también tengan la misma hora, y hasta los mismo horarios

      Eliminar
    2. Primero se me fue a EEUU el hijo, ahora se me va el blog. En esta maldita casa todo el mundo viaja, menos yo.

      Eliminar
  12. Me has abierto un horizonte nuevo con los usos estadísticos de excel, del que no soy muy ducho. Espero tener tiempo e imaginación para encontrarle una aplicación a los estudios literarios que me permita jugar con ello sin remordimientos de conciencia.

    ResponderEliminar
  13. Me has abierto un horizonte nuevo con los usos estadísticos de excel, del que no soy muy ducho. Espero tener tiempo e imaginación para encontrarle una aplicación a los estudios literarios que me permita jugar con ello sin remordimientos de conciencia.

    ResponderEliminar
  14. Hombre, claro, Gejotacé. Nada más fácil. Tu te abres tu hoja de Excel para hacer con ella lo que te apetezca. Y en la pestaña inferior, donde pone "Hoja 1", tú escribes resueltamente: "Sintagmas léxicos y funcionales en el primer Gonzalo de Berceo", pongo por caso, o algo así, ya me entiendes, tú sabrás mejor. Y que venga nadie, incluído tú mismo, a negar que lo que allí hagas no está relacionado precisamente con eso.
    Igual hasta lo puedes publicar luego, como bien sabes de esas cosas se hacen los prestigios académicos.

    Bienvenido a este tu blog, por cierto. Un palcer recibirte.

    ResponderEliminar