jueves, 25 de febrero de 2016

La jornada de un obseso mental. Y Parte 3ª

Para Ricardo, por proveerme de combustible. Y para Miroslav, por prestar atención a mis humaredas y hasta dedicarles un post.


Recuerden ustedes que este post es el tercero de una serie con primera y  segunda parte, que espero que lo hagan un poco más inteligible.


La convalecencia.

Quedamos en que yo estaba hondamente perturbado por los inesperados sucesos que habían tenido lugar en mi ordenador.

Eran mis datos, obtenidos a golpe de mi dedo, con mi simulador, los que desafiaban impertinentemente leyes fundamentales de la estadística, bajando y subiendo irresponsablemente en circunstancias en las que habrían tenido que limitarse a bajar.

Era en mi tabla de frecuencias donde una clínica de diez nacimientos diarios se permitía alcanzar o superar el sesenta por ciento de varones más frecuentemente que otra de solo cuatro nacimientos diarios, en abierta rebeldía contra el principio indiscutible según el cual debía hacerlo menos frecuentemente.

Urgía encontrar una explicación a acontecimientos tan escandalosos. Y sobre todo urgía tomar la primera medida que a uno se le ocurre en situaciones como esta: buscar alguien a quien echarle la culpa.

Yo empezaba a barruntar una posible explicación de la sorprendente conducta de mis frecuencias, pero no iba a ponerme a investigarla sin estar seguro de que la cosa lo mereciese. Ganas de perder el tiempo y de buscarse problemas sin necesidad.

No, no; lo conveniente era que, antes de que yo me enredara en explicaciones comprometedoras, alguna autoridad matemática competente se hiciera cargo de la peligrosa situación, asumiera la responsabilidad de lo que allí estaba pasando y estableciera oficialmente si aquellas cifras mías podían o no dedicarse legítimamente a pegar saltos.

De modo que me puse a buscar con denuedo a esa autoridad matemática. En Internet, claro, dónde si no. Mis Matemáticas de COU, última ocasión en que yo supe algo de Cálculo de Probabilidades, yacían perdidas por algún rincón poco frecuentado de mi memoria, y a quitarles el polvo con la ayuda de Gúguel me apliqué con ahínco.

Afortunadamente tardé muy poco en dar con Daniel Bernouilli, un señor del siglo XVIII, medio holandés, medio suizo, que parecía dispuesto a interesarse por mi problema. A mí me sonaba que era físico y se ocupaba de cosas como cañerías y fluidos, pero por lo visto también se había interesado por las probabilidades. Con los sabios del XVIII y del XIX da gusto, servían para un fregado lo mismo que para un barrido, sabían de todo. No como los de ahora, que en cuanto nos sacan de nuestra especialidad ya no sabemos ni por dónde nos andamos.

Este buen señor, me informó la Wiki, habia estudiado largamente, e incluso dado nombre, a la distribución de variable discreta de Bernouilli.

Lo de "discreta" empezó ya por caerme en gracia: si había yo metido la pata con mis exceles, no quería darle tres cuartos al pregonero y que se tuviera que enterar todo el mundo.

Hablando más propiamente, precisamente por ahí iban mis esperanzas de explicación: los altibajos de mis datos se producen, empezaba yo a creer, porque se refieren a un fenómeno discreto, y no continuo. Esto es, porque su variable (el niño o la niña) no es infinitamente divisible, sino que tiene una unidad mínima, indivisible: el bebé propiamente dicho, que no puede ser dividido sin provocar comentarios. Ese de la discreción creía yo que iba a resultar el quid del asunto –luego hablaremos de ello, no se preocupen–, y por eso la distribución esta de probabilidades, sea lo que fuere, con ese nombre tan oportuno, tenía toda la pinta de venirme al pelo.

Y así resultó ser porque, según la Wiki, Don Daniel sabía cómo se calcula lo que precisamente necesitaba yo averiguar por vías distintas de las empíricas que tantos problemas me estaban dando: cuál es la probabilidad de que, de diez niños nacidos, seis sean varones.

Él, más genéricamente, enfocaba el asunto así: la probabilidad P de que al realizar n veces un ensayo se produzca k veces uno de los posibles resultados (cuya probabilidad individual es p) viene dada por la siguiente fórmula:
Que se vuelve menos hermética si recordamos que n!, "ene factorial", es el producto de todos los enteros desde 1 hasta n. Y más legible todavía si, aprovechando que nuestro caso no presenta más que dos posibles resultados, niño o niña, cada uno de ellos con una probabilidad de 0'5, por lo que p y (1-p) valen ambas 0'5, la escribimos así:
Con lo que ya estamos en condiciones de cambiar n por 10, y k por 6, y encontrar que la probabilidad de que haya seis niños entre diez recién nacidos es:
Lo que, realizadas las operaciones correspondientes, resulta valer 0'20507

Pero no solo nos sirve alcanzar el 60% de niños, los 6 calculados; también nos vale superarlo. O sea, que también tenemos que considerar como resultado favorable que nazcan 7, 8, 9 o 10 varones. Y podemos calcuar igualmente las probabilidades de cada uno de estos casos:

De que haya siete niños  : 0'11719
De que haya ocho niños  : 0'04394
De que haya nueve niños: 0'00976
De que haya diez niños   : 0'00098

Sumando estas cinco probabilidades obtenemos la de alcanzar o superar el 60% de varones con diez nacimientos diarios: 0'37695.  El 37'7% de probabilidad.

(Mi simulador decía que era el 37'5%, dos décimas menos. No iba tan descaminado).

Si hacemos lo propio con la clínica de cuatro nacimientos diarios, que supera el 60% de varones cuando nacen 3 niños (75%) y cuando nacen 4 niños (100%), nos encontramos con que en su caso las probabilidades son:

De que haya tres niños     : 0'25000
De que haya cuatro niños: 0'06250

Que suman 0'31250, un 31'25% de probabilidad. Mi hoja de Excel la había fijado en el 31'0%. Otra vez dos décimas menos. Se desvía hacia abajo, parece, tendré que ajustarle la mira

Bueno, pues asunto aclarado. Qué fáciles se vuelven las cosas cuando las coge entre manos un experto. Ya podía yo descansar tranquilo. Mis frecuencias hacían cosas raras y con pinta de ilegales, sí, pero quedaba comprobado que las hacían con conocimiento y permiso de un matemático competente de reconocido prestigio. No era culpa mía, ni de mi simulador. De ser culpa de alguien, sería del Bernuiyí este, que para eso viene en la Wiki.

Mi satisfacción no se debía solo a haberme quitado ese peso de encima. Estaba también muy contento porque mis hojas de cálculo, a fin de cuentas, funcionaban bien. Ahora que conocía el modo de calcular las probabilidades teóricas, me apañé una nueva hoja con la formulita del holandés-suizo, con la que averigüé las frecuencias con que, según él, superaban el 60% de varones todos los hospitales de mi tabla. (Es decir, no todos, solo los 170 primeros. Porque para calcularlas hay que encontrar primero cuánto vale el factorial de su número de nacimientos. Ese "!" puesto detrás del numerito, ¿se acuerdan? que quiere decir que hay que multiplicarlo por todos los inferiores hasta el 1. Y Excel no da para calcular el factorial de números más grandes que 170. Habida cuenta de que el factorial de 170 vale 7'257 multiplicado por un 1 seguido de trescientos seis 0, tampoco es de extrañar).

El caso es que de las ciento setenta, más de la mitad coincidían exactamente (vamos, hasta el primer decimal, que es donde yo redondeé) con las que había encontrado yo a golpe de simular años dando clics en el ratón. Y, de la mitad que no coincidían, solo una se alejaba cuatro décimas (la del hospital de 5 nacimientos, un 50'4% que desde el principio me cantó), las demás se iban una, dos o, como mucho tres décimas arriba o abajo. No hacía falta ajustarle la mira, mira qué bien.

Y también estaba muy contento por haber puesto al día mis conocimientos de cálculo de probabilidades, que me vendrán muy bien para cuando juego al póker. Para perder con más conocimiento de causa.

Pero sobre todo estaba contento porque, por fin, había dado con la explicación de la conducta ciclotímica de las dichosas frecuencias. No hay como las matemáticas para poner las cosas en claro. Los altibajos de mi tabla tenían sus motivos, como enseguida veremos. De hecho solo parecían contradecir las leyes estadísticas, porque lo que en realidad hacían cuando pegaban esos botes tan espectaculares era cumplirlas escrupulosamente.

(Vaya, hombre, ahora que había quedado claro que no era culpa mía, resulta que todo está en orden y que no hay nada de lo que echarle la culpa a nadie. Siempre pasa lo mismo).

Y en realidad esta explicación, como todas una vez se conocen, era bastante simple. Se la cuento en cuatro párrafos:

Quizás recuerden uno de los dibujitos decorativos pero innecesarios de mi anterior post, en el que se señalaban, como por pasar el rato, los máximos y los mínimos locales de la quebradiza curva de frecuencias. Bien, a lo mejor no es un gráfico tan inútil como yo creía.

No se ve muy bien, porque Excel coloca las cifras de los ejes de aquella manera: pero las barras azules de este gráfico, que son los máximos locales de frecuencia, resultan todas corresponder a los hospitales cuyo número diario de nacimientos es múltiplo de cinco: 5, 10, 15, 20... 100. Lo son todos los que están, y están todos los que lo son.

Entre otras útiles características, los números que se pueden dividir por 5 exactamente, sin dejar resto, presentan la de tener un 60% entero, sin decimales. El de 5 es 3, el de 10, 6, el de 15, 9...., el de 150, 90..., el de 300, 180.

Son los únicos enteros a los que les pasa, además. Todos los demás números enteros, los no divisibles exactamente por cinco, tienen un 60% no entero, con una parte decimal más o menos larga. De todos los "sesentas por ciento" de los números enteros, solo los de los múltiplos de cinco son también números enteros, y van por el mundo sin arrastar una ristra de numeritos tras la coma.

(Es fácil entender por qué es así: 60% = 3/5. El sesenta por ciento de algo es lo mismo que tres quintas partes de ese algo. Si la quinta parte es un entero, al multiplicarla por tres da tambien un entero. Si no, malamente, porque el cinco y el tres son ambos primos y no tienen divisores comunes).

Lo de tener decimales no tiene por qué ser un problema para un número, en general. Conozco muchos números racionales, y hasta irracionales, que son muy felices siéndolo. (Aunque los que mejor se lo pasan, creo, son los imaginarios, si bien a veces tienen ciertos complejos). Solo empieza a ser algo delicado cuando se habla de partos, por ejemplo, o de niños

Si para alcanzar el 60% de varones sobre su total diario de nacimientos una clínica necesita dar a luz 2'4 niños, por ejemplo, porque en ella nacen 4 bebés al día ¿cómo hace? No puede detener el parto cuando asoman solo cuatro décimas partes de niño para señalar el histórico momento en que alcanza el umbral señalado. Menos aún puede amputarlas de los otros seis décimos de niño y declarar que con lo ya parido se da por satisfecha. Ni siquiera puede decidir que el recién nacido tiene de niño solo las cuatro partes necesarias para llegar al 60%, y que las otras seis que ya no hacen falta pueden ser de niña, si quieren.

Como adelanté hace un rato, ser niño o niña es un fenómeno discreto. Su variable tiene una unidad mínima e indivisible, es niño, o niña, entero, en bloque y con todos sus tres kilos y pico de peso. No hay bebés que tengan un 0'3457 de varón y el restante 0'6543 de hembra, o no al menos de modo que la comadrona pueda apreciarlo a simple vista y consignarlo en el estadillo con sus correspondientes decimales.

Si no fuera así, si los niños, o su condición de macho o hembra, fueran tan divisibles como conviniera, y su nacimiento y sexualidad, por tanto, un fenómeno de variable continua, todos los hospitales de nuestro problema situarían tranquilamente sus frecuencias de 60% de varones sobre la graciosa curva que marcan los máximos de nuestro dibujito, que es la que de verdad corresponde a ese umbral del 60%. Una vez alcanzado el número y pico de varón necesario, darían por cumplida su misión y pasarían tan contentos al siguiente parto, cuando lo hubiere. No habría dientes de sierra en nuestro problema, y yo no habría tenido que escribir estos tres terribles posts.

Pero es así, el sexo es una variable discreta, de unidad indivisible (como Ehpaña), y es por eso por lo que cuatro de cada cinco de los hospitales de nuestro problema, alcanzado el 60% de varones, tienen que seguir adelante con la criatura entera, dejar atrás el 60% y alcanzar, de hecho, otro umbral superior, cuya frecuencia de llegada es, por consiguiente, más baja. Y por ello no se sitúa sobre la curva que de verdad corresponde al umbral del 60%, la de los máximos, sino sobre otras curvas, más bajas, que corresponden a estos otros umbrales, más altos:


O, dicho de otro modo, las frecuencias que tanto nos han sobresaltado dibujando esa línea caprichosamente picuda solo corresponden al 60% en el caso de los máximos. Los otros cuatro hospitales de cada cinco están señalando en ella, en realidad, la frecuencia con la que alcanzan esos otros umbrales más altos a los que por fuerza tienen que llegar para ser "iguales o mayores" que el dichoso 60%. Frecuencias que, en exacto cumplimiento de las leyes estadísticas, son más bajas cuanto más alto sea ese otro umbral al que verdaderamente corresponden.

Arriba, en rojo, los umbrales (% de varones sobre el total de nacimientos) realmente alcanzados por cada hospital (siempre iguales o mayores que 60%). Abajo, en azul, las frecuencias con las que se alcanzan (% de días en los que se supera el umbral). Las líneas verticales permiten ver cómo a una subida en el umbral corresponde siempre una bajada en la frecuencia, y cómo a las frecuencias máximas les corresponde siempre el umbral del 60%. Como los umbrales se alejan cada vez menos de este límite inferior, las frecuencias se alejan cada vez menos de la curva de los máximos.

O sea, que mis cifras no pegaban saltos para desobedecer los principios de la Estadística, sino para ajustarse a ellos. Y nosotros, escandalizándonos.

Todo lo cual creo yo que nos permite dar por resuelta la cuestión y por suficientemente explicado el asunto. Confesemos que ya iba siendo hora.

Para terminar: el resultado es que estos hospitales en los que diariamente no nace un número de niños múltiplo de cinco desperdician buena parte de un niño para cumplir con la condición del problema. Este inevitable despilfarro de varonez, si quieren verlo así, baja su rendimiento y hace que superen el 60% de varones con una frecuencia inferior  a la que alcanzan otros hospitales, más ahorrativos por ser múltiplos de cinco sus números de nacimientos diarios.

Pero, sea cual sea el tamaño del hospital, la cantidad de varón así desperdiciada a los efectos de superar el 60% no llega en ninguno a un niño entero. El "sobrante" de masculinidad, en consecuencia, es cada vez menos importante en proporción al número total de nacimientos. No es lo mismo malgastar 0'6 niños de un total de 4 que malgastar 0'8 niños de un total de 182. El derroche va siendo proporcionalmente menor a medida que aumenta el número de nacimientos diario, y su incidencia sobre las frecuencias también. Los dientes de sierra de la curva, en resumen, son cada vez menos marcados.

Y hay que ver lo tranquilo que me he quedado yo.

10 comentarios:

  1. Estupendamente explicado. La verdad es que "intuía" que los anómalos dientes de sierra tenían que ver con que fuera una distribución de variables discretas. El que la realidad sea "discreta" y la "modelicemos" de forma continua es una fuente inagotable de sorpresas.

    Ah, y en agradecimiento por la dedicatoria, te propongo un entretenimiento para el fin de semana.

    ResponderEliminar
    Respuestas
    1. Me alegro de que te parezca buena la explicación, porque mi capacidad expositiva no da para más. El post era inicialmente el doble de largo, enrevesado en en subexplicaciones redundantes, como es mi mala tendencia. Lo publicado es el resultado de una poda radical, y mientras la hago no estoy nunca seguro de no estar suprimiendo alguna parte fundamental de la explicación, ni tampoco de, al contrario, no seguir siendo innecesariamente obvio y repetitivo. Menos mal que no me he dedicado a la enseñanza.

      Nuestra modelización de la realidad tampoco es continua del todo. Le pasa como a mis explicaciones, se queda a medias entre la discreción de la realidad y la absoluta continuidad, solo alcanzable en nuestra mente. En la práctica las unidades son divisibles, pero no infinitamente. Por muchos decimales que añadamos siempre nos tenemos que parar en alguno, y esa diminuta unidad con que nos quedamos, por pequeña que sea, actúa como una variable indivisible -puesto que hemos renunciado a dividirla- y, por tanto discreta, a fin de cuentas. Pero el margen entre ambas discrecionalidades sí que da, como dices, para entretenernos un buen rato.

      Como te digo en tu post, no sé si seré capaz de sacar algo en limpio de yu acertijo de piratas, pero prometo intentarlo.

      Eliminar
  2. Vale, ahora lo entiendo. Enhorabuena

    ResponderEliminar
    Respuestas
    1. Me alegro. Bien venido al club.

      Eliminar
    2. No estoy dispuesto a ingresar en ningún club que admita gente como yo.

      Eliminar
    3. Bien venido también al club de los que nos pasa eso.

      Eliminar
  3. Pues sí, es cierto. ¡Felicidades! De todos modos, mi explicación se basaba en el hecho de que fuera una variable discreta.

    ResponderEliminar
    Respuestas
    1. Gracias, Ozanu. Efectivamente, ya me di cuenta. Por eso te dije que nuestras explicaciones estaban emparentadas, a ese parentesco me refería.

      Eliminar
  4. Todo el mundo parece coincidir en que has dado con la solución del asunto. No te fies. Es para que lo dejes ya y no sigas con una cuarta entrega,

    ResponderEliminar
    Respuestas
    1. Algo de eso sospecho yo también, sí. "Decidle a todo que sí, a ver si se cansa", es la consigna que corre de blog en blog.

      Eliminar