martes, 29 de noviembre de 2011

La teoría de juegos ( Dilema del prisionero )

Breve Explicación:


Investigación de Operaciones, -Teoria de Juegos-, ahora bién, consiste en conseguir la mejor estrategia (en este caso utilizando una estrategia o jugador dominante) para obtener un beneficio, por medio del planteamiento de "matrices",de la teoria de juegos surge el dilema del prisionero.






El dilema del prisionero 

El dilema del prisionero es un problema fundamental de la teoria de juegos que muestra que dos personas pueden no cooperar incluso si en ello va el interés de ambas.

Ejemplo:


Imagine que, en su desesperación por enriquecerse tan rápido como sea posible, Ud considera varias alternativas, infiere sus consecuencias más probables y decide que la mejor es asaltar el banco más cercano. Persuade Ud a su mejor amigo, Keith, conocido por su meticulosidad y atención a los detalles, de que le ayude a planear y ejecutar el crimen. Gracias al esfuerzo coordinado, ambos tienen éxito en entrar al Banco durante la noche, abrir la bóveda y huir con un buen millón euros, como botín que guardan en el compartimiento de las maletas de su vehículo.


Desafortunamente, tanto tiempo en la pobreza se reflejan en el estado de ese vehículo y Ud es detenido por la policía que le reclama conducir de noche sin uno de los faros. Al revisar su vehículo, los policias descubren el buen millón en la maleta. Ud se declara ignorante del origen del dinero, pero tanto Ud como su amigo son arrestados como sospechosos de un robo.



Sin testigos y sin confesión alguna, la policia no puede condenarlos salvo por poseer propiedad robada, que apenas implica una pena de 1 año. Sin embargo, si alguno confiesa el crimen (en detrimento del otro) y el otro no confiesa, el primero obtiene la libertad plena y el segundo es condenado a 6 años de cárcel. Si ambos confiesan, entonces ambos compartirán la pena de 3 años de cárcel. 


 Este es un ejemplo con el clásico Dilema del Prisionero. En teoría de Juegos, el problema de decidir entre esas alternativas de acción se presenta frecuentemente como una tabla, en la que las filas y columnas representan las acciones de los agentes y las celdas representan los resultados esperados. En este caso, la tabla es así:



Ud confiesa Ud no confiesa
Keith confiesa Ud se gana 3 años de cárcel
Keith se gana 3 años de cárcel
Ud se gana 6 años de cárcel
Keith se gana 0 años de cárcel
Su amigo no confiesa Ud se gana 0 años de cárcel
Keith se gana 6 años de cárcel
Ud se gana 1 año de cárcel
Keith se gana 1 año de cárcel


Si los dos prisioneros pudieran consultarse, se pondrían, obviamente (??) de acuerdo de que la mejor opción para ambos es no confesar y evitar perjudicar al otro. Para evitar esto, la policía los separa antes de que puedan hablarse. Así que cada uno debe decidir que hacer sin saber lo que el otro hará.






La lógica del Dilema del Prisionero.


El Dilema del Prisionero tiene una representación natural en términos de las metas y creencias del Prisionero.


Meta:           Si me arrestan entonces confieso o no confieso.


Creencias:        Me arrestan.
                       
                        Un prisionero es condenado a 0 años de cárcel
                        si el prisionero confiesa
                        y el otro prisionero no confiesa.

                        Un prisionero es condenado a 6 años de cárcel
                        si el prisionero no confiesa
                        y el otro prisionero confiesa

                        Un prisionero es condenado a 3 años de cárcel
                        si el prisionero confiesa
                        y el otro prisionero también confiesa.

                        Un prisionero es condenado a 1 año de cárcel
                        si el prisionero no confiesa
                        y el otro prisionero tampoco confiesa


En todo se asume, desde luego, que los prisioneros creen lo que les dice la policía. También se asume que ambos prisioneros saben que el mismo trato le ha sido ofrecido al otro prisionero. Sin embargo, el análisis que hacemos al final de este capítulo puede ser fácilmente modificado para cubrir otros casos.



La Lógica de los Juegos.



En general, cualquier juego de dos que se represente con una tabla puede también ser representado con metas y creencias. Por ejemplo, la tabla:




Primer jugador hace A Primer jugador hace B
Segundo jugador hace C Primer jugador se gana AC
Segundo jugador se gana CA
Primer jugador se gana BC
Segundo jugador se gana CB
Segundo jugador hace D Primer jugador se gana AD
Segundo jugador se gana DA
Primer jugador se gana BD
Segundo jugador se gana DB


Puede ser representada con metas y creencias que, en el caso del primer jugador, son:


Meta:           El primer jugador realiza acción A o    El primer jugador realiza acción B.

Creencias:        El primer jugador obtiene el resultado AC
                        si El primer jugador realiza la acción A
                        y el segundo jugador realiza la acción C.

                        El primer jugador obtiene el resultado BC
                        si El primer jugador realiza la acción B
                        y el segundo jugador realiza la acción C.
                        El primer jugador obtiene el resultado AD
                        si El primer jugador realiza la acción A
                        y el segundo jugador realiza la acción D.

                        El primer jugador obtiene el resultado BD
                        si El primer jugador realiza la acción B
                        y el segundo jugador realiza la acción D.

Noten que, de acuerdo a las circunstancias, un jugador puede saber o no los resultados del otro agente.



¿Debo llevar el paragüas?

Antes de discutir como resolver el dilema del prisionero, es útil compararlo con el aparentemente no relacionado problema de decidir si debo o nó llevar el paragüas al salir de casa en la mañana.

Podemos representar el problema del paragüas como un juego contra la naturaleza:




Llevo el paragüas No llevo el paragüa.
Llueve Sigo seco.
Cargo el paragüas.
Me mojo.
No llueve. Sigo seco.
Cargo el paragüas.
Sigo seco.

Podemos modelar el juego desde el lado del agente, usando metas y creencias para el agente:

Meta:           Si salgo entonces Llevo el paragüas o no llevo el paragüas

Creencias:        Salgo.

                        Cargo el paragüas
                        si llevo el paragüas.

                        Sigo seco
                        si llevo el paragüas.

                        Sigo seco
                        si no llueve.

                        Me mojo
                        si no llevo el paragüas
                        y llueve.

Ud puede controlar si lleva o no el paragüas, pero no puede controlar si llueve o no llueve. Lo mejor que puede hacer es estimar la probabilidad de que llueva.


Resolviendo el Dilema del Prisionero.


Tal como en el caso anterior con el paraguas, en el que Ud decide cuando sale, Ud puede controlar sus acciones, aún si se encuentra en el Dilema del Prisionero, pero no puede controlar el mundo a su alrededor. En este caso, Ud no puede controlar las acciones del otro prisionero. Puede, no obstante, tratar de predecirlas tan bien como sea posible.



Suponga que Ud emplea el método de Teoría de Decisiones y considera que:



            La utilidad de ganarse N años en la cárcel es de –N.
            La probabilidad de que Keith confiese es de P,
            y, por tanto, de que no confiese es (1 – P).

            entonces, la utilidad esperada de que Ud confiese
            es          3 si Keith confiesa,
            y      0 si no lo hace
             =         –3·P + 0·(1 – P)            
            =          –3·P.

            La utilidad esperada de no confesar, para Ud,
            es          –6 se Keith confiesa,
            y      –1 si no lo hace            
            =          –6·P – 1·(1 – P)            
            =          –1 – 5·P.

Pero resulta que la utilidad de que Ud confiese es mayor que la de no confesar, –3·P   >  –1 – 5·P, para todo P. Por lo tanto, sin importar cuál sea la probabilidad P de que Keith confiese, Ud siempre estará en ventaja confesando.



Desafortunadamente, si Keith es tan sagaz como Ud y tiene las mismas creencias, metas y utilidades suyas, entonces va a decidir, de la misma manera, confesar en contra suya, en cuyo caso ambos tendrán, con toda seguridad, ganados sus 3 años en la cárcel. Ambos estarían mejor olvidando todo este asunto de la Teoría de Decisiones, arriesgándose y reusándose a confesar, en cuyo caso ambos obtendrían 1 año de cárcel.



Pero hay otra moraleja para esta historia – que lo malo no es la Teoría de Decisiones, sino su propio juicio egoísta acerca de la utilidad:



Suponga que, en lugar de lo que ha hecho, Ud se preocupara (y ocupara) tanto por Keith como por Ud mismo y considerara que:

            La utilidad de que Ud gane N años en la cárcel y Keith M es – (N + M).

            Entonces, la utilidad esperada de que Ud confiese
            es –6 si Keith confiesa, y
            es –6 si no lo hace     
            = –6·P – 6·(1 – P)      
            = –6.

            La utilidad esperada de que Ud no confiese
            es –6 si Keith confiesa, y
            es –2 si no lo hace     
            = –6·P – 2·(1 – P)
            = –2 – 4·P.

Pero, ahora, la utilidad de su confesión es menor o igual que la de no confesar, –6  ≤  –2 – 4·P, para cualquier valor de P. Por lo tanto, de nuevo sin importar el valor que se asigne a la probabilidad P de que Keith confiese, no hay ninguna ventaja para Ud en el confesar.



En este caso, además, si Keith tiene las mismas (generosas) creencias, metas y utilidades suyas, entonces va a decidir de la misma manera, no confesar y ambos tendrán asegurado el año de cárcel mínimo.



Pero preocuparse tanto por Keith como por Ud mismo podría sonar un poco ingenuo. Para ser más realista, suponga que Ud quiere a Keith la mitad de lo que se quiere Ud mismo:



            La utilidad de que Ud gane N años en la cárcel y Keith M es – (N + 1/2·M).

            Entonces, la utilidad esperada de que Ud confiese
            es          –4.5 si Keith confiesa, y
            es          –3 si no lo hace           
            =          –4.5·P – 3·(1 – P)
            =          –3 –1.5·P.

            La utilidad esperada de que Ud no confiese
            es          –6 si Keith confiesa, y
            es          –1.5 si no lo hace      
            =          –6·P – 1.5·(1 – P)       
            =          –1.5 – 4.5·P.



Note que –3 –1.5·P  =  –1.5 – 4.5·P cuando P = .5. Por lo tanto, si Ud cree que la probabilidad P de que Keith confiese es menor de .5 entonces Ud no debe confesar . Pero si Ud cree que la probabilidad es mayor que .5 entonces Ud debe confesar – quid pro quo.



Tal como ocurre en el caso de decidir si cargo o no el paragua al salir, estos cálculos son un ideal normativo, al que apenas nos podemos aproximar en la práctica. En la realidad, tendemos a compilar esta decisiones en reglas de conducta, representadas con metas y creencias. Por ejemplo:

Metas:                   Si me ofrecen un trato
                                    y el trato me beneficia
                                    y el trato daña a alguien más de lo que me beneficia
                                    y la persona es mi amigo
                                    entonces rechazo el trato.

                                    Si me ofrecen un trato
                                    y el trato me beneficia
                                    y el trato daña a alguien más
                                    y la persona NO es mi amigo
                                    entonces acepto el trato.

Estas reglas no son muy gentiles, pero debe estar claro que pueden ser redefinidas, tanto para cubrir otros casos como para distinguir más precisamente otras características del trato en consideración.

No hay comentarios:

Publicar un comentario