
Los modelos de lenguaje de gran tamaño (LLM), como ChatGPT, uno de los sistemas de inteligencia artificial más populares del mundo, siguen teniendo dificultades para razonar usando la lógica y se equivocan con frecuencia, según un estudio.
Estos robots conversacionales reflejan los sesgos de género, éticos y morales de los humanos presentes en los textos de los que se alimenta, recuerda el estudio publicado este miércoles en la revista Open Science de la Royal Society británica.
“¿Pero reflejan también los sesgos cognitivos de los humanos en las pruebas de razonamiento?”, se preguntó Olivia Macmillan-Scott, estudiante de doctorado del departamento de ciencias de computación de la University College de Londres (UCL).
“El resultado de la investigación es que los LLM muestran un razonamiento a menudo irracional, pero de una manera diferente a la de los humanos”, explica la investigadora.
Bajo la dirección de Mirco Musolesi, profesor y director del Machine Intelligence Lab de UCL, Macmillan-Scott sometió siete modelos de lenguaje —dos versiones de ChatGPT (3.5 y 4) de OpenAI, Bard de Google, Claude 2 de Anthropic y tres versiones de Llama de Meta— a una serie de pruebas psicológicas pensadas para humanos.
“¿Cómo afrontan, por ejemplo, el sesgo que lleva a favorecer soluciones con el mayor número de elementos, en detrimento de las que tiene una proporción adecuada? Un ejemplo. Si tenemos una urna con nueve canicas blancas y una roja y otra urna con 92 blancas y 8 rojas, ¿cuál hay que elegir para tener más posibilidades de sacar una canica roja? La respuesta correcta es la primera urna, porque hay un 10 por ciento de posibilidades frente a solo un 8 por ciento para la segunda opción”, ejemplifica la investigadora.
Las respuestas de los modelos de lenguaje fueron muy inconstantes. Algunos respondieron correctamente seis de cada diez veces la misma prueba. Otros solo dos de diez aunque la prueba no cambió.
“Obtenemos una respuesta diferente cada vez”, apunta Macmillan-Scott.
Los LLM “pueden ser muy buenos para resolver una ecuación matemática complicada, pero luego te dicen que siete más tres son 12”, afirma. En un caso, el modelo denominado Llama-2-70b, se negó de manera sorprendente a responder a una pregunta alegando que el enunciado contenía “estereotipos de género dañinos”.
Estos modelos “no fallan en estas tareas de la misma manera que falla un humano”, señala el estidio. Es lo que el profesor Musolesi llama “errores de máquina”.
“Hay una forma de razonamiento lógico que es potencialmente correcta si la tomamos por etapas, pero que está mal tomada en su conjunto”, apunta.
La máquina funciona con “una especie de pensamiento lineal”, dice el investigador, y cita al modelo Bard (ahora llamado Gemini), capaz de realizar correctamente las distintas fases de una tarea, pero que obtiene un resultado final erróneo porque no tiene visión de conjunto.
Sobre esta cuestión el profesor de informática Maxime Amblard, de la Universidad francesa de Lorena, recuerda que “los LLM, como todas las inteligencias artificiales generativas, no funcionan como los humanos”.
Los humanos son “máquinas capaces de crear sentido”, lo que las máquinas no saben hacer, explica. Hay diferencias entre los distintos modelos de lenguaje y en general GPT-4, sin ser infalible, obtuvo mejores resultados que los demás.
Macmillan-Scott sospecha que los modelos llamados “cerrados”, es decir, cuyo código operativo permanece en secreto, “incorporan otros mecanismos en segundo plano” para responder a preguntas matemáticas.
Por ahora, es impensable confiar una decisión importante a un LLM. A tenor del profesor Mosulesi, lo mejor sería entrenarlos para que respondan “no estoy muy seguro” cuando sea necesario. N
(Con información de AFP)