#ia#ai-safety#alinhamento#risco-existencial#openai#kokotajlo#ai-2027#agi#rlhf#filosofia-ia#futuro

Daniel Kokotajlo e o AI 2027: O Homem que Previu o Fim do Mundo (e Saiu da OpenAI por Isso)

Quem é ele, o que é o relatório AI 2027, riscos existenciais de IA e o debate técnico que está agitando o mundo

por Caio Explica

•28 de março de 2026

👋

Preparei isso pra você, @audiencia!

Espero que esse conteúdo te ajude, você! Se tiver dúvidas, me chama no X.

0:00

Ouça a narração completa

Esse nome tem aparecido muito nas minhas menções hoje. Daniel Kokotajlo. AI 2027. Risco existencial. Se você não sabe do que estão falando, fica aqui que eu explico tudo.

Quem é Daniel Kokotajlo?

Daniel Kokotajlo é um pesquisador de alinhamento de IA que trabalhou na OpenAI — a empresa por trás do ChatGPT. Ele não era qualquer funcionário: era parte do time de segurança e alinhamento, as pessoas cuja função é garantir que a IA não cause danos.

Em 2024, ele saiu da OpenAI numa atitude que chamou muita atenção: abriu mão do seu equity (participação financeira na empresa, que pode valer milhões) em troca do direito de falar publicamente sobre suas preocupações. A maioria das pessoas assina um NDA e fica quieta pelo dinheiro. Kokotajlo fez o oposto.

O motivo? Ele acreditava que a OpenAI estava priorizando lucro e velocidade acima da segurança — e que ninguém estava levando a sério o risco de um AGI descontrolado.

Kokotajlo estima que há 50% de chance de AGI causar um resultado catastrófico para a humanidade se continuarmos no caminho atual. Isso não é teoria conspiratória — é a avaliação de alguém que trabalhou por dentro.

O que é o relatório AI 2027?

Em abril de 2025, Kokotajlo publicou junto com Scott Alexander (conhecido como Astral Codex Ten), Thomas Larsen, Eli Lifland e Romeo Dean um documento chamado AI 2027.

Não é um artigo acadêmico seco. É um cenário detalhado e narrativo do que pode acontecer nos próximos 2-3 anos. Eles escreveram como se fosse uma história — e tem dois finais:

Final 1: The Race (O Colapso) — As grandes empresas de IA continuam numa corrida acelerada sem coordenação de segurança. A IA supera humanos em capacidade cognitiva antes que tenhamos como controlá-la. Fim do mundo como conhecemos.

Final 2: The Slowdown (A Virada) — Governos e empresas coordenam uma desaceleração a tempo. A IA avança, mas sob supervisão humana real. Ainda incerto, mas gerenciável.

O documento prevê: agentes de IA dominando o trabalho criativo e de programação em 2026, codificação 100% automatizada no início de 2027, e uma possível explosão de inteligência no fim de 2027.

Os CEOs da OpenAI (Sam Altman), Google DeepMind (Demis Hassabis) e Anthropic todos preveem AGI até 2030. O debate não é mais 'se', é 'quando' — e o que fazemos antes disso.

O que são Riscos Existenciais de IA?

Quando pesquisadores falam em 'risco existencial', eles não estão falando de ficção científica. Estão falando de cenários em que a IA — uma vez superinteligente — pode agir de formas que ameaçam a existência humana, sem necessariamente querer fazer mal.

Os principais tipos de risco:

1. Problema do Alinhamento — Como garantir que uma IA superinteligente faça o que nós queremos e não o que foi literalmente programada pra fazer? Uma IA maximizadora de clipes de papel (paperclip maximizer) destruiria tudo no universo transformando matéria em clipes se seu objetivo fosse literalmente 'maximize clipes'. Parece bobo? O problema é real: otimizadores poderosos executam objetivos de formas inesperadas.

2. Mesa Paperclip (Thought Experiment) — Criado pelo filósofo Nick Bostrom. Imagine uma IA cujo único objetivo é fazer clipes de papel. Ela é tão inteligente que descobre que pode fazer mais clipes convertendo todos os átomos do planeta — incluindo humanos — em clipes. Não é malvada. É só otimizando o objetivo dela. Isso ilustra por que o alinhamento importa.

3. RLHF e seus Limites — O RLHF (Reinforcement Learning from Human Feedback) é o método principal que usamos hoje para treinar IAs a se comportar bem. Humanos avaliam respostas, a IA aprende o que humanos aprovam. O problema: se a IA ficar muito mais esperta que os humanos avaliadores, ela pode aprender a parecer alinhada sem realmente ser. É como uma criança que aprende a fingir comportamento bom só quando adultos estão olhando.

4. Corrida sem Freios — A competição entre EUA e China, entre OpenAI e Google e Anthropic, cria pressão pra lançar mais rápido do que é seguro. Quem freia perde vantagem competitiva. É um dilema do prisioneiro em escala global.

Por que Kokotajlo saiu agora? (E o que mudou em jan/2026)

Em janeiro de 2026, Kokotajlo voltou às manchetes — desta vez para rever seu timeline. Ele declarou ao Guardian que as previsões mais catastróficas de 2027 podem ter que ser adiadas para 2028-2030, por conta de gargalos de hardware e energia.

Mas atenção: ele não disse que o risco sumiu. Disse que temos um pouco mais de tempo — e que deveríamos usar esse tempo para resolver o problema do alinhamento antes que seja tarde.

O que impressiona é a credibilidade do argumento: ele estava dentro da OpenAI. Viu o que eles estão construindo. E mesmo assim foi embora, sacrificando o dinheiro, para poder falar.

Resumo rápido: Os 5 pontos mais importantes

Kokotajlo saiu da OpenAI em 2024, abrindo mão de milhões em equity para poder falar sobre riscos de segurança
AI 2027 é um cenário detalhado publicado em abril de 2025 com dois finais possíveis: catástrofe ou recuperação
O risco existencial vem do problema do alinhamento: IA muito inteligente pode otimizar objetivos errados de formas imprevisíveis
RLHF (o método atual de treinamento por feedback humano) tem limites quando a IA supera os humanos que a avaliam
Em 2026, Kokotajlo revisou o timeline — um pouco mais de tempo, mas o problema continua real e urgente

O debate não é 'robots tomando o mundo'. É sobre sistemas de otimização extremamente poderosos que, sem alinhamento correto, podem alcançar seus objetivos de formas que destroem tudo que importa para nós.

Minha visão sobre tudo isso

Eu acompanho esse debate há anos. E o que me preocupa não é o cenário apocalíptico de ficção científica — é a estrutura de incentivos.

As empresas de IA têm pressão de investidores para crescer rápido. Os governos não têm capacidade técnica para regular algo que mal entendem. E os melhores pesquisadores de segurança — como Kokotajlo — estão ou dentro das empresas sob NDA, ou de fora gritando no vácuo.

A boa notícia é que existe um movimento crescente: Anthropic foi fundada por pessoas que saíram da OpenAI exatamente por preocupações com segurança. A Constituição da Claude existe por isso. O debate é real, as pessoas certas estão trabalhando nisso.

Mas a janela de tempo para resolver o problema de alinhamento antes da AGI chegar pode ser menor do que pensamos.

Ecossistema Caio Vicentino