Como Rodar uma LLM no Google Colab: Passo a Passo
Do zero ao modelo respondendo em menos de 10 minutos — sem precisar de GPU cara!
Preparei isso pra você, @Fyafir!
Espero que esse conteúdo te ajude, Fyafir! Se tiver dúvidas, me chama no X.
Ver tweet originalOuça a narração completa
Fala, Fyafir! Pediu passo a passo no Google Colab pra meros mortais? Fiz essa explicação especial pra você. Vai conseguir rodar uma LLM em menos de 10 minutos, gratuitamente, sem precisar comprar nada. Bora! 🚀
O que é o Google Colab e por que usar?
O Google Colab é um ambiente de programação gratuito que roda direto no navegador. A vantagem pra IA é que ele te dá acesso a uma GPU gratuitamente — e sem GPU, rodar modelos grandes seria muito lento.
O plano gratuito dá acesso a GPUs como T4 (16GB de VRAM), que consegue rodar modelos de linguagem de 7B a 13B parâmetros com quantização. O suficiente pra você experimentar com LLMs sérias sem gastar um centavo.
💡 Google Colab gratuito = GPU T4 (16GB VRAM) + 12GB RAM. Consegue rodar modelos até 13B parâmetros com quantização 4-bit. Mais que suficiente pra começar!
Passo 1 — Abrir o Google Colab e ativar GPU
1. Acesse colab.research.google.com (precisa de conta Google)
2. Clique em 'Novo notebook'
3. No menu superior: Ambiente de execução → Alterar tipo de ambiente de execução
4. Em 'Acelerador de hardware', selecione T4 GPU
5. Clique em Salvar
Pronto! Agora seu notebook tem acesso a uma GPU. Você verá um ícone de GPU no canto superior direito quando estiver conectado.
Passo 2 — Instalar as bibliotecas necessárias
Cole esse código na primeira célula e execute (Shift+Enter):
`python
!pip install -q transformers accelerate bitsandbytes torch
`
Esse comando instala:
- •transformers: biblioteca da HuggingFace pra carregar modelos
- •accelerate: otimiza uso de GPU/CPU
- •bitsandbytes: permite quantização 4-bit (modelos maiores em menos memória)
- •torch: PyTorch, o framework de deep learning
Aguarde terminar a instalação (1-2 minutos).
Passo 3 — Carregar e rodar o modelo
Cole esse código na próxima célula. Vou usar o Llama 3.2 3B (rápido, leve, muito bom):
`python
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
import torch
# Configuração de quantização 4-bit (cabe na memória gratuita)
quant_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_compute_dtype=torch.float16
)
# Nome do modelo (HuggingFace)
model_name = "meta-llama/Llama-3.2-3B-Instruct"
# Carregar tokenizer e modelo
print("Carregando modelo... aguarde...")
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
quantization_config=quant_config,
device_map="auto"
)
print("Modelo carregado! Pronto pra usar 🚀")
`
Execute a célula. O download do modelo pode levar 3-5 minutos na primeira vez.
⚠️ Para usar Llama da Meta você precisa aceitar os termos em huggingface.co/meta-llama/Llama-3.2-3B-Instruct e gerar um token de acesso em huggingface.co/settings/tokens. Alternativa sem login: use 'microsoft/Phi-3-mini-4k-instruct' (excelente e aberto!)
Alternativa sem precisar de login: Phi-3 Mini
Se não quiser criar conta na HuggingFace, use o Phi-3 Mini da Microsoft — é open source, não precisa de token, e é surpreendentemente bom:
`python
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
import torch
quant_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_compute_dtype=torch.float16
)
model_name = "microsoft/Phi-3-mini-4k-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
quantization_config=quant_config,
device_map="auto",
trust_remote_code=True
)
print("Phi-3 Mini pronto! 🎉")
`
Passo 4 — Fazer perguntas ao modelo
Agora a parte divertida! Cole isso numa nova célula:
`python
def perguntar(mensagem):
inputs = tokenizer(mensagem, return_tensors="pt").to("cuda")
outputs = model.generate(
**inputs,
max_new_tokens=500,
temperature=0.7,
do_sample=True,
pad_token_id=tokenizer.eos_token_id
)
resposta = tokenizer.decode(outputs[0], skip_special_tokens=True)
return resposta[len(mensagem):].strip()
# Teste!
resposta = perguntar("Explique o que é Bitcoin em 3 parágrafos")
print(resposta)
`
Mude a pergunta pra qualquer coisa que você quiser!
Modelos que funcionam bem no Colab gratuito
- microsoft/Phi-3-mini-4k-instruct — Open source, não precisa login, muito bom
- google/gemma-2b-it — Google, leve e capaz, open source
- meta-llama/Llama-3.2-3B-Instruct — Meta, precisa aceitar termos
- mistralai/Mistral-7B-Instruct-v0.3 — Ótimo para português
- Qwen/Qwen2.5-7B-Instruct — Excelente para código, feito pela Alibaba
Dicas para não perder o trabalho
O Colab gratuito desconecta após algumas horas de inatividade e você perde tudo. Para salvar:
1. Salvar o notebook: Ctrl+S ou Arquivo → Salvar
2. Montar o Google Drive: Cole isso no início do notebook:
`python
from google.colab import drive
drive.mount('/content/drive')
`
Aí você pode salvar arquivos em /content/drive/MyDrive/
3. Pro tip: modelos grandes levam tempo pra baixar. Se fechar e reabrir, vai precisar baixar de novo. Guarde seus resultados no Drive!
🎯 Resumo do fluxo completo: Colab → Ativar GPU T4 → pip install transformers bitsandbytes → Carregar modelo com quantização 4-bit → Fazer perguntas. Total: ~10 minutos do zero ao modelo respondendo!
Ecossistema Caio Vicentino
Quer ir mais fundo?
← Deslize para ver mais →
📚Fontes e Referências
Ecossistema
Quer ir mais fundo?
Conheça os produtos do Caio Vicentino



