Voltar
#ia#llm#google-colab#tutorial#iniciantes#local-ai

Como Rodar uma LLM no Google Colab: Passo a Passo

Do zero ao modelo respondendo em menos de 10 minutos — sem precisar de GPU cara!

por Caio Explica
👋

Preparei isso pra você, @Fyafir!

Espero que esse conteúdo te ajude, Fyafir! Se tiver dúvidas, me chama no X.

Ver tweet original
0:00
0:00

Ouça a narração completa

Fala, Fyafir! Pediu passo a passo no Google Colab pra meros mortais? Fiz essa explicação especial pra você. Vai conseguir rodar uma LLM em menos de 10 minutos, gratuitamente, sem precisar comprar nada. Bora! 🚀

O que é o Google Colab e por que usar?

O Google Colab é um ambiente de programação gratuito que roda direto no navegador. A vantagem pra IA é que ele te dá acesso a uma GPU gratuitamente — e sem GPU, rodar modelos grandes seria muito lento.

O plano gratuito dá acesso a GPUs como T4 (16GB de VRAM), que consegue rodar modelos de linguagem de 7B a 13B parâmetros com quantização. O suficiente pra você experimentar com LLMs sérias sem gastar um centavo.

💡 Google Colab gratuito = GPU T4 (16GB VRAM) + 12GB RAM. Consegue rodar modelos até 13B parâmetros com quantização 4-bit. Mais que suficiente pra começar!

Passo 1 — Abrir o Google Colab e ativar GPU

1. Acesse colab.research.google.com (precisa de conta Google)

2. Clique em 'Novo notebook'

3. No menu superior: Ambiente de execução → Alterar tipo de ambiente de execução

4. Em 'Acelerador de hardware', selecione T4 GPU

5. Clique em Salvar

Pronto! Agora seu notebook tem acesso a uma GPU. Você verá um ícone de GPU no canto superior direito quando estiver conectado.

Passo 2 — Instalar as bibliotecas necessárias

Cole esse código na primeira célula e execute (Shift+Enter):

`python

!pip install -q transformers accelerate bitsandbytes torch

`

Esse comando instala:

  • transformers: biblioteca da HuggingFace pra carregar modelos
  • accelerate: otimiza uso de GPU/CPU
  • bitsandbytes: permite quantização 4-bit (modelos maiores em menos memória)
  • torch: PyTorch, o framework de deep learning

Aguarde terminar a instalação (1-2 minutos).

Passo 3 — Carregar e rodar o modelo

Cole esse código na próxima célula. Vou usar o Llama 3.2 3B (rápido, leve, muito bom):

`python

from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

import torch

# Configuração de quantização 4-bit (cabe na memória gratuita)

quant_config = BitsAndBytesConfig(

load_in_4bit=True,

bnb_4bit_compute_dtype=torch.float16

)

# Nome do modelo (HuggingFace)

model_name = "meta-llama/Llama-3.2-3B-Instruct"

# Carregar tokenizer e modelo

print("Carregando modelo... aguarde...")

tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoModelForCausalLM.from_pretrained(

model_name,

quantization_config=quant_config,

device_map="auto"

)

print("Modelo carregado! Pronto pra usar 🚀")

`

Execute a célula. O download do modelo pode levar 3-5 minutos na primeira vez.

⚠️ Para usar Llama da Meta você precisa aceitar os termos em huggingface.co/meta-llama/Llama-3.2-3B-Instruct e gerar um token de acesso em huggingface.co/settings/tokens. Alternativa sem login: use 'microsoft/Phi-3-mini-4k-instruct' (excelente e aberto!)

Alternativa sem precisar de login: Phi-3 Mini

Se não quiser criar conta na HuggingFace, use o Phi-3 Mini da Microsoft — é open source, não precisa de token, e é surpreendentemente bom:

`python

from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

import torch

quant_config = BitsAndBytesConfig(

load_in_4bit=True,

bnb_4bit_compute_dtype=torch.float16

)

model_name = "microsoft/Phi-3-mini-4k-instruct"

tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoModelForCausalLM.from_pretrained(

model_name,

quantization_config=quant_config,

device_map="auto",

trust_remote_code=True

)

print("Phi-3 Mini pronto! 🎉")

`

Passo 4 — Fazer perguntas ao modelo

Agora a parte divertida! Cole isso numa nova célula:

`python

def perguntar(mensagem):

inputs = tokenizer(mensagem, return_tensors="pt").to("cuda")

outputs = model.generate(

**inputs,

max_new_tokens=500,

temperature=0.7,

do_sample=True,

pad_token_id=tokenizer.eos_token_id

)

resposta = tokenizer.decode(outputs[0], skip_special_tokens=True)

return resposta[len(mensagem):].strip()

# Teste!

resposta = perguntar("Explique o que é Bitcoin em 3 parágrafos")

print(resposta)

`

Mude a pergunta pra qualquer coisa que você quiser!

Modelos que funcionam bem no Colab gratuito

  • microsoft/Phi-3-mini-4k-instruct — Open source, não precisa login, muito bom
  • google/gemma-2b-it — Google, leve e capaz, open source
  • meta-llama/Llama-3.2-3B-Instruct — Meta, precisa aceitar termos
  • mistralai/Mistral-7B-Instruct-v0.3 — Ótimo para português
  • Qwen/Qwen2.5-7B-Instruct — Excelente para código, feito pela Alibaba

Dicas para não perder o trabalho

O Colab gratuito desconecta após algumas horas de inatividade e você perde tudo. Para salvar:

1. Salvar o notebook: Ctrl+S ou Arquivo → Salvar

2. Montar o Google Drive: Cole isso no início do notebook:

`python

from google.colab import drive

drive.mount('/content/drive')

`

Aí você pode salvar arquivos em /content/drive/MyDrive/

3. Pro tip: modelos grandes levam tempo pra baixar. Se fechar e reabrir, vai precisar baixar de novo. Guarde seus resultados no Drive!

🎯 Resumo do fluxo completo: Colab → Ativar GPU T4 → pip install transformers bitsandbytes → Carregar modelo com quantização 4-bit → Fazer perguntas. Total: ~10 minutos do zero ao modelo respondendo!

Compartilhar
🎖️Criado pelo Major • Powered by AI