Como conectar o VS Code com segurança a um LLM remoto auto-hospedado
Conecte o VS Code com segurança a um LLM remoto auto-hospedado com dicas exclusivas de Beau Carnes.
Conteudo
TLDR;
Proteja a conexão usando um túnel zero‑trust como Twingate, mantendo o Ollama ligado apenas em localhost para não abrir portas de entrada e garantir tráfego cifrado. Rode Ollama no servidor GPU, instale o conector Twingate no servidor, crie um recurso apontando para 127.0.0.1:11434 e então conecte o VS Code que verá o modelo como se estivesse local. Use um servidor GPU com ~24 GB de VRAM (por exemplo RTX 3090/4090 ou A5000), pelo menos ~20 GB de disco, acesso SSH para deploy e uma conta Twingate para o túnel.
Resumo
Executar LLMs localmente é ótimo para experimentar, mas consome RAM e bateria; a solução é transferir o modelo para um servidor GPU remoto, garantindo segurança para que ninguém acesse seu modelo. O vídeo mostra como montar um assistente de codificação remoto usando Ollama em um pod cloud (por exemplo RunPod, Lambda Labs ou Vast AI) e conectar com segurança ao VS Code usando Twingate, uma ferramenta zero‑trust que cria um túnel de saída criptografado sem abrir portas de entrada. Recomenda‑se uma GPU com 24 GB (RTX 3090/4090 ou A5000) e pelo menos 20–30 GB de disco. No servidor, adiciona‑se a chave SSH, usa‑se o template PyTorch (Ubuntu 22.04 com CUDA) e instala‑se Ollama; o serviço fica ligado em localhost:11434. Em seguida puxa‑se um modelo otimizado para código, por exemplo Quinn 2.5 coder 7B. Depois cria‑se uma conta Twingate, configura‑se uma remote network e deploya‑se um connector (método Linux se Docker não estiver disponível), executando o script e iniciando o conector manualmente quando necessário. Por fim cria‑se um recurso apontando para 127.0.0.1:11434, restringe‑se a porta e concede‑se acesso, permitindo uso seguro do modelo remoto como se estivesse local, sem comprometer privacidade, desempenho e facilidade de integração com editores como VS Code.