Sí, podés montar una alternativa local a GitHub Copilot en VS Code usando Ollama + Continue + modelos open source como Qwen2.5-Coder. El procedimiento es accesible incluso para usuarios básicos, aunque requiere una GPU decente y algo de paciencia. La gran ventaja es que tu código nunca sale de tu PC, evitando riesgos de privacidad y costos de suscripción.

¿Cansado de pagar suscripciones y de que tu código viaje por servidores ajenos? Podés armar tu propio “Copilot casero” en VS Code. Sin pagar suscripciones, pero vas a necesitar un poco de hardware decente. Caro, pero nada imposible.

En una nota anterior hablábamos de las diferencias, ventajas y desventajas de usar IA Local o en la nube y entendimos que no hay una respuesta absoluta, sino que para diferentes casos de uso y aplicación puede ser más conveniente una u otra tecnología.

Programar y trabajar con código podría ser uno de esos casos en los que el uso de una IA local, aún con sus limitaciones, puede resultar muy beneficioso. Por costos, porque los constantes cambios en las políticas de tarifas y consumos de tokens de las empresas de IA hacen cada vez más frecuente encontrarse con abonos consumidos mucho antes de lo esperado o, para quienes configuran la extensión automática del crédito, facturas monstruosas con montos poco menos que impagables.

Por otro lado, Anthropic y sus primas advierten cada vez con más claridad que lo que pasa por sus servidores es casi de su propiedad y pueden hacer con eso lo que se les cante. Y sí, eso incluye tanto al código que le pediste a Claude que genere como también a tu código, cuando le pediste que lo revise o corrija.

🛠️ Requisitos previos

VS Code instalado en tu PC (Windows, Linux o macOS).
Ollama corriendo en un servidor local (Ubuntu recomendado).
GPU moderna (mínimo 12 GB VRAM para modelos grandes).
Espacio libre: 10–15 GB.
Red local entre tu PC y el servidor.

No necesitás cuentas, ni suscripciones, ni firmar pactos con Luzbelito cediendo los derechos de uso de tu alma…

🧩 1. Preparar el servidor antes de instalar Ollama

Antes de abrir la terminal y tirar comandos, asegurate de que tu servidor cumpla con lo siguiente:

💻 Hardware recomendado

Componente	Mínimo	Recomendado
CPU	Intel i5 / Ryzen 5	Intel i7 / Ryzen 7 o superior
RAM	16 GB	32 GB o más
GPU	NVIDIA con soporte CUDA (mínimo 8 GB VRAM)	RTX 3060 Ti / RTX 4070 o superior
Almacenamiento	SSD NVMe 512 GB	SSD NVMe 1 TB o más
Red	Ethernet o Wi‑Fi estable	Ethernet gigabit para baja latencia

💡 Si no tenés GPU dedicada, podés usar Ollama en modo CPU, pero los tiempos de respuesta serán mucho más lentos (hasta 10× más lentos!!!).

🧠 Software base

Sistema operativo: Ubuntu 22.04 LTS o superior (también funciona en Windows 10/11 con WSL2).
Drivers GPU: NVIDIA CUDA Toolkit actualizado (v12 o superior).
Dependencias:

  sudo apt update && sudo apt install git curl python3-pip

Firewall: habilitá reglas para el puerto 11434 si querés acceder desde otra máquina.

⚙️ 2. Instalar modelos en Ollama

Una vez listo el servidor, abrí la terminal y bajá los modelos:

ollama pull qwen2.5-coder:7b
ollama pull qwen2.5-coder:1.5b

El primero sirve para chat y análisis profundo, el segundo para autocompletado rápido.
Si tenés más VRAM, podés usar el  qwen2.5-coder:14B para mayor calidad.

🌐 3. Configurar acceso remoto

Editá el servicio Ollama para que escuche en la red:

sudo systemctl edit ollama

Agregá:

[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

Reiniciá y probá conexión desde tu PC:

curl http://IP_SERVIDOR:11434/api/tags

🧩 4. Instalar extensión Continue en VS Code

Volviendo a tu otro equipo de trabajo, ese en el que usás VS Code, justamente en VS Code hacé lo siguiente: Ctrl + Shift + X → buscá Continue → instalar.

🧩 Configurá el archivo `config.yaml` con la IP de tu servidor y los modelos:

01 Ubicar el archivo de configuración
El archivo config.yaml define cómo VS Code se conecta con tu servidor Ollama.

En VS Code → Menú de la extensión Continue → Settings → Open Config File

Si no existe, creá un archivo llamado config.yaml en la carpeta de configuración de Continue

Asegurate de tener permisos de escritura en esa carpeta

02 Definir el servidor Ollama
Necesitás indicar la IP y puerto donde corre Ollama.

Agregá la sección models: en el archivo

Especificá la dirección de tu servidor, por ejemplo:

yaml
models:

name: qwen2.5-coder-7b
endpoint: http://192.168.1.100:11434
name: qwen2.5-coder-1.5b
endpoint: http://192.168.1.100:11434

03 Configurar roles de cada modelo
Podés asignar qué modelo se usa para chat y cuál para autocompletado.

En la sección default_model, definí el que quieras para chat

En la sección autocomplete_model, definí el más liviano para sugerencias rápidas

Ejemplo:

yaml
default_model: qwen2.5-coder-7b
autocomplete_model: qwen2.5-coder-1.5b

04 Guardar y reiniciar VS Code
Los cambios no se aplican hasta reiniciar la extensión.

Guardá el archivo config.yaml

Cerrá y volvé a abrir VS Code

Probá el chat y el autocompletado para confirmar que se conecta correctamente

✅ Ejemplo completo de config.yaml
yaml
models:

name: qwen2.5-coder-7b
endpoint: http://192.168.1.100:11434
name: qwen2.5-coder-1.5b
endpoint: http://192.168.1.100:11434

default_model: qwen2.5-coder-7b
autocomplete_model: qwen2.5-coder-1.5b

💬 6. Probar chat y autocompletado

Abrí un archivo con errores y pedile al chat:
“¿Qué errores ves en este código y cómo lo mejorarías?”
Probá autocompletado escribiendo funciones nuevas y aceptando sugerencias con Tab.

🔄 Alternativas de software y LLMs

LM Studio: interfaz gráfica para modelos locales.
Text Generation WebUI: más flexible, pero requiere configuración extra.
Modelos alternativos:
CodeLlama (Meta)
StarCoder (HuggingFace)
Mistral (para tareas generales)

✅ Ventajas

Privacidad total: tu código nunca sale de tu red.
Sin suscripciones: cero gastos mensuales.
Control absoluto: elegís qué modelo usar y cómo configurarlo.

❌ Desventajas

Consumo de hardware: necesitás una GPU potente.
Instalación más compleja que Copilot oficial.
Actualizaciones manuales: vos sos el responsable de mantenerlo.

📊 Comparación rápida

Característica	GitHub Copilot	Alternativa local
Coste mensual	Sí	No
Privacidad	Código en la nube	100 % local
Instalación	Muy simple	Media
Modelos	Limitados	Personalizables
Funciona sin Internet	No	Sí

🔧 Consejos

Backup de config.yaml antes de tocarlo.
Monitorear temperatura de GPU para evitar fallas.
Actualizar drivers NVIDIA/AMD para mejor rendimiento.
Firewall bien configurado para no exponer Ollama al mundo.

🎯 Conclusión

Montar tu propio Copilot local no es sólo un capricho de nerd paranoico: es una forma de ahorrar plata, proteger tu código y aprender más de IA aplicada al desarrollo.
Si tenés una GPU decente, en menos de una hora podés tenerlo funcionando.

De nuevo, tené en cuenta que hablamos de un caso de uso específico: IA para código y con las limitaciones que explicamos.

Si tu idea es generar contenido multimedia o utilizar modelos de inteligencia general para todo uso, pensá en conseguirte un galponcito de un par de hectáreas para amontonar servidores y GPUs como para obtener un resultado aceptable…

Gracias por compartir!

GitHub Copilot local y sin suscripciones pagas