[nevrai]
· 6 min de lectura

Infraestructura GPU para Founders Independientes: 3 Nubes, $0.15/hora, ML en Produccion

No necesitas un data center para entrenar y desplegar modelos ML. Ejecuto inferencia en produccion por menos de $5/dia.

Este post cubre la infraestructura GPU real detras de InkCloak — un detector de texto IA construido sobre un modelo DeBERTa ajustado con LoRA. Repasare entrenamiento, benchmarking y despliegue en tres plataformas cloud, con costos reales en cada paso.

La Brecha de la que Nadie Habla

Cada tutorial de ML termina igual: “Y ahora tienes un modelo entrenado!” Luego silencio. Nada sobre como servirlo a usuarios reales. Nada sobre cold starts, tamanos de batch, scale-to-zero, o que pasa cuando tu factura GPU llega a $500/mes.

Los founders independientes construyendo productos ML enfrentan un problema especifico: necesitas inferencia de grado produccion sin presupuestos de grado produccion.

Mi Stack

Entrenamiento — GPUs comunitarias de RunPod. Una RTX 3090 cuesta $0.22/hora. El ajuste LoRA de un detector DeBERTa-v3-large en 2,400 textos de 8 LLMs distintos toma 15 minutos. Costo total: $0.15.

Benchmarking — Misma instancia RunPod. Ejecutar el dataset RAID (1,838 textos, 3 comparaciones de modelos) cuesta $0.19 adicionales.

Inferencia en Produccion — RunPod Serverless con workers A4000 16GB. Batching dinamico con batch=8 produce 90 req/seg por worker. Tres workers manejan 270 req/seg. Costo: $0.17/hora por worker activo, cero cuando esta inactivo.

Tres Plataformas que Probe

RunPod: El Ganador para ML

Community Cloud — GPUs on-demand para entrenamiento. Precios desde $0.16/hora (RTX 3090) hasta $0.34/hora (A5000). SSH, ejecutas scripts, descargas artefactos, terminas.

Serverless — endpoints de inferencia auto-escalables. Scale-to-zero significa cero costos fuera de horario. Cold start con volumen pre-cargado: ~5 segundos.

Google Cloud Platform: La Opcion Economica

$300 en creditos gratuitos. Instancias T4 Spot a $0.11/hora — mas baratas que RunPod — pero son preemptibles. Para jobs batch son excelentes. Para inferencia en tiempo real, el riesgo de preempcion las hace inadecuadas como endpoint primario.

Bare Metal: El Endgame

Con uso sostenido de GPU por encima de $500/mes, poseer hardware gana a alquilar. Una Tesla T4 usada cuesta ~$200 en eBay. Colocation $50-100/mes. Break-even alrededor del mes 3-4.

LoRA: Por Que el Fine-Tuning Es Mas Barato de lo que Crees

Full fine-tune de DeBERTa-large: 40GB+ VRAM, $50+ por ejecucion. LoRA cambia la ecuacion:

  • VRAM: 12GB (cabe en RTX 3090 o A4000)
  • Tiempo: 15 minutos en 2,400 textos
  • Costo: $0.15 por ejecucion
  • Tamano del adaptador: 24MB (vs 1.3GB modelo completo)
  • Precision: AUROC 0.9948, TPR@5%FPR 96.75%

Entrenas 1.8% de los parametros. El resto queda congelado. El adaptador LoRA es tuyo. Los pesos son tuyos. Ningun proveedor de API puede quitartelo.

Desglose de Costos Real

OperacionCostoTiempo
Entrenamiento (LoRA, RTX 3090)$0.1515 min
Benchmark (RAID, 1838 textos)$0.1920 min
Inferencia, por hora activa$0.17continuo
Mensual a 1K DAU$15-25

Compara con OpenAI GPT-4 para el mismo volumen: $200-500/mes. La diferencia de 10x no es un error de redondeo.

Lecciones Aprendidas

  1. La version de torch debe coincidir con el driver CUDA. cu118 vs cu121 — mezclarlos produce fallos silenciosos.
  2. Nunca delegues operaciones GPU a agentes en segundo plano. Pueden crear pods y olvidar terminarlos.
  3. Los Network Volumes te bloquean a un datacenter. Para artefactos de entrenamiento, usa SCP.
  4. SSH necesita --public-ip en RunPod.
  5. El tamano de batch es la palanca de throughput. De batch=1 a batch=8: de 12 req/seg a 90 req/seg.

La Brecha Real Es Menor de lo que Crees

La distancia entre “tengo un Jupyter notebook” y “tengo un servicio ML en produccion” no es tan grande como la industria hace parecer. Las herramientas existen. Los costos son manejables. El moat es real — cualquiera puede llamar a GPT-4, pero no todos tienen su propio modelo fine-tuned ejecutandose en su propia infraestructura.

Inversion total: unos $5 en tiempo GPU, un fin de semana de scripting, y disposicion para leer mensajes de error de CUDA.