GPU-Infrastruktur fuer Solo-Gruender: 3 Clouds, $0.15/Stunde, Produktions-ML
Man braucht kein Rechenzentrum um ML-Modelle zu trainieren und bereitzustellen. Ich betreibe Produktions-Inferenz fuer unter $5/Tag.
Dieser Post behandelt die tatsaechliche GPU-Infrastruktur hinter InkCloak — einem KI-Textdetektor basierend auf einem LoRA-feinabgestimmten DeBERTa-Modell. Ich gehe Training, Benchmarking und Deployment auf drei Cloud-Plattformen durch, mit realen Kosten bei jedem Schritt.
Die Luecke ueber die Niemand Spricht
Jedes ML-Tutorial endet gleich: “Und jetzt haben Sie ein trainiertes Modell!” Dann Stille. Kein Wort darueber wie man es echten Nutzern bereitstellt. Nichts ueber Cold Starts, Batch-Groessen, Scale-to-Zero oder was passiert wenn die GPU-Rechnung $500/Monat erreicht.
Mein Stack
Training — RunPod Community-GPUs. Eine RTX 3090 kostet $0.22/Stunde. LoRA-Feinabstimmung eines DeBERTa-v3-large Detektors auf 2.400 Texten von 8 verschiedenen LLMs dauert 15 Minuten. Gesamtkosten: $0.15.
Benchmarking — Gleiche RunPod-Instanz. Der RAID-Benchmark-Datensatz (1.838 Texte) kostet weitere $0.19.
Produktions-Inferenz — RunPod Serverless mit A4000 16GB Workern. Dynamisches Batching mit batch=8 liefert 90 Anfragen/Sekunde pro Worker. Kosten: $0.17/Stunde pro aktivem Worker, null im Leerlauf.
Drei Plattformen die ich Getestet Habe
RunPod: Der Gewinner fuer ML
Community Cloud — On-Demand-GPUs fuer Training. Preise von $0.16/Stunde (RTX 3090) bis $0.34/Stunde (A5000). SSH, Skripte ausfuehren, Artefakte herunterladen, terminieren.
Serverless — Auto-skalierende Inferenz-Endpoints. Scale-to-Zero bedeutet keine Kosten ausserhalb der Geschaeftszeiten. Cold Start mit vorgeladenem Modell-Volume: ~5 Sekunden.
Google Cloud Platform: Die Budget-Option
$300 Gratis-Guthaben. T4-Spot-Instanzen fuer $0.11/Stunde — guenstiger als RunPod — aber unterbrechbar. Fuer Batch-Jobs ausgezeichnet. Fuer Echtzeit-Inferenz macht das Unterbrechungsrisiko sie als primaeren Endpoint ungeeignet.
Bare Metal: Das Endspiel
Bei anhaltendem GPU-Verbrauch ueber $500/Monat schlaegt eigene Hardware Miete. Eine gebrauchte Tesla T4 kostet ~$200 auf eBay. Colocation $50-100/Monat. Break-Even etwa im Monat 3-4.
LoRA: Warum Feinabstimmung Guenstiger Ist als Gedacht
Volle Feinabstimmung von DeBERTa-large: 40GB+ VRAM, $50+ pro Durchlauf. LoRA aendert die Gleichung:
- VRAM: 12GB (passt auf RTX 3090 oder A4000)
- Zeit: 15 Minuten auf 2.400 Texten
- Kosten: $0.15 pro Durchlauf
- Adapter-Groesse: 24MB (vs 1.3GB volles Modell)
- Genauigkeit: AUROC 0.9948, TPR@5%FPR 96.75%
Man trainiert 1.8% der Parameter. Der Rest bleibt eingefroren. Der LoRA-Adapter gehoert dir. Die Gewichte gehoeren dir.
Echte Kostenaufstellung
| Operation | Kosten | Zeit |
|---|---|---|
| Training (LoRA, RTX 3090) | $0.15 | 15 Min |
| Benchmark (RAID, 1838 Texte) | $0.19 | 20 Min |
| Inferenz, pro aktive Stunde | $0.17 | laufend |
| Monatlich bei 1K DAU | $15-25 | — |
Vergleich mit OpenAI GPT-4 fuer das gleiche Volumen: $200-500/Monat. Der 10x-Kostenunterschied ist kein Rundungsfehler.
Gelernte Lektionen
- Die torch-Version muss zum CUDA-Treiber passen.
cu118vscu121— Vermischung erzeugt stille Fehler. - GPU-Operationen nie an Hintergrund-Agenten delegieren. Sie koennen Pods erstellen und vergessen sie zu terminieren.
- Network Volumes binden an ein Rechenzentrum. Fuer Training-Artefakte SCP verwenden.
- SSH braucht
--public-ipbei RunPod. - Batch-Groesse ist der Durchsatz-Hebel. Von batch=1 auf batch=8: von 12 req/s auf 90 req/s.
Die Echte Luecke Ist Kleiner als Gedacht
Der Abstand zwischen “Ich habe ein Jupyter Notebook” und “Ich habe einen ML-Service in Produktion” ist nicht so gross wie die Branche es erscheinen laesst. Die Werkzeuge existieren. Die Kosten sind handhabbar. Der Moat ist real — jeder kann GPT-4 aufrufen, aber nicht jeder hat sein eigenes feinabgestimmtes Modell auf seiner eigenen Infrastruktur.
Gesamtinvestition: etwa $5 in GPU-Zeit, ein Wochenende Scripting, und die Bereitschaft CUDA-Fehlermeldungen zu lesen.