Während BOB auf neue Teile wartet, trainiert er schon mal — in einer Welt aus 850.000 Sandkörnern
- Stern Technic GmbH

- vor 15 Stunden
- 9 Min. Lesezeit
Stern Technic GmbH — Deep Dive, März 2026**
---
Wer BOB kennt, weiß: Dieses Projekt ist anders. BOB ist kein normaler Bohrer. BOB ist ein autonomer Verdrängungsbohrer — 51 Millimeter Durchmesser, 704 Millimeter lang, ausgestattet mit gegenläufigen Helixes, einer IMU, zwei Faulhaber-Motoren und dem Ziel, sich selbstständig durch den Untergrund zu arbeiten. Ohne Graben, ohne Bagger, ohne Straße aufreißen.
Und gerade jetzt, während neue mechanische Teile in der Fertigung sind und ich eigentlich „warten" müsste, passiert etwas, das strategisch wichtiger ist als jede einzelne Helix, die jemals aus der CNC-Fräse kommt.
BOB lernt laufen. Virtuell. In Sand. Auf einer gemieteten GPU in der Cloud.
Was sich anhört wie Science-Fiction, ist seit ein paar Wochen mein Alltag. Und ich will euch heute im Detail erklären, was hier passiert — auch und gerade für die Leute unter euch, die im Tiefbau arbeiten und keine Informatiker sind. Denn das, was wir hier machen, wird die Art verändern, wie Bohrgeräte in Zukunft entwickelt werden.
---
Warum „warten" keine Option war
Kennt ihr das? Ihr habt ein neues Helix-Design, eine neue Idee, eine veränderte Steigung oder einen anderen Flankenwinkel — und dann müsst ihr das Teil fertigen lassen, einbauen, rausfahren, testen, auswerten, umbauen und nochmal testen. Jeder einzelne Testlauf kostet Zeit und Geld. Und wenn der Boden an der Teststelle anders ist als erwartet? Alles nochmal.
Was wäre, wenn man hunderte oder sogar tausende Testläufe durchführen könnte, bevor man auch nur ein einziges Teil fertigt?
Genau das machen wir gerade. Und der Zeitpunkt ist perfekt: Während die neuen mechanischen Komponenten gefertigt werden, nutze ich die Wartezeit, um BOB in einer vollständig physikalischen Simulation zu trainieren. Nicht irgendeine Animation, nicht irgendein vereinfachtes Modell — sondern eine echte Physiksimulation, in der Sand sich wie Sand verhält und BOB sich seinen Weg durch 850.000 simulierte Sandpartikel bahnen muss.
---
Der Weg vom CAD-Modell in die Simulation — Schritt für Schritt
Schritt 1: Export aus Autodesk Fusion
Alles beginnt in Autodesk Fusion, wo BOB als 3D-Modell lebt. Jede Helix, jedes Getriebe, jede Schraube ist dort konstruiert. Für die Simulation brauchen wir aber ein spezielles Format: URDF (Unified Robot Description Format). Das ist ein Standard, den die Robotik-Welt nutzt, um Roboter zu beschreiben — mit allen Gelenken, Massen, Trägheitsmomenten und Kollisionsgeometrien.
Über ein Fusion-Plugin exportiere ich BOB als URDF mit den zugehörigen STL-Meshes. Das Ergebnis: Eine XML-Datei, die exakt beschreibt, wie BOB aufgebaut ist. Drei Segmente: vorne ein Rechtsextruder (Motor, 175 mm), in der Mitte der Linksextruder (passiv, mit IMU, 354 mm) und hinten nochmal ein Rechtsextruder (Motor, 175 mm). Die Motoren drehen gegenläufig — das ist das Kernprinzip von BOB. Die eine Helix dreht links, die andere rechts, und genau dieses Zusammenspiel erzeugt den Vortrieb im Boden.
Für Nicht-Techniker: Stellt euch zwei gegenläufige Korkenzieher vor, die ineinander geschraubt sind. Wenn beide gleichzeitig drehen, schraubt sich das Ganze vorwärts — ohne dass irgendjemand drücken muss.
Schritt 2: Import in NVIDIA Isaac Sim
NVIDIA Isaac Sim ist eine professionelle Robotik-Simulationsumgebung. Große Firmen nutzen sie, um Industrieroboter zu entwickeln und zu trainieren, bevor sie in die echte Welt gesetzt werden. Wir nutzen sie für einen 51-Millimeter-Bohrer im Sand — und das ist ziemlich einzigartig.
Der Import läuft über Python: Das URDF wird geladen, BOB wird in der Simulation als physikalischer Körper platziert, die Gelenke werden konfiguriert, die Motorindizes werden zugewiesen. Das klingt kompliziert, ist es auch — aber dank Claude (ja, dem KI-Assistenten, mit dem ich arbeite) wurde der gesamte Aufbau in wenigen Tagen realisiert. Von der Solver-Auswahl bis zur Reward-Funktion für das Training. Dazu später mehr.
Schritt 3: Der Sand — und warum das der eigentliche Durchbruch ist
Hier wird es richtig spannend. In meinem letzten Beitrag vor vier Monaten hatte ich den Particle Sampler in Isaac Sim verwendet. Das war ein erster Versuch, BOB in einer Partikelumgebung zu zeigen. Aber ehrlich? Das war mehr eine Visualisierung als echte Physik. Die Partikel hatten kaum physikalische Eigenschaften, der Boden verhielt sich nicht wie echter Sand.
Jetzt nutzen wir Newton — NVIDIAs neue Physik-Engine, die speziell für solche Anwendungsfälle gebaut wurde. Und innerhalb von Newton gibt es einen Solver namens **iMPM** (Implicit Material Point Method). Für Tiefbauer übersetzt: iMPM ist eine Methode, die Sand, Erde und Kies als das simuliert, was sie sind — ein granulares Medium mit Kohäsion, Reibungswinkel, Elastizitätsmodul und Dichte. Keine vereinfachte Reibungsformel, kein Tricksen. Echter digitaler Sand.
Die Material-Point-Methode kombiniert zwei Ansätze: Partikel, die das Material tragen (jedes Sandkorn ist ein Rechenobjekt), und ein Hintergrundgitter, das die Physik löst. Der implizite Zeitschritt erlaubt dabei bis zu 20-mal größere Berechnungsschritte als herkömmliche Methoden — das macht es überhaupt erst möglich, so eine Simulation in vertretbarer Zeit durchzuführen.
Die Zahlen: BOB sitzt in einer Sandbox mit 850.000 Partikeln bei 3 Millimeter Auflösung. Jedes Partikel hat eine Masse (abhängig von der Dichte des simulierten Bodens), einen Reibungskoeffizienten und physikalisches Verhalten. Wenn BOB seine Helixes dreht, verdrängen die Flanken die Sandpartikel — und daraus entsteht der Vortrieb. Nicht programmiert, nicht als Formel hinterlegt. **Emergent.** Das Sandbett drückt zurück, die Helix schiebt dagegen, und die resultierende Kraft ergibt sich natürlich aus der Physik.
Für Tiefbauer: Das ist so, als hätte man eine perfekte, beliebig oft wiederholbare Testgrube auf dem Rechner. Und man kann den Boden auf Knopfdruck ändern — von trockenem Sand über feuchten Lehm bis zu Kies.
Schritt 4: Die Zwei-Wege-Kopplung — BOB und Sand sprechen miteinander
Eine der größten technischen Herausforderungen war die Kopplung zwischen BOB (starrer Körper) und dem Sand (Partikel). In der einfachen Version bewegt sich BOB und der Sand reagiert — aber der Sand drückt nicht zurück. Das ist physikalisch falsch.
Unsere Lösung: Eine echte Zwei-Wege-Kopplung. Nach jedem Simulationsschritt messen wir, wie sich die Geschwindigkeit der Sandpartikel in der Nähe von BOB verändert hat. Aus dieser Geschwindigkeitsänderung berechnen wir den Impuls, und aus dem Impuls die Rückkraft auf BOB — Newtons drittes Gesetz: actio = reactio. Der Sand drückt genauso stark zurück, wie BOB in ihn hineindrückt.
Dazu kommt ein Subgrid-Modell für den Helix-Vortrieb: Die Simulationsauflösung (3 mm pro Partikel) ist zu grob, um die feinen Helix-Flanken aufzulösen. Also berechnen wir den Schraubenvortrieb analytisch aus der Motordrehzahl und dem Engagement (wie viel Sand BOB umgibt), ähnlich wie Turbulenzmodelle in der Strömungssimulation Details berechnen, die das Rechengitter nicht auflösen kann.
---
Und jetzt: Das Training — BOB lernt die optimalen Drehzahlen
Hier kommt der Teil, der das Ganze strategisch so wertvoll macht.
Was ist Reinforcement Learning (RL)?
Stellt euch vor, ihr setzt einen Lehrling an eine Bohrmaschine. Er hat keine Ahnung, welche Drehzahl die richtige ist. Also probiert er: mal schnell, mal langsam, mal links mehr als rechts. Nach jedem Versuch sagt ihr ihm: „Das war gut" oder „Das war schlecht" — basierend darauf, wie weit der Bohrer gekommen ist und ob er geradeaus gefahren ist.
Nach hunderten Versuchen hat der Lehrling ein Gespür dafür, was funktioniert. Genau das ist Reinforcement Learning — nur dass der Lehrling ein neuronales Netz ist und die Bohrmaschine eine physikalische Simulation.
PPO — Der Algorithmus
Wir verwenden PPO (Proximal Policy Optimization), einen der bewährtesten RL-Algorithmen. PPO lernt eine „Policy" — eine Strategie, die aus dem aktuellen Zustand (Position, Geschwindigkeit, Neigung, Motordrehzahlen, Sandkräfte) die optimale Aktion ableitet (wie schnell soll Motor hinten drehen, wie schnell Motor vorne).
Die Zahlen des Trainings
So läuft ein Training ab, und diese Zahlen verdeutlichen, warum die Simulation so wertvoll ist:
Ein Timestep ist ein einzelner Frame, also 1/60 Sekunde Simulationszeit. BOB dreht seine Motoren, der Sand reagiert, die neue Position wird gemessen.
Eine Episode umfasst 300 Timesteps, also 5 Sekunden Simulationszeit. BOB startet halb im Sand, fährt los, und am Ende wird gemessen: Wie weit ist er gekommen? Wie gerade ist er gefahren?
In einem Trainingslauf mit 50.000 Timesteps durchläuft PPO etwa **167 komplette Episoden**. In jeder Episode probiert der Algorithmus eine leicht andere Kombination von Heck- und Front-Drehzahlen aus.
Der Ablauf pro Episode:
1. BOB startet halb eingegraben bei Position x = -0.25 m
2. PPO wählt: Heckmotor = X% und Frontmotor = Y% der Maximaldrehzahl (0 bis 22,3 RPM)
3. BOB fährt 5 Sekunden mit diesen Drehzahlen durch den Sand
4. Gemessen wird: Vortrieb in Millimetern entlang der X-Achse, Seitenabweichung in Millimetern auf der Y-Achse, und der Heading-Winkel
5. PPO bewertet: „War diese Kombination besser oder schlechter als die vorherigen?"
6. PPO passt seine Strategie an und startet die nächste Episode mit einer verbesserten Kombination
Am Anfang probiert PPO quasi zufällig — daher ein schlechter Reward von etwa -15.700. Mit der Zeit lernt der Algorithmus, welche Kombinationen gut funktionieren. Der Reward steigt auf -2.100, was bedeutet: deutlich mehr Vortrieb, deutlich weniger Seitenabweichung.
**Das Besondere:** Der Vortrieb entsteht **emergent** aus der Helix-Sand-Physik — er ist nicht programmiert. PPO findet den Sweet-Spot rein durch Ausprobieren in der physikalischen Simulation. 850.000 Sandpartikel bei 3 mm Auflösung. Das ist kein Spielzeug, das ist Ingenieurwissenschaft.
---
Die Rechenleistung — Warum die Cloud ein Game-Changer ist
Jetzt stellt euch mal die Frage: Welchen Rechner braucht man, um 850.000 Partikel physikalisch korrekt zu simulieren, während gleichzeitig ein Roboter gesteuert und ein neuronales Netz trainiert wird?
Die Antwort: Einen mit einer NVIDIA L40S GPU — eine professionelle Grafikkarte mit 48 GB Videospeicher, die im Handel aktuell irgendwo zwischen 8.000 und 12.000 Euro liegt. Dazu den passenden Server, die Kühlung, den Strom.
Ich nutze stattdessen Launchable — einen Cloud-Service von NVIDIA, bei dem ich genau diese Hardware mieten kann. **3,65 Dollar pro Stunde.** Isaac Sim ist vorinstalliert, die Treiber passen, ich verbinde mich remote und starte mein Training. Wenn ich fertig bin, schalte ich ab und bezahle nur die tatsächlich genutzten Stunden.
Rechnen wir mal: Ein kompletter Trainingsrun mit 50.000 Timesteps dauert je nach Partikelauflösung einige Stunden. Das sind vielleicht 15 bis 30 Euro an Cloud-Kosten pro Trainingsrun. Vergleicht das mal mit dem Kauf der Hardware. Oder mit einem einzigen echten Testlauf, bei dem ihr einen Bagger bestellt, eine Testgrube aushebt, den Bohrer einsetzt und dann feststellt, dass die Helix-Steigung doch nicht optimal war.
Dieses Kosten-Verhältnis ist absurd gut. Und es ermöglicht mir als kleinem Unternehmen, Forschung auf einem Niveau zu betreiben, das vor fünf Jahren nur für Großkonzerne mit eigenen Simulationsabteilungen möglich war.
---
Claude — Der unsichtbare Ingenieur im Team
Ich will hier ganz offen sein: Der gesamte Simulationsaufbau — vom URDF-Import über die Newton-Konfiguration bis hin zum RL-Environment und dem PPO-Training — wurde in enger Zusammenarbeit mit Claude entwickelt. Claude ist der KI-Assistent von Anthropic, und ja, ich nutze ihn intensiv.
Ich habe sogar einen eigenen **Skill** für Claude erstellt — eine Art Wissensdatenbank, die Newton-spezifisches Wissen enthält: Welcher Solver ist für welches Material der richtige, wie konfiguriert man iMPM für Sand, welche API-Konventionen gelten, wie baut man die Simulationsschleife auf. Wenn ich Claude frage „Wie setze ich BOB in Sand auf?", zieht er dieses Fachwissen heran und liefert Code, der tatsächlich funktioniert.
Ohne Claude hätte ich Wochen oder Monate gebraucht, um mich in die Newton-API, die iMPM-Parameter und die RL-Frameworks einzuarbeiten. Mit Claude waren die grundlegenden Skripte in wenigen Tagen lauffähig. Das heißt nicht, dass es keine Probleme gab — die Zwei-Wege-Kopplung zwischen Starrkörper und Partikeln war eine echte Herausforderung und brauchte mehrere Iterationen mit verschiedenen Stabilisierungsschichten. Aber die Geschwindigkeit, mit der wir iterieren konnten, ist beispiellos.
---
Was das für die Zukunft von BOB bedeutet
Das Ergebnis des Trainings teile ich hier bewusst nicht im Detail — das ist Know-how von Stern Technic und unser Wettbewerbsvorteil. Aber ich kann euch sagen, was diese Fähigkeit strategisch bedeutet:
1. Schnelles Testen neuer Helix-Designs: Wenn ich eine neue Steigung, einen anderen Flankenwinkel oder ein verändertes Durchmesserverhältnis testen will, ändere ich das CAD-Modell, exportiere neu, starte ein Training — und habe innerhalb von Stunden eine belastbare Aussage, ob das Design besser oder schlechter funktioniert. Ohne ein einziges physisches Teil zu fertigen.
2. Verschiedene Bodenarten virtuell testen: Sand, Lehm, Kies, Mutterboden — alles nur eine Parameteränderung in der Simulation. Kohäsion rauf, Reibungswinkel runter, Dichte anpassen. BOB lernt für jeden Boden die optimale Strategie.
3. Optimierte Firmware-Parameter: Die PID-Regler, die Retreat-Schwellen, die PWM-Anpassung — all das kann in der Simulation optimiert werden, bevor es auf die echte Hardware geht. Das spart nicht nur Testläufe, sondern reduziert das Risiko, dass BOB im Feld in einer Situation stecken bleibt, die man vorher hätte simulieren können.
4. Validierung vor dem Feldtest: Bevor die neuen mechanischen Teile eingebaut werden, weiß ich bereits, welche Drehzahlkombination optimal ist. Der erste echte Testlauf wird nicht mehr ein Blindflug, sondern eine Bestätigung.
---
Einzigartig auf der Welt
Ich sage das nicht leichtfertig: Was wir hier machen, ist nach meinem besten Wissen einzigartig auf der Welt. Es gibt niemanden, der einen Verdrängungsbohrer dieser Größe mit einer partikelbasierten Physiksimulation auf GPU trainiert und die Ergebnisse per Reinforcement Learning optimiert. Die großen Bohrmaschinenhersteller arbeiten mit vereinfachten analytischen Modellen oder Finite-Elemente-Methoden. Niemand simuliert den Boden als 850.000 einzelne Partikel und lässt eine KI hunderte Male durchprobieren, welche Motorkombination am besten funktioniert.
Das ist der Vorteil, wenn man klein genug ist, um verrückte Ideen auszuprobieren, und gleichzeitig Zugang zu Werkzeugen hat, die vor wenigen Jahren nur den größten Forschungslaboren der Welt zur Verfügung standen.
---
Zusammenfassung für Eilige
Was ist passiert, seit der letzte Beitrag vor vier Monaten erschien?
Vom einfachen Particle Sampler (mehr Visualisierung als Physik) sind wir zu einer vollwertigen Physiksimulation mit Newtons iMPM-Solver übergegangen. BOB liegt jetzt in echtem digitalen Sand — mit realistischem Reibungsverhalten, Kohäsion und Verdrängung. Ein PPO-Algorithmus trainiert die optimalen Motordrehzahlen über hunderte virtuelle Testläufe. Das Ganze läuft auf gemieteter Cloud-Hardware für 3,65 Dollar die Stunde. Und der gesamte Aufbau wurde mit Unterstützung von Claude — dem KI-Assistenten — in wenigen Tagen realisiert, inklusive eines maßgeschneiderten Newton-Skills.
Die Wartezeit auf neue Teile ist keine verlorene Zeit. Sie ist die wertvollste Entwicklungsphase, die BOB je hatte.
---
*Nicolai Stern — Stern Technic GmbH*

Kommentare