Jak naprawde dziala robot humanoidalny: wizualny przewodnik dla kazdego, kto nie jest inzynierem
W skrócie
Widziałes viralowe filmy. Robot przechodzi przez hale fabryczną, podnosi pudelko i stawia je na polce. Ale co tak naprawde dzieje sie wewnatrz tej maszyny? Ten przewodnik otwiera maske pieciu kluczowych systemow, ktore sprawiaja, ze robot humanoidalny dziala, z wykorzystaniem prawdziwych specyfikacji robotow dostepnych dzis na rynku.
Widziałes te filmy. Dwunozna maszyna przechodzi przez hale magazynową, schyla sie, podnosi plastikowy pojemnik i ustawia go na polce. Inna wykonuje salto na scenie demonstracyjnej w fabryce. Trzecia prowadzi naturalna rozmowe z ludzkim goscciem, jednoczesnie podajac mu filizanke kawy.
Z zewnatrz te maszyny wygladaja niemal magicznie. Od wewnatrz to piec systemow inzynieryjnych zlaczonych razem i walczacych o energie z baterii.
Ten przewodnik przeprowadzi cie przez kazdy z tych pieciu systemow, wyjasni, co kazdy z nich naprawde robi, i uzyje prawdziwych specyfikacji robotow, ktore mozesz sledzic na tej stronie. Bez rownan. Bez zadrego bezobjasnionego zaronu. Tylko uczciwa mechanika tego, jak robot humanoidalny przechodzi ze stania w miejscu do wykonywania uzytecznej pracy.
Maszyny, do ktorych bedzemy sie odwolywal w calym tym przewodniku
Unitree G1
23-43 stopnie swobody, 35 kg
Agility Digit
ok. 30 stopni swobody, 65 kg
Boston Dynamics Atlas
90 kg, tylko dla korporacji
Figure 03
61 kg, AI Helix
Piec systemow w skrocie
Zanim zaglebisz sie w kazdy z nich, oto ogolna architektura. Kazdy robot humanoidalny - od Unitree G1 za 16 000 dolarow po wielomilionowy Boston Dynamics Atlas - dziala na tych samych pieciu kluczowych systemach. Roznią sie wyrafinowaniem, kosztem i mozliwosciami, ale podstawowa struktura jest universalna.
Kluczowe systemy robota humanoidalnego
Percepcja
Kamery, LiDAR, IMU, czujniki sily
AI / Planowanie
Modele fundacyjne, planowanie sciezki, rozumowanie zadan
Lokomocja
Nogi, stawy, siłowniki, kontrola rownowagi
Manipulacja
Ramiona, dlonie, chwytaki, kontrola sily
Zasilanie
Bateria, dystrybucja energii, zarzadzanie termiczne
System percepcji widzi swiat. System AI decyduje, co z nim zrobic. Lokomocja porusza cialem. Manipulacja oddzialuje z obiektami. A zasilanie utrzymuje wszystko w dzialaniu tak dlugo, jak pozwala bateria.
Ta ostatnia czesc okazuje sie byc glownym ograniczeniem dla wszystkiego innego. Ale do tego dojdziemy.
System 1: Lokomocja - jak chodzi bez wywrotki
Chodzenie to cos, co ludzie robia bez myslenia. Dla robota to najtrudniejszy mechanicznie problem do rozwiazania.
Dwunozna maszyna jest z natury niestabilna. W przeciwienstwie do samochodu lub robota kolowego, ktore pasywnie spoczywaja na stabilnej podstawie, robot na dwoch nogach ciagle spada i sie ratuje. Kazdy krok to kontrolowany upadek. System lokomocji musi obliczac setki drobnych korekt na sekunde, by utrzymac srodek ciezkosci nad stopami - a precyzyjniej, nad ciagle przesuwajacym sie “wielokatem podparcia” definiowanym przez stope, ktora akurat spoczywa na ziemi.
Stopnie swobody: dlaczego liczba ma znaczenie
Termin “stopnie swobody” (DoF) opisuje, ile niezaleznych stawow i osi ruchu ma robot. Pomysl o tym tak: twoj lokiec ma jeden stopien swobody (zgina sie w jednej plaszczyznie). Twoje ramie ma trzy (obraca sie w trzech plaszcyznach). Twoje cale cialo ma okolo 244 stopni swobody, jesli policzysz kazdy staw od kregoslupa po palce nog.
Roboty humanoidalne nie dorownuja tej liczbie. Priorytetyzuja stawy najbardziej istotne dla swoich zamierzonych zadan i pomijaja resztę.
Stopnie swobody obecnych robotow humanoidalnych
Bazowy model konsumencki. Wystarczajacy do chodzenia i podstawowego chwytania.
Wariant badawczy dodaje artykulacje palcow i dodatkowe stawy tulowia.
Prototyp demonstracyjny z 2022 roku. Ograniczona praktyczna zrecznosc.
28 stopni sw. ciala plus 11 stopni sw. na dloni w Gen 3. Lacznie ok. 50.
Zoptymalizowany do obslugi pojemnikow magazynowych, nie ogolnej zrecznosci.
16 stopni sw. na dlonie. Zaprojektowany do zlozonej manipulacji na linii montazowej.
Modularny projekt z wymiennymi efektorami koncowymi.
Najbardziej przegubowy humanoid w produkcji. Zbudowany dla maksymalnej wszechstronnosci.
Wywodzi sie z badan nad robotyka rehabilitacyjna. Bardzo zreczny.
Unitree G1 (bazowy)
Bazowy model konsumencki. Wystarczajacy do chodzenia i podstawowego chwytania.
Unitree G1 (EDU)
Wariant badawczy dodaje artykulacje palcow i dodatkowe stawy tulowia.
Xiaomi CyberOne
Prototyp demonstracyjny z 2022 roku. Ograniczona praktyczna zrecznosc.
Tesla Optimus Gen 2/3
28 stopni sw. ciala plus 11 stopni sw. na dloni w Gen 3. Lacznie ok. 50.
Agility Digit
Zoptymalizowany do obslugi pojemnikow magazynowych, nie ogolnej zrecznosci.
Figure 03
16 stopni sw. na dlonie. Zaprojektowany do zlozonej manipulacji na linii montazowej.
Apptronik Apollo
Modularny projekt z wymiennymi efektorami koncowymi.
Boston Dynamics Atlas
Najbardziej przegubowy humanoid w produkcji. Zbudowany dla maksymalnej wszechstronnosci.
Fourier GR-2
Wywodzi sie z badan nad robotyka rehabilitacyjna. Bardzo zreczny.
Roznica miedzy 23 a 56 stopniami swobody to nie tylko liczba na karcie specyfikacji. Determinuje, co robot moze fizycznie robic. Robot o 23 stopniach swobody moze chodzic, skrecac i chwytac duze obiekty prostym chwytakiem. Robot o 56 stopniach swobody moze siagac za przeszkody, obracac nadgarstkami, by odkrecac sruby, i dostosowywac posture, by przecisnac sie przez waskie przejscie.
Siłowniki: miesnie
Kazdy stopien swobody potrzebuje czegos do wprawienia go w ruch. W robocie humanoidalnym tym czyms jest siłownik - zazwyczaj silnik elektryczny sparowany z przekladnia. Siłownik przetwarza energie elektryczna na moment obrotowy, ktory porusza stawem.
Jakosc siłownikow jest jednym z glownych czynnikow rozniacych robota za 16 000 dolarow od tego za 250 000 dolarow. Tanie siłowniki sa mniej precyzyjne, generuja wiecej ciepla i szybciej sie zuzykaja pod obciazeniem. Siłowniki premium (takie jak w Boston Dynamics Atlas czy Figure 03) oferuja wyzsze wskazniki momentu do wagi, lepsza przesterownosc (co oznacza, ze czlowiek moze pchnac staw i bezpiecznie ustapi) oraz scislejsza kontrole polozenia.
Unitree utrzymuje niska cene G1 czesciowo dzieki uzyciu siłownikow ze swojej istniejącej linii robotow czworonoznych. Ten sam silnik, ktory napedza noge psa robotycznego Unitree Go2, napedza rowniez kolano G1. To sprytna produkcja, ale oznacza, ze siłowniki G1 sa zoptymalizowane do 15-kilogramowego czworonoga, nie do 35-kilogramowego biped niosacego ladunek.
Na drugim koncu Boston Dynamics projektuje niestandardowe siłowniki do Atlasa z maksymalnym momentem do 450 Nm, co pozwala 90-kilogramowemu robotowi podnosic 50 kg i wykonywac dynamiczne ruchy, takie jak bieganie i skakanie. Fourier GR-2 uzywa wlasnych siłownikow FSA 2.0 o mocy 380 Nm, ktore wywodza sie z wieloletnich badan nad robotyka rehabilitacyjna.
Kontrola rownowagi: ukryte oprogramowanie
Sam sprzet nie sprawia, ze robot chodzi. Petla sterowania rownowaga - system oprogramowania czasu rzeczywistego dzialajacy z czestotliwoscia 500-1000 Hz (500 do 1000 cykli na sekunde) - stale odczytuje dane z jednostki pomiaru bezwladnosci (IMU) i enkodera stawow robota, a nastepnie dostosowuje polecenia silnika, by utrzymac robota pionowo.
Nowoczesne roboty humanoidalne uzywaja kombinacji dwoch podejsc:
Sterowanie oparte na modelu uzywa modelu fizyki ciala robota. Oprogramowanie zna dokladna mase, dlugosc i limity stawow kazdej konczyny oraz oblicza sily potrzebne do utrzymania rownowagi przy uzyciu rownan fizyki. Jest niezawodne i przewidywalne, ale ma trudnosci z nieoczekiwanymi sytuacjami, jak postawienie nogi na luźnym kamieniu.
Sterowanie nauczone uzywa sieci neuronowych trenowanych przez miliony symulowanych prob chodzenia. AI nie ma wyraznego modelu fizyki. Zamiast tego nauczyla sie wzorcow: “gdy IMU odczytuje ten kat przechylenia i lewa noga odczuwa ta sile, zastosuj to polecenie silnika”. Takie podejscie lepiej radzi sobie z niespodziankami, ale moze zachowywac sie nieprzewidywalnie w przypadkach brzegowych.
Wiekszosc produkcyjnych robotow laczy oba podejscia. Unitree G1 uzywa uczenia przez wzmacnianie trenowanego w NVIDIA Isaac Sim do lokomocji, dzialajacego na procesorze NVIDIA Jetson Orin. Boston Dynamics Atlas uzywa tego, co firma nazywa “Duzymi Modelami Zachowan” (Large Behavior Models), laczacymi wyuczone polityki z zabezpieczeniami opartymi na modelach.
Jak dziala petla kontroli rownowagi (uproszczone)
IMU + czujniki stawow odczytuja aktualny stan ciala
Kat przechylenia, predkosc katowa, sila kontaktu stopy
Sterownik rownowagi oblicza korekte
Czestotliwosc aktualizacji 500-1000 Hz, model fizyki + siec neuronowa
Polecenia silnika wyslane do siłownikow nog
Cele momentu dla stawow biodrowych, kolanowych i skokowych
Robot dostosowuje postureę w milisekundach
Petla powtarza sie co 1-2 ms
System 2: Manipulacja - dlaczego dlonie sa trudniejsze niz nogi
Jesli lokomocja to najtrudniejszy mechanicznie problem, manipulacja to najtrudniejszy polaczony problem mechaniczno-AI. Chodzenie jest powtarzalne. Robot wykonuje zasadniczo ten sam wzorzec ruchu w kolko. Ale podnoszenie rzeczy jest inne za kazdym razem. Filizanka do kawy, kartonowe pudelko, srubokret i surowe jajko wymagaja calkowicie roznych strategii chwytu, poziomow sily i katow podejscia.
Spektrum robotycznych dloni
Robotyczne dlonie siegaja od prostych chwytakow szczekowych (dwie plaskie powierzchnie sciskajace sie razem) po w pelni przegubowe dlonie pieciocalowe z czujnikami dotyku na kazdej opuszce. Miejsce, w ktorym robot lokuje sie na tym spektrum, mowi niemal wszystko o tym, jakie zadania moze wykonywac.
Zrecznosc dłoni na rynku
Unitree G1 (bazowy)
Prosty chwytak, ograniczone chwytanie
Figure 03 na dlonie
Czujniki sily, precyzyjna manipulacja
Tesla Optimus na dlonie
Czujniki dotyku, projekt Gen 3
Bazowy model Unitree G1 jest dostarczany z prostym chwytakiem. Moze podniesc butelke wody lub male pudelko. Nie moze zawiazac wezla, obrocic srubokreta ani obsluzyc cienkiej kartki papieru. Wariant EDU oferuje opcjonalna dlonie pieciocalową, ale jej zrecznosc nadal nie dorownuje dedykowanym dłoniom przemyslowym.
Dlonie Figure 03 maja 16 stopni swobody kazda oraz czujniki sily, ktore moga wykryc sile sciskania palcow. Pozwala to robotowi obsługiwac kruche przedmioty i wykonywac zadania montazowe wymagajace precyzyjnej kontroli sily, jak wsuwanie zlacza w gniazdo lub przeciaganie drutu przez otwor.
Projekt Gen 3 Optimusa od Tesli umieszcza 11 stopni swobody w kazdej dłoni z czujnikami dotyku na opuszkach palcow. To mniej stawow niz w Figure 03, ale podejscie Tesli uzywa kompleksowych sieci neuronowych trenowanych na tysiącach godzin danych o manipulacji z jej Gigafactories, kompensujac mniejsza liczbe mechanicznych stopni swobody bardziej zaawansowanym sterowaniem AI.
Ladunek: praktyczne wąskie gardło
Zdolnosc do podnoszenia ladunku - ile wazy to, co robot moze niesc - jest determinowana przez laczna sile siłownikow ramienia, strukturalna sztywnosc ramienia i tulowia oraz zdolnosc robota do zachowania rownowagi przy trzymaniu czegos ciężkiego.
Porownanie udwignosci
Dobry na butelke wody. Nie przeniesie pojemnikow magazynowych.
Prototyp demonstracyjny. Bardzo ograniczona praktyczna udwizgnosc.
Zbudowany do pojemnikow magazynowych Amazon (zazwyczaj 10-15 kg).
Obsluguje czesci samochodowe na linii Gigafactory.
Ta sama klasa 20 kg co Tesla, inne podejscie do manipulacji.
Najwyzsza udwizgnosc bipedalna. Projekt z wymienna bateria.
Projekt mieśniowo-szkieletowy umozliwia duzą sile przy ciele 30 kg.
Najsilniejszy humanoid. Uzywa masy 90 kg jako przeciwwagi.
Unitree G1
Dobry na butelke wody. Nie przeniesie pojemnikow magazynowych.
Xiaomi CyberOne
Prototyp demonstracyjny. Bardzo ograniczona praktyczna udwizgnosc.
Agility Digit
Zbudowany do pojemnikow magazynowych Amazon (zazwyczaj 10-15 kg).
Tesla Optimus
Obsluguje czesci samochodowe na linii Gigafactory.
Figure 03
Ta sama klasa 20 kg co Tesla, inne podejscie do manipulacji.
Apptronik Apollo
Najwyzsza udwizgnosc bipedalna. Projekt z wymienna bateria.
1X NEO
Projekt mieśniowo-szkieletowy umozliwia duzą sile przy ciele 30 kg.
Boston Dynamics Atlas
Najsilniejszy humanoid. Uzywa masy 90 kg jako przeciwwagi.
Udwizgnosc 3 kg Unitree G1 jest bezposrednia konsekwencją jego wagi 35 kg i siłownikow klasy konsumenckiej. Fizyka jest bezlitosna: lekki robot ze słabymi silnikami po prostu nie moze podnosic ciezkich obiektow bez przewracania sie. G1 wymienia udwizgnosc na przenosnosc i przystepnosc cenową.
Na drugim koncu Boston Dynamics Atlas moze podnosic 50 kg, bo sam wazy 90 kg (dajac przeciwwage), uzywa niestandardowych siłownikow o wysokim momencie i ma szkielet zaprojektowany do duzych obciazen. Ale ta masa 90 kg oznacza rowniez, ze Atlas zuzywa znacznie wiecej energii na chodzenie, co wraca do problemu baterii.
1X NEO jest ciekawym wyjatkiem. Przy wadze zaledwie 30 kg moze niesc 25 kg i podnosic 70 kg. Sekretem jest jego projekt mięsniowo-szkieletowy: zamiast sztywnych siłownikow z przekladnia, NEO uzywa miekkiego systemu z sztucznymi miesniami napedzanymi kablami, ktore nasladuja dzialanie ludzkich sciegien. Jest to lejsze na jednostke sily, ale technologia jest nowsza i mniej sprawdzona na skale.
System 3: Percepcja - jak robot widzi
System percepcji robota humanoidalnego jest jego oknem na swiat. Bez niego AI nie ma nic, o czym mogloby rozumowac, a system lokomocji nie ma pojecia, gdzie postawic krok.
Stos czujnikow
Kazdy robot humanoidalny uzywa warstwowego podejscia do czujnikow. Zadne jedyne zrodlo czujnikow nie moze dostarczyc wszystkich informacji, ktorych robot potrzebuje.
Typowy stos czujnikow percepcji
Kamery RGB
Kolorowe wideo do rozpoznawania obiektow, wykrywania twarzy, czytania etykiet
Kamery glebi / stereowizja
Pomiar odleglosci 3D, wykrywanie przeszkod, mapowanie przestrzenne
LiDAR (w niektorych modelach)
Precyzyjne mapowanie odleglosci laserem, dziala w slabym swietle
IMU (jednostka pomiaru bezwladnosci)
Przechyl, rotacja, przyspieszenie - niezbedne do rownowagi
Czujniki sily / momentu
W stawach i palcach, mierzy sily kontaktu z obiektami
Enkodery stawow
Precyzyjne polozenie kazdego stawu, raportowanie do petli rownowagi
Najprostszy zestaw, uzywany przez Unitree G1, obejmuje kamere glebi, IMU i enkodery stawow. Wystarczy do podstawowej nawigacji i interakcji z obiektami w kontrolowanych srodowiskach.
Najbardziej zlozony zestaw, uzywany przez Boston Dynamics Atlas, dodaje kamery stereo, LiDAR, czujniki sily/momentu w kazdym stawie i wiele redundantnych IMU. Atlas moze mapowac zagrozona halê fabryczna, identyfikowac konkretne czesci na polce i czuc dokladnie, jak duza sile aplikuja jego palce na kruchy komponent.
Tesla przyjmuje podejscie oparcie wylacznie na kamerach dla Optimusa, naśladujac filozofie “Tesla Vision” ze swoich samochodow autonomicznych. Brak LiDAR. Zamiast tego wiele kamer zasila kompleksowa siec neuronową, ktora wydobywa glebie, tozsamosc obiektow i relacje przestrzenne wylacznie z danych wizualnych. Jest to tansze na jednostke, ale wymaga ogromnych danych treningowych.
Figure 03 uzywa osmiu kamer (RGB i glebi) rozmieszczonych w celu zapewnienia 360-stopniowego pokrycia. W polaczeniu z modelem fundacyjnym Helix te kamery daja robotowi ciagla swiadomosc calego otoczenia bez koniecznosci obracania glowy.
Fuzja czujnikow: laczenie wszystkiego
Zadne pojedyncze zrodlo czujnikow nie dostarcza kompletnego obrazu. Kamery RGB nie moga dokladnie mierzyc odleglosci. Kamery glebi maja trudnosci w jasnym swietle. LiDAR nie moze czytac tekstu na etykiecie. Czujniki sily informuja o kontakcie, ale nic o tym, co jest 10 metrow dalej.
Fuzja czujnikow to proces laczenia danych ze wszystkich czujnikow w zunifikowany model swiata. System percepcji tworzy i stale aktualizuje mape 3D otoczenia robota, sledzi poruszajace sie obiekty, identyfikuje powierzchnie, po ktorych robot moze chodzic, i etykietuje obiekty, z ktorymi robot moze potrzebowac interagowac.
Ten proces fuzji dziala w czasie rzeczywistym, zazwyczaj z czestotliwoscia 30-60 Hz, na komputerze pokładowym robota. Unitree G1 obsluguje to na NVIDIA Jetson Orin (275 TOPS mocy obliczeniowej AI). Boston Dynamics Atlas uzywa niestandardowej platformy obliczeniowej z akceleratorem GPU. Apptronik Apollo uzywa dwoch modulow NVIDIA Jetson (AGX Orin plus Orin NX) do podzialu obciazenia miedzy percepcje a planowanie.
System 4: AI i planowanie - mozg
Tu dzieje sie aktualnie najwieksza rewolucja w robotyce humanoidalnej. Piec lat temu wiekszosc robotow polegala na starannie zakodowanych reczne instrukcjach: “przenies ramie do pozycji X, zamknij chwytak, uniesc do pozycji Y”. Dzis czolowe roboty uzywaja systemow AI, ktore potrafia uczyc sie nowych zadan z garnelu demonstracji i rozumowac w nowych sytuacjach, z ktorymi nigdy wczesniej sie nie spotkaly.
Tradycyjne programowanie vs. modele fundacyjne
Rozroznienie ma znaczenie, bo determinuje, jak szybko robot moze uczyc sie nowych zadan i jak dobrze radzi sobie z niespodziewanym.
Tradycyjne podejscie (programowane): Inzynier pisze kod okreslajacy dokladnie, co robot powinien robic w kazdej sytuacji. Jesli inzynier nie przewidzial konkretnego scenariusza, robot albo nic nie robi, albo robi cos zlego. Dodanie nowego zadania wymaga wiecej czasu inzynieryjnego. Tak wiekszosc robotow przemyslowych (np. ramiona w fabrykach samochodow) dzialala przez dekady.
Podejscie oparte na modelu fundacyjnym: Duza siec neuronowa jest trenowana na ogromnych zbiorach demonstracji robotow, ludzkich filmow i opisow jezykowych zadan. Zamiast na sztywno kodowac konkretne zachowania, model uczy sie ogolnych zasad: “tak wyglada podnoszenie czegos”, “tak nawigujesz wokol przeszkody”, “to ma na mysli czlowiek, gdy mowi postaw to tam”. Kiedy robot napotyka nowa sytuacje, moze sie uogolnic z danych treningowych zamiast potrzebowac nowego programu.
Systemy AI na rynku
Figure 03
Model wizualno-jezykowo-akcyjny
Tesla Optimus
Kompleksowa siec neuronowa
Apptronik Apollo
Model fundacyjny NVIDIA
Co naprawde robi model fundacyjny
Wezmy jako konkretny przyklad model Helix od Figure AI, poniewaz jest jednym z najbardziej publicznie udokumentowanych systemow.
Helix jest modelem “wizualno-jezykowo-akcyjnym” (VLA). Ta nazwa opisuje jego trzy kanaly wejscia/wyjscia:
Wizja: Helix przetwarza surowe sygnaly z kamer osmiu kamer Figure 03. Nie rozpoznaje tylko obiektow (“to jest filizanka”). Rozumie relacje przestrzenne (“filizanka jest na krawedzi stolu, w pozycji pionowej, do polowy pelna”), wlasciwosci fizyczne (“filizanka jest ceramiczna, okolo 300 gramow”) i doswiadczenia (“filizanka ma uchwyt, ktory mozna uchwycic od lewej strony”).
Jezyk: Helix rozumie polecenia w jezyku naturalnym. Ludzki nadzorca moze powiedziec “przesuń niebieski pojemnik na druga polke” i model przetlumaczy to na sekwencje akcji robotycznych. Rozumuje rowniez przy niejednoznacznosci: jesli sa dwa niebieskie pojemniki, moze zapytac o doprecyzowanie lub uzyc kontekstu, by wywniostowac, o ktory chodzi.
Akcja: Helix generuje polecenia silnikow niskiego poziomu, okreslajac dokladny moment, polozenie i predkosc dla kazdego stawu w kazdej chwili. Model nie przekazuje dalej do oddzielnego systemu planowania ruchu. Przechodzi bezposrednio od rozumienia (“musze podniesc niebieski pojemnik po lewej”) do wykonania (“przesuн staw barkowy do 45 stopni z predkoscia 30 stopni na sekunde, jednoczesnie zamykajac stawy palcow z sila 5 N”).
Jak Helix przetwarza zadanie (uproszczone)
Wejscie z kamer
8 kamer, RGB i glebia
Polecenie jezykowe
Jezyk naturalny lub instrukcja flotowa
Model VLA Helix
Zunifikowane rozumowanie na wszystkich wejsciach
Polecenia silnikow
Moment / polozenie dla wszystkich 42 stawow
To fundamentalnie rozni sie od podejscia Unitree G1. G1 uzywa wyuczonych polityk lokomocji (trenowanych w symulacji) do chodzenia i podstawowych ruchow, ale polega na oprogramowaniu stron trzecich do wykonywania zlozonych zadan. Laboratorium badawcze uzywajace G1 moze zainstalowac pipeline manipulacji oparty na ROS2, ktory uzywa oddzielnych modulow do wykrywania obiektow, planowania chwytu i sterowania ramieniem. Kazdy modul jest odmienny, komunikuje sie przez zdefiniowane interfejsy i byl prawdopodobnie opracowany przez inny zespol. To dziala, ale jest wolniejsze w adaptacji i bardziej kruche, gdy cos idzie nie tak.
Ekosystem NVIDIA GR00T
Przez NVIDIA GR00T (Generalist Robot 00 Technology) - model fundacyjny integrowany przez kilku producentow robotow - pojawia sie srednia droga. Apptronik Apollo uzywa Jetson AGX Orin Nvidii w polaczeniu z modelem GR00T do “uczenia sie z demonstracji”, co oznacza, ze czlowiek teleoperuje robota przez zadanie kilka razy, a AI uogolnia z tych demonstracji, by wykonywac zadanie autonomicznie.
Boston Dynamics rowniez integruje NVIDIA Isaac GR00T z Atlas, obok Gemini Robotics od Google DeepMind. To hybrydowe podejscie laczy rozne mocne strony AI: GR00T do ogolnego rozumowania robotycznego, Gemini do rozumienia jezyka i dekompozycji zadan, oraz wlasne “Duze Modele Zachowan” Boston Dynamics do atletycznej lokomocji.
Obliczenia lokalnie vs. w chmurze
Gdzie dziala AI ma znaczenie dla opoznienia, prywatnosci i niezawodnosci.
Wszystkie produkcyjne roboty humanoidalne uruchamiaja swoje petli sterowania czasu rzeczywistego (rownowage, lokomocje, unikanie kolizji) na lokalnym sprzecie. Nie mozna sobie pozwolic na opoznienia sieciowe, gdy ratujac sie przed upadkiem co 2 milisekundy. Ale AI wyzszego poziomu - model fundacyjny rozumujacy o tym, jakie zadanie wykonac nastepnie - moze dzialac lokalnie lub w chmurze.
Unitree G1 uruchamia wszystko na swoim NVIDIA Jetson Orin lokalnie. Tesla Optimus uzywa niestandardowego chipa FSD do wnioskowania na urzadzeniu. Figure 03 ma niestandardowy akcelerator AI na pokladzie, ale rowniez odladowuje dane bezprzewodowo podczas ladowania w stacji. Agility Digit laczy sie z platforma chmurową Arc do zarzadzania flota i przydzielania zadan, przy czym nawigacja czasu rzeczywistego dziala lokalnie.
Kompromis jest prosty: obliczenia lokalne oznaczaja nizsze opoznienie i brak zaleznosci od polaczenia internetowego, ale ograniczaja rozmiar modelu, jaki mozesz uruchamiac. Obliczenia w chmurze pozwalaja uruchamiac wieksze, bardziej zdolne modele, ale wprowadzaja opoznienie i wymagaja niezawodnej łącznosci.
System 5: Zasilanie - glowne ograniczenie
Kazda decyzja inzynierska w robocie humanoidalnym ostatecznie wraca do jednego pytania: ile baterii mozemy wlozyc i jak dlugo wytrzyma?
To najwazniejsza liczba na calej karcie specyfikacji i ta, ktora otrzymuje najmniej uwagi w materialach marketingowych. Zywotnosc baterii determinuje, jak dlugo robot moze pracowac, co determinuje, czy moze zakonczyc uzyteczna zmiane, co determinuje, czy firma moze uzasadnic zakup jednego.
Dlaczego zywotnosc baterii jest tak krotka
Robot humanoidalny robi cos, do czego baterie nie byly nigdy projektowane: zasila dziesiątki silnikow o wysokim momencie ciagle, jednoczesnie uruchamiajac procesory AI o wysokiej wydajnosci.
Rozwaz budzet energetyczny dla jednego kroku. Robot musi:
- Obliczyc nastepne polozenie stopy (zuzycie energii CPU/GPU)
- Uniesc jedna noge przeciwko grawitacji (siłowniki biodrowe i kolanowe zuzywa energie)
- Wymachwac noga do przodu (wiecej energii siłownikow)
- Zamortyzowac ladowanie (siłownik kostkowy pochlanajacy energie)
- Przesunal ciezar ciala (siłowniki tulowia i przeciwnej nogi reguluja)
- Utrzymac stabilnosc gornej czesci ciala (siłowniki ramion i tulowia kompensuja)
Pomnozy przez okolo 100 krokow na minute chodu, dodaj staly pobor mocy kamer, LiDAR, procesorow i systemow komunikacji, a dostaniesz maszyne zuywajaca energię w ogromnym tempie wzgledem pojemnosci baterii.
Zywotnosc baterii i waga na rynku
Najkrotsza zywotnosc baterii, ale tez najlejszy. Mala bateria obniza koszty.
Podobna wydajnosc baterii mimo wiekszej wagi.
Wymienna bateria to praktyczne obejscie krotkiego czasu pracy.
Widoczna wiedza Tesli o bateriach. Najlepsza gestosc energii w klasie.
Zaprojektowany zgodnie z harmonogramem zmian magazynowych.
Bateria hot-swap oznacza zero przestojow miedzy pakietami.
Bezprzewodowe ladowanie indukcyjne. Najlepsza zywotnosc baterii w klasie.
Najlepszy stosunek baterii do wagi. Projekt mięsniowo-szkieletowy jest energooszczedny.
Brak stalego czasu pracy. Ciagle dzialanie dzieki wymianie baterii.
Unitree G1
Najkrotsza zywotnosc baterii, ale tez najlejszy. Mala bateria obniza koszty.
Xiaomi CyberOne
Podobna wydajnosc baterii mimo wiekszej wagi.
Fourier GR-2
Wymienna bateria to praktyczne obejscie krotkiego czasu pracy.
Tesla Optimus
Widoczna wiedza Tesli o bateriach. Najlepsza gestosc energii w klasie.
Agility Digit
Zaprojektowany zgodnie z harmonogramem zmian magazynowych.
Apptronik Apollo
Bateria hot-swap oznacza zero przestojow miedzy pakietami.
Figure 03
Bezprzewodowe ladowanie indukcyjne. Najlepsza zywotnosc baterii w klasie.
1X NEO
Najlepszy stosunek baterii do wagi. Projekt mięsniowo-szkieletowy jest energooszczedny.
Boston Dynamics Atlas
Brak stalego czasu pracy. Ciagle dzialanie dzieki wymianie baterii.
Kompromisy inzynieryjne
Zywotnosc baterii to nie tylko kwestia wlozenia wiekszej baterii do tulowia. Wieksze baterie sa ciezsze, a ciezsze roboty zuywaja wiecej energii na poruszanie sie, czesciowo niweczac korzysci. To fundamentalny paradoks wagi i energii robotyki bipedalnej.
Sa tylko cztery sposoby przedluzenia zywotnosci baterii:
1. Lepsza chemia baterii. Tesla ma tu przewage. Te same badania nad ogniwami litowo-jonowymi, ktore zasilaja samochody Tesli, zasilaja bezposrednio projekt baterii Optimusa. 3-5-godzinna zywotnosc baterii Tesli w robocie o wadze 57 kg jest najlepsza gestoscia energii wsrod robotow humanoidalnych ze stałym pakietem baterii.
2. Bardziej wydajne siłowniki. Im mniej energii zuzywa kazdy staw na ruch, tym dluzsza zywotnosc baterii. Dlatego jakosc siłownikow tak mocno koreluje z cena. Siłowniki premium (takie jak w Atlasie i Figure 03) zamieniaja wyzszy procent energii elektrycznej na uzyteczna prace mechaniczna, z mniej straty na cieplo.
3. Lejszy projekt strukturalny. 4-godzinna zywotnosc baterii 1X NEO przy wadze ciala 30 kg demonstruje to podejscie. Uzywajac projektu mięsniowo-szkieletowego zamiast ciezkich metalowych przekladni, NEO zmniejsza energie potrzebna do kazdego ruchu. Mniejsza masa do przyspieszania i zwalniania oznacza mniej energii na krok.
4. Wymiana hot-swap lub ciagle ladowanie. Boston Dynamics Atlas i Apptronik Apollo calkowicie omijaja problem zywotnosci baterii, uzywajac wymiennych pakietow baterii. Operator (lub automatyczny system) moze wymienic wyczerpany pakiet na naladowany w ciagu kilku sekund, dajac efektywnie nieograniczony czas pracy. Figure 03 uzywa bezprzewodowego ladowania indukcyjnego w stacji dokowania, pozwalajac uzupelniać naladowanie podczas przerw.
Dlaczego roznica miedzy 16 000 a 250 000 dolarow istnieje
Teraz, gdy rozumiesz wszystkie piec systemow, mozemy odpowiedziec na pytanie, ktore przyciaga wielu do tego tematu: dlaczego Agility Digit kosztuje ponad 15 razy wiecej niz Unitree G1?
Roznica cenowa odwzorowuje bezposrednio decyzje inzynieryjne we wszystkich systemach.
Zalety
Ograniczenia
G1 nie jest zlym robotem. Za swoja cene jest niezwykly. Ale jest zbudowany wedlug budzetu 16 000 dolarow i kazdy system odzwierciedla to ograniczenie. Siłowniki sa lalejszej jakosci. Czujnikow jest mniej. Dlonie sa prostsze. Bateria jest mniejsza. AI zalezy od tego, co zainstaluje uzytkownik.
Digit jest zbudowany wedlug specyfikacji “czego Amazon potrzebuje, by niezawodnie przenosic pojemniki przez 4 godziny”. Kazdy system jest opracowany zgodnie z tym wymogiem, a cena to odzwierciedla.
Miedzy tymi dwoma ekstremami tworzy sie rosnacy srodkowy segment. Figure 03 przy cenie docelowej 20 000 dolarow (zapowiedziana dla przyszlej produkcji masowej) i 1X NEO za 20 000 dolarow to proby dostarczenia mozliwosci klasy przemyslowej w cenie konsumenckiej. Czy jest to osiagalne na skale - to dopiero sie okaze. Nikt jeszcze tego nie zrobil.
Droga naprzod: co zmienia sie nastepne
Zrozumienie tych pieciu systemow pomaga rowniez zrozumiec, dokad zmierza branzy.
Lokomocja jest w duzej mierze rozwiazanym problemem dla plaskich srodowisk wewnetrznych. Pozostale wyzwania to teren zewnetrzny, schody o nieregularnych wymiarach i praca w deszczu, sniegu i lodzie. Boston Dynamics Atlas radzi sobie z warunkami zewnetrznymi do minus 20 stopni Celsjusza. Wiekszosc innych robotow humanoidalnych jest ograniczona do srodowisk wewnetrznych w temperaturze 0-40 stopni Celsjusza.
Manipulacja jest najbardziej aktywnym obszarem poprawy. Roznica miedzy tym, co moga robic robotyczne dlonie, a tym, co moga robic ludzkie dlonie, jest nadal ogromna. Mozna sie spodziewac szybkiego postepu w czujnikach dotyku, kontroli sily i zrecznosci palcow przez nastepne 2-3 lata w miare jak modele fundacyjne trenowane na danych manipulacji staja sie bardziej zdolne.
Percepcja bedzie kontynuowac przejscie ku systemom opartym wylacznie na kamerach. LiDAR dodaje koszty i wage, ktore producenci chca eliminowac. Podejscie Tesli oparte na samych kamerach dla Optimusa, jesli sie sprawdzi, bedzie naciskac innych producentow do naśladowania.
AI to miejsce, gdzie beda nawieksza poprawa. Modele fundacyjne podwajaja mozliwosci mniej wiecej co rok. Przejscie od “programuj kazdego zadanie” do “zademonstruj zadanie kilka razy” do “opisz zadanie slowami” dzieje sie teraz. Helix od Figure i Duze Modele Zachowan Boston Dynamics reprezentuja obecna granice. W ciagu 2-3 lat mozna sie spodziewac robotow, ktore moga uczyc sie wiekszosci zadan manipulacji wylacznie z instrukcji w jezyku naturalnym.
Zasilanie pozostaje najtrudniejszym ograniczeniem do przelmania. Chemie baterii poprawia sie okolo 5-8% rocznie pod wzgledem gestosci energii. Nie ma Prawa Moore’a dla baterii. Praktyczne rozwiazania to lepsza efektywnosc energetyczna (lejsze roboty, lepsze siłowniki), projekty hot-swap do ciaglego dzialania i infrastruktura bezprzewodowego ladowania wbudowana w miejsca pracy.
Gdzie stoi kazdy system dzisiaj
Lokomocja
W duzej mierze rozwiazana wewnatrz, wyzwania na zewnatrz
Manipulacja
Najwieksza luka mozliwosci vs. czlowiek
Percepcja
Dobra wewnatrz, trudnosci przy zewnetrznym/zmiennym oswietleniu
AI / Planowanie
Modele fundacyjne szybko sie poprawiaja
Zasilanie
Glowne ograniczenie, najwolniej sie poprawia
Praktyczna lista kontrolna do oceny dowolnego robota humanoidalnego
Nastepnym razem, gdy zobaczysz ogloszenie o robocie humanoidalnym, oto pytania, ktore naprawde maja znaczenie. Kazde odnosi sie do jednego z pieciu systemow.
Lokomocja: Ile stopni swobody? Jaka jest predkosc chodzenia? Czy radzi sobie ze schodami i nierownym terenem, czy tylko z plaskimi podlogami?
Manipulacja: Jakie dlonie? Proste chwytaki czy przegubowe palce? Jaka jest udwizgnosc? Czy posiada czujniki sily lub dotyku?
Percepcja: Jakich czujnikow uzywa? Tylko kamery czy kamery z LiDAR? Ile kamer i jakie pokrycie (tylko przednie czy 360 stopni)?
AI: Jaki system AI go napedza? Czy to model fundacyjny z uczeniem sie z kilku przykladow, czy kazde zadanie trzeba programowac? Czy rozumie instrukcje w jezyku naturalnym? Ile demonstracji potrzebuje, by nauczyc sie nowego zadania?
Zasilanie: Jaka jest zywotnosc baterii w realistycznych warunkach pracy (nie “idealnych”)? Czy bateria jest wymienna? Jaki jest czas ladowania? Jaki jest koszt wymiany baterii i zywotnosc cykli?
Branży robotow humanoidalnych szybko sie rozwija. Goldman Sachs prognozuje rynek warty 38 miliardow dolarow do 2035 roku. Ale za naglowkami i viralowymi filmami kryja sie maszyny inzynieryjne zbudowane z prawdziwych komponentow z prawdziwymi ograniczeniami. Zrozumienie tych pieciu systemow - co robia, jak oddzialuja i jakie sa obecne limity - zmienia cie ze widza w kogos, kto moze naprawde ocenic, co jest realne, co jest hype’em i co nadejdzie nastepne.
Źródła
- IEEE Spectrum - Guide to Humanoid Robots - dostęp 2026-03-28
- Boston Dynamics Atlas Technical Overview - dostęp 2026-03-28
- Figure AI Helix Foundation Model - dostęp 2026-03-28
- Unitree G1 Product Page and Specifications - dostęp 2026-03-28
- Agility Robotics Digit Product Page - dostęp 2026-03-28
- Goldman Sachs - Humanoid Robot Market Forecast - dostęp 2026-03-28
- NVIDIA Isaac GR00T Foundation Model for Humanoid Robots - dostęp 2026-03-28
- Tesla Optimus AI and Robotics Overview - dostęp 2026-03-28
- Apptronik Apollo and NVIDIA Collaboration - dostęp 2026-03-28
- 1X Technologies NEO Product Page - dostęp 2026-03-28
- Fourier Intelligence GR-2 Humanoid Platform - dostęp 2026-03-28
- MIT Technology Review - The Hard Problem of Robot Hands - dostęp 2026-03-28
- Nature - Advances in Legged Locomotion - dostęp 2026-03-28
- Science Robotics - Foundation Models for Robotic Manipulation - dostęp 2026-03-28
- Boston Dynamics Blog - Large Behavior Models for Atlas - dostęp 2026-03-28
Powiązane artykuły
Od Roomby do Atlasa: skala Smart Level wyjaśniona, i gdzie wypada każdy robot
Każdy robot na tej stronie otrzymuje ocenę Smart Level od 1 do 10. Ale co te liczby naprawdę oznaczają? Przechodzimy przez całą skalę, poziom po poziomie, używając prawdziwych maszyn, które możesz kupić, obserwować lub się o nie martwić.
Firma warta 39 miliardów dolarów, która dostarczyła 200 robotów: Figure AI i przepaść między wyceną a wdrożeniami
Figure AI jest wyceniane na 195 milionów dolarów za każdego dostarczonego robota. Unitree sprzedaje swojego humanoida za 16 000 dolarów i dostarczyło 5500 jednostek. Przepaść między wyceną a wdrożeniami w branży humanoidów mówi wszystko o tym, co inwestorzy tak naprawdę kupują.
Pierwszy robot, ktory zrezygnował: co się dzieje, gdy humanoid psuje się na zmianie
Branża robotów humanoidalnych dostarczyła ponad 15 000 jednostek. Nikt nie mówi o tym, jak często się psują. Wypalenie silników, dryf czujników, awarie oprogramowania i degradacja baterii generują pierwszy prawdziwy zbiór danych o niezawodności w historii. Firmy, które rozwiążą problem konserwacji, wygrają rynek. Te, które go zignorują, będą dostarczać drogie przycisk do papieru.
Ramię robota za 25 000 USD vs humanoid za 16 000 USD: dlaczego w końcu wygrywa pełne ciało
Ramiona FANUC kosztują 25 000 USD i pracują 100 000 godzin bez awarii. Unitree G1 kosztuje 16 000 USD i się przewraca. Dlaczego więc miliardy płyną w humanoidalne formy zamiast w tańsze, sprawdzone ramiona? Ponieważ prawdziwy koszt robota to nie robot. To 500 000 USD za przebudowę linii fabrycznej, budynek zaprojektowany dla ludzkich ciał i 45 000 USD rocznie na pracownika, którego robot ma zastąpić.