[쿠키과학] “2.5㎜ 틈새 부품 조립도 척척”… KAIST, 적은 데이터로 사람 같은 정밀동작 로봇 AI 개발

적은 시연 데이터로 사람 수준 정밀 손동작 구현
기존 최고 성능 모델 대비 작업 성공률 81% 향상
상황 따라 동작 해상도 조절, 데이터 비용 절감
2.5㎜ 좁은 틈 부품 조립, 고난도 조작 성공
반도체 조립 및 수술 로봇 정밀공정 활용 기대

승인 2026-06-24 13:37:15

관심 있는 쿠키뉴스 기사를 Google 검색에서 더 쉽게 만나보세요.

KAIST가 적은 데이터만으로도 사람 수준의 정밀한 손동작을 구현하는 로봇 인공지능(AI)을 개발했다.

KAIST 전산학부 박대형 교수팀은 적은 양의 시연 데이터만으로도 사용자가 원하는 수준의 정밀한 동작을 생성하는 로봇 AI 모델 ‘디스포(DiSPo)’를 개발했다고 24일 밝혔다.

이는 로봇이 스스로 움직임의 정밀도를 조절하며 학습하는 기술로, 기존 최고 성능 모델보다 작업 성공률을 최대 81% 높였다.

실제 로봇 실험에서 폭 2.5㎜ 좁은 틈에 부품을 끼우고 스마트폰 셔터 버튼을 정확히 누르는 데 성공했다.

최근 로봇 AI는 사람의 동작을 보고 따라 배우는 시연 학습을 주로 사용한다.

사람이 로봇 팔을 직접 움직이거나 원격 조작으로 시범을 보이면 AI가 이를 학습해 같은 작업을 수행하는 방식이다.

정밀한 작업일수록 엄청난 양의 데이터가 필요하다.

예를 들어 책상 위 물건을 집는 정도는 비교적 단순하지만 스마트폰 내부 부품 조립, 반도체 공정, 수술용 로봇 작업처럼 오차가 수 밀리미터 이하로 줄어들면 사람의 손 움직임을 매우 짧은 간격으로 기록한 방대한 데이터를 요구한다.

기존 AI는 데이터가 기록된 시간 간격에 강하게 의존했다.

초당 수십 번 이상 움직임을 기록한 고주파 데이터로 학습하면 정밀 작업이 가능하지만 데이터 수집과 저장, 학습 비용이 크게 증가한다.

반면 적은 양의 저주파 데이터만 사용하면 로봇이 세밀한 동작을 배우기 어려웠다.

사람은 누군가 대략적으로 작업하는 모습을 봐도 세부 동작을 스스로 보완한다.

열쇠를 자물쇠에 넣거나 실을 바늘귀에 끼울 때 손목과 손가락을 자연스럽게 미세 조정한다.

(왼쪽)저주파 시연으로 학습한 기존 모델(Baseline)과 DiSPo의 비교. KAIST

연구팀은 이 능력을 로봇에 구현했다.

디스포는 적은 양의 데이터만 보고도 작업 과정에서 필요한 순간에는 동작을 세밀하게 나누고, 그렇지 않은 구간에서는 큰 움직임으로 처리한다.

이를 위해 연구팀은 최근 AI 분야에서 주목받는 상태공간모델(SSM) ‘맘바(Mamba)’와 생성형 AI 기술인 확산모델을 결합했다.

맘바는 시간 흐름에 따라 변하는 데이터를 효율적으로 처리하는 AI 구조다.

사람이 영화를 볼 때 장면의 앞뒤 맥락을 기억하듯 과거 정보를 유지하면서 다음 동작을 예측한다.

확산모델은 생성형 AI의 핵심 기술로, 무작위 잡음에서 시작해 점차 의미 있는 정보를 복원하는 방식으로 이미지 생성 AI에도 널리 사용된다.

DiSPo의 모델 구조. 확산 단계(diffusion step), 단계 조정 계수(step-scale factor), 관측 정보, 노이즈가 더해진 행동을 입력으로 받아, 여러 개로 쌓인 DiSPo 블록(맘바 변형 구조)을 통해 행동에 섞인 노이즈를 예측하고 점진적으로 디노이징(denoising)함으로써 사용자가 의도한 정밀도의 행동 시퀀스를 생성한다. 학습 시에는 관측 정보를 함께 복원(reconstruction)하도록 보조 손실을 두어 시각적 디테일까지 정확히 포착하게 한다. KAIST

연구팀은 여기에 ‘단계 조정 계수(Step-scale Factor)’ 개념을 추가했다.

이는 로봇이 사용하는 시간을 확대·축소하는 게 핵심이다.

자동차가 고속도로에서는 큰 조향으로 달리고 주차할 때는 핸들을 세밀하게 조작하는 것처럼, 디스포는 같은 작업에서도 상황에 따라 동작의 해상도를 자유롭게 조절한다.

작업 공간을 이동할 때는 큰 움직임을 사용하고, 버튼을 누르거나 부품을 삽입하는 순간에는 동작을 훨씬 작은 단위로 쪼개 정밀도를 높인다.

연구팀은 학습 과정에도 새 방식을 적용, 적은 양의 시연 데이터를 여러 해상도로 변형해 AI를 학습시키고 이후 AI가 스스로 부족한 중간 동작을 생성하는 ‘의사 시연(Pseudo Demonstration)’을 활용했다.

이를 통해 로봇은 사람이 보여주지 않은 세부 동작을 추론해 가상의 학습 데이터를 만들고 이를 다시 학습에 활용한다.

이 과정에서 연구팀은 원래 데이터에는 존재하지 않던 정밀한 행동 패턴까지 습득할 수 있음을 확인했다.

연구팀이 클램프 통과, 좁은 통로 이동, 버튼 누르기 등 정밀 조작 실험을 수행한 결과 기존 최고 성능 모델들은 초당 2.5회 수준의 저주파 데이터만 사용하면 대부분 작업에 실패했다.

반면 디스포는 같은 조건에서도 성공률 81% 이상을 기록했다.

특히 다양한 해상도의 데이터를 함께 학습한 환경에서는 버튼 누르기 성공률이 93%에 달했다.

연구팀은 이를 산업 현장에서 널리 사용하는 협동로봇 UR5e를 이용해 검증했다.

디스포를 적용한 로봇은 반경 2.5㎜ 여유 공간밖에 없는 클램프 사이를 충돌 없이 통과했다.

또 스마트폰의 작은 카메라 셔터 버튼도 정확하게 눌렀다.

이는 기존 AI 모델보다 최대 4배 높은 성공률이다.

연구팀은 이 기술이 제조업뿐 아니라 의료 분야에도 큰 영향을 미칠 것으로 기대하고 있다.

특히 반도체와 전자부품 조립, 케이블 연결, 정밀 가공, 의료 수술 로봇, 서비스 로봇 등 높은 정확성이 필요한 분야에서 활용 가능성이 크다.

다품종 소량 생산 환경에서도 효과적이다.

작업자가 새 공정을 한두 번 시범만 보여줘도 로봇이 이를 학습해 정밀 작업을 수행할 수 있기 때문이다.

박 교수는 “사람이 대략적으로 보여준 시연만으로도 로봇이 스스로 정밀한 동작을 만들어낼 수 있음을 확인했다"며 ”데이터 수집 비용을 크게 줄이면서도 다양한 산업 현장에서 활용할 수 있는 범용 로봇 학습 기술로 발전시킬 계획"이라고 설명했다.

한편, 이번 연구는 오나영 KAIST 김재철AI대학원 석사과정생이 제1저자로 참여했고, 연구결과는 이달 오스트리아 비엔나에서 열린 국제 로봇 및 자동화 학술대회(ICRA 2026)에서 발표됐다.
(논문명: DiSPo: Diffusion-SSM based Policy Learning for Coarse-to-Fine Action Discretization)

이재형 기자 jh@kukinews.com