model thinking

Robotics

model thinking

namul2 2024. 9. 18. 18:33

현재 로봇틱스들의 논문들을 살펴보면 rgb image, depth camera, robot pose 등을 받아 encoder에 다양한 방식 (prompt, mapping with language, code book 등)으로 알맞게 representation 통해 학습하는것 같다.

지금 하고 있는 task는 RGB image, robot pose (two arms joint/tcp pose)를 사용할 수 있다. depth camera view도 있지만 사용하기에는 처리 성능이 좋지 않다. 현재 가진 환경에서 representation 어떻게 사용하는것이 좋을까?

2D image to 3D mapping (RGBD, point cloud, voxels, implicit functions, 3D gaussians etc.) 후 사용
SAM2와 같이 memory bank 등을 이용한 이전 frame의 정보를 기억해 처리 (시작시 prompt를 제공해야할 것 같다)

두 방법 모두 real time에서 inference speed 문제가 발생할것 같다.

연산량이 많아 inference speed가 문제라면, task시작전 object detection을 한 후 crop 하려는 부분을 memory bank에 저장해 사용한다면 연산량을 줄일 수 있지 않을까? (~~2D 이미지가지고 억지로 3D로 mapping 하려는 것이 문제같다...~~)

input으로 들어오는 image는 동영상의 frame과 같다. 단순 RGB이미지를 2D 이미지에서 memory bank를 사용하는 것은 좋아보인다. 먼저 해보고 잘된다면 3D를 시도해보자.