분류 전체보기 10

오랜만에 돌아온 블로그

학부연구생 하면서 바쁘게 살다보니 블로그 쓰는 것을 까먹었다...그동안 공책에다가 빼곡히 정리하다보니 너무 많이 쌓였는데 종종 내 아이디어를 옮겨 적어야겠다! 논문리뷰는 흠... 재밌거나 의미있는것을 가져오겠습니다 지금 개인연구는 robot learning을 state-based -> vision-based, teacher student distillation을 representation learning 측면으로 다룰까 합니다. 가능하다면 LeRobot SO-100 실제로봇으로 테스트까지 하는 것을 목표로...

뻘글 2025.05.13

preattentive, proprioception

HCI를 공부하다보면 재밌는 내용이 많다.전글에서 다뤘던 the human processor model 도있지만 좀더 인간에 대한 연구로 자세히 들어가서preattentive processing, proprioception 이 흥미로웠다.  preattentive processing preattentive processing은 feature를 판단하는데 low level에서 빠르게 인지하는 것을 말한다.모델에 적용한다면 특정 상황에서는 input을 그대로 받지 않고 특정 전처리를 적용한다면 좀더 빠르게 모델에서 inference할 수 있지 않을까 싶다. 좀 헷갈리는 점은 인지가 빠르게 된다는것이 perception이 빠르게 된다는 것인지 cognition이 빠르게 된것인지는 모르겠다. 둘 중 어느 단계에..

뻘글 2024.10.18

input?

Human Computer Interaction 수업을 듣고 있는데 생각보다 흥미롭다.the Human processor model 에서 어떤 process를 거쳐 행동하는지 연구하는 내용이 있다. Perception -> Cognitive -> Response 인공지능을 활용하는 방법으로 완전히 유사하다. input -> model -> output output을 뽑는데 input data를 전부 봐야하나?attention으로 해결되는 문제인듯하다. 신체 감각을 생각했을때, 주의를 들이지 않으면 인식하지 못하는 자극이 존재한다. (ex 입술?)attention 대상을 실시간으로 바꿀 수 있는 method가 있을까

뻘글 2024.10.18

[논문리뷰] 3D Diffusion Policy

오늘 가져온 논문은 RSS 2024 (Robotics: Science and Systems) 등록된(?) 논문이다.Robotics에서 Imitation Learning 을 다루고 있고 제목에서 알 수 있듯이 3D 즉, 3차원 정보를 갖고 Diffusion policy를 적용한 모델이다. Imitation Learing은 효과적으로  dexterous skills를 학습할 수 있지만 복잡하고 generalizable 을 갖기 위해서 일반적으로 많은양의 human demonstrations가 필요하다고 한다. 많은 양의 expert data는 데이터를 만드는 비용이 큰데 이 문제를 해결하기 위해서 한가지 방법으로 Online learning을 이용하는 방식이 있다. 하지만 Online learning도 문제..

미래의 로봇 사회

로봇을 왜 인간과 비슷하게 만드는 걸까?특정 기능에 대해서는 인간의 구조보다 더 효율적이고 좋은 형태가 존재한다.인공지능 모델에서 사용하는 expert data도 살펴보면 human data를 사용하지 않는 것도 종종 보인다. 현대 사회에서 로봇을 당장 사용하기에는 인간 base로 만들어져 있어 활용하기 좋아 당장은 인간을 모방하지만, 지금의 인프라가 점차 바뀐다면 일상생활에서 인간의 노동력은 조만간 전부 대체될 것이고 로봇의 세상이 올것이다. 인간 형태의 로봇이 잘못된 것은 아니다. 다만 인간과 똑같이 만들기에는 유기체가 가진 정교함을 현재 기술로 따라하기 힘들어보인다. 로봇은 로봇만의 방식으로 좋은 형태를 가지게 발전하는게 당장 더 좋지 않을까 생각이든다. 빠른 기술발전이 일상생활에서도 체감될정도인데..

뻘글 2024.09.21

model thinking

현재 로봇틱스들의 논문들을 살펴보면 rgb image, depth camera, robot pose 등을 받아 encoder에 다양한 방식 (prompt, mapping with language, code book 등)으로 알맞게 representation 통해 학습하는것 같다. 지금 하고 있는 task는 RGB image, robot pose (two arms joint/tcp pose)를 사용할 수 있다. depth camera view도 있지만 사용하기에는 처리 성능이 좋지 않다. 현재 가진 환경에서 representation 어떻게 사용하는것이 좋을까?2D image to 3D mapping (RGBD, point cloud, voxels, implicit functions, 3D gaussian..

Robotics 2024.09.18

무식한 나의 단어장

논문읽다 모르거나 헷갈린 용어및 개념 정리 (계속 추가될 예정...)e.g.예를 들어i.e.즉et al.~외ablation studyablation, 즉 논문에서 제안한 방법을 제거하여 인과관계를 확인하는 studythe deadly triad problemRL traid (off-policy & bootstrapping & function approximation) 에서 생기는 unstable, divergequantisation/quatization양자화, 메모리 효율성을 높이기 위해 차원 축소 (ex. continuous space to discrete space)posterior collapseVAE에서 발생하는 문제로 condition(encoder)과 상관없이 학습하는 문제 (여러 요인 존재)..

용어 정리 2024.09.18

[논문리뷰] VQ-VAE: Neural Discrete Representation Learning

해당 논문은 2018년 4월, Deepmind에서 나온 논문으로 Vector Quantised Variational AutoEncoder, VQ-VAE 라고 부르는 모델을 소개한다. 기존 VAE와 Vector quantisation을 접목해 나온 method라고 생각하면 될것 같다. 논문에서 스펠링 보고 헷갈렸는데 찾아보니 영국식 영어로 learnt, quantised를 사용하고 있다.Variational AutoEncoder (VAE)기존 VAE같은 경우 위와 같은 구조를 갖고있는데 input을 encoder를 통해 input x 에대해 latent vector z의 분포 (mean, std)를 예측하는 형태이다. 즉 encoder는 q(z|x)를 approximate하는 것을 목표로 한다. decod..

[논문리뷰] SAM 2 : Segment Anything in Image and Videos

SAM 2 : Segment Anything in Image and VideosSAM2은 2024년 7월 meta ai research에서 공개한 모델로 Segment Anything (5, Apr 2023)의 이미지에서 동영상까지 처리할 수 있는 진화버전이다. SAM (Segment Anything model)SAM2를 정리하기 전에 기존 SAM은 어떤 형태를 가지고 있는지 보려고한다.SAM paper 논문에서 목표는 building a foundation model for image segmentation 이라고 한다. (foundation model: models built on unlabeled data using self-supervision, 다양한 task에 대해서 downstream 작업을..

AI/Computer Vision 2024.09.18