방향성

앞으로 무엇을 해야할지 고민했다. 2025년 3월에 컴퓨터비전연구실에 전기 입학할 예정인데 수학,연구계획을 세워보았다.

네이버 부스트캠프 AI TECH에서 배운 내용 중 Generative Model및 Multi-modalLearning의 응 용이 특히 재미있었습니다. Generative Model은 단안 깊이 추정 및 3D 모델링에 있어 매우 중요한 역할을 하는데 Diffusion 기반 모델을 통해 3D 장면 생성 또는 데이터 보완에 활용하는 연구를 하 고 싶습니다.

또한 Multi-modalLearning을 통해 텍스트, 이미지 등의 입력 데이터를 함께 학습하여 정교한 3D 장면 분석 및 생성 모델을 개발하고 싶습니다. Vision-Language 모델을 사용하여 텍스트와 이미지 간의 관계를 학습하고, 이를 기반으로 깊이 정보를 예측하거나 3D 장면을 생성할 수 있는 모델을 만들어볼 것입니다.

제 연구 목표는 Monocular Depth Estimation과 3D Understanding을 위한 기초적인 모델 설계 및 확장 연구를 수행하는 것입니다. Multi-view Geometry책을 스터디하며 단일 이미지에서 깊이 를 추정하는 것은 기하학적으로 해결할 수 없는 문제처럼 보이지만, 인간이 시각적 단서를 사용하 여 깊이를 인식하는 방법을 참고하여 컴퓨터 비전 모델이 단일 이미지에서 깊이를 효과적으로 추 정할 수 있다는 것을 배웠습니다.

이 배움을 바탕으로 적은 입력 정보로 3D 정보를 추정하는 컴퓨터 비전 연구도 해보고 싶습니다. 특히, 자율 주행, 증강 현실(AR), 로봇공학 등 실제 task에 적용하는 것이 목표입니다. Monocular Depth Estimation연구는 최근 Unsupervised Learning이 큰 주목을 받고 있으며, 라벨링된 데이터 의 부족을 해결하기 위한 Autoencoder와 같은 기법을 적용하는 연구들이 활발하게 진행되고 있습 니다. 이 연구의 연장선으로 3D 데이터를 효과적으로 표현하기 위해 Point Cloud,3D Mesh, Voxel Grid와 같은 여러 가지 방식을 자율 주행, 로봇 공학, 의료 영상 등 다양한 task에 적용한 과제와 연구를 수행하고자 합니다.

3D 장면을 이해하고 재구성하는데 있어 NeRF(NeuralRadiance Fields)는 뛰어난 성능을 보여주고 있습니다 . NeRF는 주어진 장면에서 다각도의 2D 이미지를 입력받아 장면을 3D로 재구성하는 방법 입니다. 본 연구에서는 단안 깊이 추정 결과를 NeRF에 결합하여, 3D 장면 재구성의 정확도를 높이 는 방향으로 연구를 확장할 계획입니다. NeRF와의 결합 실험은 Monocular Depth Estimation결과 를 NeRF 모델에 결합하여 3D 장면을 재구성하고 싶습니다. NeRF의 Position Encoding 및 View-dependent Rendering 기법을 적용하여 3D 장면의 품질을 향상시킬 것으로 기대가 됩니다. 최종 모델의 성능을 평가하고, 기존 연구들과 비교 분석한 연구 결과를 바탕으로 논문을 작성하고, 국제 학회에 발표하면 너무나도 행복할 것 같습니다. 2025년에는 NeRF 기법을 활용한 3D 장면 재 구성 연구는 기존의 깊이 추정 모델이 가진 한계를 극복하고, 3D 공간 이해를 위한 새로운 방법론 을 제시할 계획입니다.

2026년의 목표는 그때가 되면 최신 기법이 달라지겠지만 요즘의 기준으로 보았을 때 최신 기법인 SMPL(Skinned Multi-Person Linear Model) 및 NeRF(NeuralRadiance Fields)를 결합하여 단안 이 미지로부터 깊이 정보를 정확히 추정하고 이를 바탕으로 3D 장면을 재구성하고 싶습니다. SMPL(Skinned Multi-Person Linear Model)을 사용하여 3D 인체의 포즈와 형상을 예측하고, 이를 3D 장면에 결합하여 재구성하여 Pose blend shapes 및 shape blend shapes 기법을 사용하여 인체 의 움직임과 형태를 정확하게 모델링하는 연구도 해보고 싶습니다. Monocular Depth Estimation으 로 추정된 깊이 정보를 바탕으로 3D 장면을 재구성합니다. 이 과정에서 NeRF의 Position Encoding과 View-dependent Rendering 기법을 활용하여 3D 장면의 디테일을 높일 계획도 세우고 있습니다.

또한 퇴근 후에는 네이버 부스트캠프 기업 해커톤에서 만난 팀원들과 소통하며 최신 연구 동향에 대해서도 의견을 나누고 발전하는 사람이 될 것입니다.