본문 바로가기
전공백서/전기정보공학부

전기정보공학부: 컴퓨터가 바라보는 세계는?

by STEMSNU 2022. 8. 22.

 

Introduction to Computer Vision

요즘 딥러닝 분야의 뜨거운 감자라고 할 수 있는 전기과의 4학년 전공과목인 “컴퓨터비전의 기초”라는 과목에 대해 소개할 공우 12.5기 박인범입니다. 컴퓨터비전이란 이름 그대로 컴퓨터가 세계와 사물을 바라보는 시각을 모델링하고 분석하는 학문입니다. 여러분이 들어보셨을만한 활용 방식은 이미지 내의 사물 예측하기, 소실된 일부로부터 사물의 전체를 복원하기, 사진을 덧붙여 자연스러운 비디오 만들기 등 4차 산업혁명의 발전을 돕고 있습니다.

이 수업이 다른 전기과 과목과 차별화되는 점 중 하나는 시험을 보지 않는 수업이라는 것입니다. 수업시간에는 이론을 위주로 진도를 나가지만 프로젝트형 과제 4개를 중심으로 성적을 매기기 때문에 이론에서 배운 내용을 실습에서 잘 활용할 수 있는 실력이 중요합니다.

또한, 위 수업은 딥러닝에 필요한 gpu를 사용하지 않기 때문에 20세기 후반에 개발되었던 클래식한 비전의 알고리즘들에 대해서 주로 배우게 됩니다. 딥러닝이 사용되기 이전에도 컴퓨터 비전은 컴퓨터가 사물을 바라보는 방식에 대해 큰 도움을 주었는데요. 그 중에 제가 흥미롭게 들었던 두 가지 주제들을 소개하고자 합니다.

Camera Calibration

우리가 사진을 찍을 때 사용하는 카메라에는 사진을 담는 방식을 바꾸기 위해 다양한 변수들을 설정할 수 있습니다. 예를 들어 초점을 맞추고자 하는 물체를 바꿀 수 있고 카메라가 보고 있는 방향에 따라 찍히는 물체도 달라질 것입니다. 이러한 파라미터들을 크게 intrinsic parameter와 extrinsic parameter로 나누는데 이 변수들을 사용하면 두 개의 겹치는 사진에서 한 사진에서 다른 사진으로 가는 변화량(transformation)을 정의할 수 있습니다. 이러한 테크닉들은 저희 휴대폰 카메라에서도 제공하는 기능인 panorama stitching에 사용됩니다. 뿐만 아니라 이를 3D로 확장한다면 아래의 사진과 같이 여러 각도에서 한 물체를 바라보고 찍은 사진들을 합쳐 물체를 3D point들로 복원할 수 있는 structure from motion [1]이라는 테크닉도 있습니다.

Sliding Window Detection

사진에서 원하는 물체를 찾기 위해서 컴퓨터는 사진이 어떤 정보를 담고 있는지를 분석할 줄 알아야 합니다. 픽셀 값들의 분포를 인코딩할 수 있는 고전적인 기법으로는 HOG (Histogram of Oriented Gradients) 혹은 LBP (Local Binary Patterns)가 있습니다. 이러한 기법들로 목표로 삼는 물체를 인코딩한다면, 새로운 사진에서 물체를 찾을 때 그 인코딩 값과 비슷한 경우를 정답이라고 예측할 수 있도록 어떠한 classifier를 만들 수 있습니다. 하지만 사진 전체를 한번에 인코딩하기 위해서는 많은 메모리가 소요되기 때문에 이를 나누어서 창마다 본다는 의미에서 sliding window detection [2]이라는 기법이 생겼습니다. 이 기법을 사용하면 메모리 비용이 훨씬 감소하며 더욱 효과적으로 다수의 물체를 검출해낼 수 있습니다.

컴퓨터비전에서 다루는 주제들에 대해 간단하게 살펴보았는데 이렇게 우리가 일상 생활에서 보는 사물이나 상황들에 대해 컴퓨터가 분석하거나 이해하는 방식에 대해서 궁금했다면 이 강의를 들어보는 것을 추천드립니다:)

References

[1] Geppert et al., Privacy Preserving Structure-from-Motion, ECCV, 2020
[2] https://jonathan-hui.medium.com/what-do-we-learn-from-single-shot-object-detectors-ssd-yolo-fpn-focal-loss-3888677c5f4d

댓글