1.
논문링크 : http://people.csail.mit.edu/alevin/papers/Matting-Levin-Lischinski-Weiss-PAMI.pdf
식 유도 강의 : https://www.youtube.com/watch?v=Mvd93DdgqAY
이 논문에 대해 관심을 갖게 된 이유는 deep photo style transfer에서 regularization term으로 해당 논문의 내용을 사용했기 때문이었다
해당 논문에서 사용된 부분은 다음과 같은데
해당 Loss function의 제일끝 항인 Lm 부분에 이것이 사용이 된다.
Lm을 좀 더 자세히 보면 위와 같은 모양이 되는데, Laplacian Matrix가 존재하는 부분은 가운데 있는 M 부분이다.
조금 더 해당 식을 쪼개서 생각을 해보면,
각 채널 별로 연산을 한 결과합을 regularization term의 값으로 가진다.
이것을 최소화 시키는 방향으로 학습이 진행이 될것이다.
해당 사용을 하려면, 일단은 Laplacian Matrix를 찾아야 되는데 연산량이 많다. 대략 난감이다 이런부분은 ..ㅎㅎㅎ
해당 style transfer를 진행을 하려면 matting Image의 matrix가 필요하다는 결론이 나오는데,
각각의 foreGround를 뽑아내는 메트릭스가 필요하다는 얘기와 동일하다.
여기서 참으로 걱정이 된다. 실서버를 만들기 위해서는 속도가 중요한데 여기서 막혀버리는건가 라는 생각도 든다...ㅎㅎㅎ
일단은 한번 구현을 해보는것을 목표로 하자.
<17.08.07 - 2nd >
Matting이란 무엇인가?
이미지에서는 background와 foreground가 존재하는데, matting은 foreground만 뽑아내는 기술을 말한다.
Matting이라는 부분도 정말 따로 특화된 부분인건 맞는데, 이에 맞는 자료가 많이 없다.
그래서 정말 접근하기가 힘들다.
그런데 그나마 접근이 가능한 영상이 있는데, 유투브가 쩔음
https://www.youtube.com/watch?v=Mvd93DdgqAY&index=3&list=PLuh62Q4Sv7BUJlKlt84HFqSWfW36MDd5a
이 영상에서 그나마 논문을 쉽게 설명해줘서 이해하기 쉬웠음.
이미지 픽셀 하나하나는 전부 foreground와 background의 특정한 비율로 나눌 수가 있다.
여기서 I를 우리가 찾는 픽셀, 그리고 F와 B를 각각 전면과 배경이고, 그 비율을 알파라고 한다.
이 식을 우리는 R,G,B 3가지 채널로 나눈다면 총 7개의 미지수가 존재하는데 이 방정식을 풀기 위해서는 조건이 부족해서 풀수 없는 방정식이다.
그렇기에 우리는 몇가지 조건들을 넣어서 이 식을 풀수 있는 방법으로 접근을 하는데
그게 scribble이라고 말하는 사용자들의 낙서를 input으로 받아서 문제를 해결을 한다.
본격적으로 하기 전에 몇가지 가정들에 대해서 알아보도록 하자
1) color line assumption
작은 window안에 있는 background와 foreground 색깔들은 RGB공간에서 직선거리 위에 존재해 있다는 가정을 바탕으로 한다.
그렇게 되면 다음과 같은 식이 나온다.
각각의 Foreground와 Background가 배경에 대하여 다른 두 점을 통해서 나타낼 수 있다는 뜻이 된다.
그러면 한 픽셀은 다른 두 점의 선형관계로 나타낼수 있다는 뜻이 되는것이기도 하다.
위의 가정이 맞다고 하면, 우리가 구하려는 알파는 Image pixel의 선형 관계로 나타낼수가 있는데, 이 부분도 나름의 증명 과정이 필요하다.
(일일히 수식으로 적기가 어려워, 노트필기 부분을 사진으로 올립니다. 자세한 과정은 위의 유투브에 그 부분이 나옵니다)
이렇게 증명을 해서 알파는 이미지 픽셀의 선형관계로 나타낼 수가 있게 되었다.
그러면 이렇게 증명한것이 matting에 어떻게 쓸수가 있기에 증명을 한것일까??
우리가 실제로 저렇게 구한 선형관계의 알파와 실제 알파와의 차이가 최소가 되는 a*,b*를 찾는 과정을 가진다.
그리고 F와 B를 constant라고 가정하면,
최소가 되는 알파를 구하면 모든게 행복해지는 상황이 발생을 한다.
최소가 될때의 상황은 언제인가?
이것을 또 풀어보면
이렇게 된다
알파T * L * 알파 일때가 그 결과가 최소가 된다는 것이다.
위의 4번식의 최소값을 찾기위해 알파로 미분을 해보자.
그런데 이 식을 만족하는 eigen vector가 많게된다.
그래서 우리는 식을 제약해야되는데,
위에서 말한 scribble을 통해서 이것이 가능해진다.
예를들어 배경일때는 알파를 0으로, 전경일때는 알파를 1로 만드는 식이다.
이렇게 제약을 하면 우리는 최소값이 되는 알파를 구할수 있고,
그에 따른 laplacian matrix를 구할수 있게 된다.
이렇게 구해진 것은 J함수는 deepStyleTransfer에서 regularization으로 사용이 된다.
'딥러닝 > 논문' 카테고리의 다른 글
[논문] DiscoGan (Learning to Discover Cross-Domain Relations with Generative Adversarial Network) (0) | 2017.08.04 |
---|---|
[논문] DeepLab v2 (0) | 2017.08.04 |
[논문] Deep Photo Style Transfer (1) | 2017.08.02 |
[논문] 코드분석 - Multi-Scale Context Aggregation by dilated convolutions (0) | 2017.08.02 |
[논문] Multi-Scale Context Aggregation by dilated convolutions (0) | 2017.08.02 |