Lasso


개요

lasso (least absolute shrinkage and selection operator), Lasso, LASSO, lasso regression
라쏘, Lasso 회귀
관련성이 낮은 특성의 가중치를 0으로 유도하여 모델에서 해당 특성을 배제한다.
"올가미(lasso)". 관련 있는 특성만 선택적하여 남긴다.
  • 통계모델의 예측 정확도와 해석 가능성을 향상시키기 위해, 변수 선택정칙화를 모두 수행하는 회귀분석 방법
  • 1986년 지구물리학 문헌에서 소개되었다.
  • 그외 별개로 1996년에 Robert Tibshirani가 재발견하여 이 용어를 만들고 성능에 대한 통찰을 제시하며 대중화시켰다.
  • Lasso는 원래 선형회귀용으로 공식화되었는데, 리지 회귀베스트 부분집합 선택과의 관계, 라쏘 계수 추정과 소프트 스레시홀딩과의 연결 등에 진전이 있었다.
  • 또한, 표준 선형회귀 등에서 공변량에 공선성이 있는 경우에도 계수 추정치가 고유할 필요가 없음을 보여준다.
  • 원래 선형회귀에 대해 정의되었지만, 일반화된 선형모델, 일반화된 추정 방정식, 비례 위험 모델, M- 추정기 등 다양한 통계모델에도 적용가능하다.
  • Lasso의 부분집합 선택기능은 제약조건의 형태에 따라 달라지며 기하학, 베이지안 통계, 볼록공간 분석 측면 등 다양한 해석이 가능하다.
  • 리지 회귀에 비해 노이즈(극단치)에 강하다.
  • 라쏘는 basis pursuit denoising(BPDN)와도 밀접한 관련이 있다.

일반화

정칙화 파라미터 선택

  • 파라미터는 축소(shrinkage)의 강도와 변수 선택과 관련이 있고, 잘 선택해야 예측 정확도와 해석가능성을 향상시킬 수 있다.
  • 정칙화가 너무 강하면 중요한 변수가 모델에서 제외되고 계수가 과도하게 축소되어 예측력이 떨어질 수 있다.
  • 파라미터 선택에는 교차-검증이 흔히 활용된다.
  • 다만, 작은 표본에서는 BICAIC 같은 정보기준이 성능이 덜 유동적이고 계산속도가 빨라서 교차-검증보다 선호될 수 있다.
  • 정보기준은 유효 파라미터 수 / 자유도에 페널티를 주는 동시에 모델의 표본 내 정확도를 최대화하여 추정량의 정칙화 파라미터를 선택한다.
  • Zou et al. (2007)은 0에서 멀어지는 파라미터의 수를 세어 유효 자유도를 측정할 것을 제안했다.
  • Kaufman과 Rosset (2014), Janson et al. (2015)는 자유도 접근 방식에 결점이 있다고 봤는데, 정칙화 파라미터에 의해 더 큰 페널티를 받는 경우에도 모델의 자유도가 증가할 수 있기 때문이다.
  • 대안으로, 상대적 단순성 측정치를 통해 유효 파라미터 수를 계산할 수 있다(Hoornweg, 2018).
  • 라쏘의 경우, 이 측정치는 다음과 같다.
<math>{\displaystyle {\hat {\mathcal {P}}}=\sum _{i=1}^{p}{\frac {|\beta _{i}-\beta _{0,i}|}{{\frac {1}{p}}\sum _{l}|b_{OLS,l}-\beta _{0,l}|}}}</math>
정칙화 파라미터가 ∞에서 0으로 감소할 때, 이 측정치는 0에서 p로 단조 증가한다.

같이 보기

참고