AI/Machine Learning

[ML] Regression(νšŒκ·€)(1) - Linear Regression(μ„ ν˜• νšŒκ·€)

μ΄νƒœν™ 2022. 11. 11. 00:07

πŸ€”Regression

κ΄€μ°°λœ μ—°μ†ν˜• λ³€μˆ˜λ“€μ— λŒ€ν•΄ 두 λ³€μˆ˜ μ‚¬μ΄μ˜ λͺ¨ν˜•μ„ κ΅¬ν•œ λ’€ 적합도λ₯Ό μΈ‘μ •ν•΄ λ‚΄λŠ” 뢄석 λ°©λ²•μž…λ‹ˆλ‹€.

 

즉, $x$값에 따라 $y$값이 μ–΄λŠ μ •λ„λ‘œ λ³€ν™”ν•  지 μ˜ˆμΈ‘ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

 

νšŒκ·€λΆ„μ„μ€ μ‹œκ°„μ— 따라 λ³€ν™”ν•˜λŠ” λ°μ΄ν„°λ‚˜ μ–΄λ–€ 영ν–₯, 가섀적 μ‹€ν—˜, 인과 κ΄€κ³„μ˜ λͺ¨λΈλ§λ“±μ˜ 톡계적 μ˜ˆμΈ‘μ— 이용될 수 μžˆμŠ΅λ‹ˆλ‹€.

 

νšŒκ·€λΆ„μ„μ€ supervised learning(yκ°€ μ‘΄μž¬ν•˜λŠ” ν•™μŠ΅)의 λŒ€ν‘œμ μΈ 뢄석 기법쀑 ν•˜λ‚˜μ΄λ©° continuousν•œ 값듀을 μ°ΎμŠ΅λ‹ˆλ‹€.

 

νšŒκ·€ μ•Œκ³ λ¦¬μ¦˜μ—λŠ” μ•„λž˜μ™€ 같은 것듀이 μžˆμŠ΅λ‹ˆλ‹€.

 

 

 

 

 

 

 

 

✍️ Regression의 μ’…λ₯˜

- Linear regression

- Multivariate linear regression

- Lasso and Ridge linear regression

- Neural network regression

- Support vector regression

- Decision tree regression

- Etc.

 

μ˜€λŠ˜μ€ μ„ ν˜•νšŒκ·€(Linear regression)에 λŒ€ν•΄ ν•™μŠ΅ν•˜κ³  μ •λ¦¬ν•΄λ³΄κ² μŠ΅λ‹ˆλ‹€.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

πŸ”Ž Linear Regression

λ‹€λ₯Έ λ³€μˆ˜μ˜ 값을 λ³€ν•˜κ²Œν•˜λŠ” λ³€μˆ˜λ₯Ό $x$, λ³€μˆ˜ $x$에 μ˜ν•΄μ„œ 값이 μ’…μ†μ μœΌλ‘œ λ³€ν•˜λŠ” λ³€μˆ˜ $y$라고 ν•˜κ² μŠ΅λ‹ˆλ‹€.

 

μ΄λ•Œ λ³€μˆ˜ $x$의 값은 λ…λ¦½μ μœΌλ‘œ λ³€ν•  수 μžˆλŠ” 것에 λ°˜ν•΄, $y$값은 κ³„μ†ν•΄μ„œ $x$의 값에 μ˜ν•΄μ„œ, μ’…μ†μ μœΌλ‘œ κ²°μ •λ˜λ―€λ‘œ $x$λ₯Ό 독립 λ³€μˆ˜, $y$λ₯Ό 쒅속 λ³€μˆ˜λΌκ³  ν•©λ‹ˆλ‹€.

 

μ„ ν˜• νšŒκ·€λŠ” ν•œ 개 μ΄μƒμ˜ 독립 λ³€μˆ˜ $x$와 μ’…μ†λ³€μˆ˜ $y$의 μ„ ν˜• 관계λ₯Ό λͺ¨λΈλ§ν•©λ‹ˆλ‹€.

 

λ§Œμ•½, 독립 λ³€μˆ˜ $x$κ°€ 1개라면 λ‹¨μˆœ μ„ ν˜• νšŒκ·€λΌκ³  ν•©λ‹ˆλ‹€.

 

 

 

 

 

✍️ λ‹¨μˆœ μ„ ν˜• νšŒκ·€ 뢄석(Univariate Linear Regression Analysis)

 

$$Y = \beta_0 + \beta_1X_1$$

 

μœ„μ˜ μˆ˜μ‹μ€ λ‹¨μˆœ μ„ ν˜• νšŒκ·€μ˜ μˆ˜μ‹μ„ λ³΄μ—¬μ€λ‹ˆλ‹€.

 

μ—¬κΈ°μ„œ 독립 λ³€μˆ˜$X$와 κ³±ν•΄μ§€λŠ” κ°’ $\beta_0$λ₯Ό λ¨Έμ‹  λŸ¬λ‹μ—μ„œλŠ” κ°€μ€‘μΉ˜(weight), λ³„λ„λ‘œ λ”ν•΄μ§€λŠ” κ°’ $\beta_0$λ₯Ό 편ν–₯(bias)이라고 ν•©λ‹ˆλ‹€.

 

μ΄λŠ” μ•„λž˜μ™€ 같이 λ‚˜νƒ€λ‚Ό 수 μžˆμŠ΅λ‹ˆλ‹€.

 

 

 

 

 

 

 

 

 

✍️ λ‹€μ€‘ μ„ ν˜• νšŒκ·€ 뢄석(Multivariate Linear Regression Analysis)

 

$$Y = \beta_0 + \beta_1X_1 + \beta_2X_1 + \cdots + \beta_dX_d$$

 

μœ„μ˜ μˆ˜μ‹μ€ 닀쀑 μ„ ν˜• νšŒκ·€μ˜ μˆ˜μ‹μ„ λ³΄μ—¬μ€λ‹ˆλ‹€.

 

μ•„λž˜μ˜ 식을 κ·Έλž˜ν”„λ‘œ λ‚˜νƒ€λ‚΄λ©΄ μ•„λž˜μ˜ κ·Έλ¦Όκ³Ό 같이 λ‚˜νƒ€ λ‚Ό 수 μžˆμŠ΅λ‹ˆλ‹€.

 

 

 

 

 

 

 

 

✍️ $\beta$λ₯Ό μ–΄λ–»κ²Œ 찾을 수 μžˆμ„κΉŒμš”?

μ‹€μ œ 데이터와 예츑 데이터 κ°’κ³Όμ˜ 차이λ₯Ό μž”μ°¨(Residual)라고 ν•©λ‹ˆλ‹€.

 

μš°λ¦¬λŠ” μž”μ°¨λ₯Ό error라고 ν•˜λ©° 이λ₯Ό $e$둜 λ‚˜νƒ€λ‚΄κ² μŠ΅λ‹ˆλ‹€.

 

μž”μ°¨λŠ” μ•„λž˜μ˜ 식과 같이 λ‚˜νƒ€λ‚Ό 수 μžˆμŠ΅λ‹ˆλ‹€.

이λ₯Ό 그림으둜 λ‚˜νƒ€λ‚΄λ©΄ λΉ¨κ°„ 점과 λΉ¨κ°„ 직선 μ‚¬μ΄μ˜ 값을 $e$라고 ν•©λ‹ˆλ‹€.

 

 

 

 

μš°λ¦¬λŠ” $\beta$λ₯Ό κ΅¬ν•˜κΈ° μœ„ν•˜μ—¬ μž”μ°¨λ₯Ό μ œκ³±ν•œ 합인 μž”μ°¨μ œκ³±ν•©(Residual Sum of Squars) "RSS"λ₯Ό μ•Œμ•„μ•Ό ν•©λ‹ˆλ‹€.

 

μ΄λŠ” μ•„λž˜μ˜ μ‹μœΌλ‘œ λ‚˜νƒ€λ‚Ό 수 μžˆμŠ΅λ‹ˆλ‹€.

 

 

 

μš°λ¦¬λŠ” RSSλ₯Ό μ΅œμ†Œν™” ν•˜λŠ” 방법을 톡해 $\beta$λ₯Ό ꡬ할 수 μžˆμŠ΅λ‹ˆλ‹€.

 

이λ₯Ό μ‹μœΌλ‘œ λ‚˜νƒ€λ‚΄λ©΄ μ•„λž˜μ™€ κ°™μŠ΅λ‹ˆλ‹€.

 

μ•„λž˜μ˜ μ‹μ—μ„œλŠ” λ‹¨μˆœ μ„ ν˜• νšŒκ·€μ˜ 식을 μ΄μš©ν•˜κ² μŠ΅λ‹ˆλ‹€.

 

 

 

이λ₯Ό μ΄μ‚°μˆ˜ν•™μ—μ„œ λ°°μ› λ˜ ν–‰λ ¬λ‘œ λ‚˜νƒ€λ‚΄λ©΄ μ•„λž˜μ™€ 같이 λ‚˜νƒ€λ‚Ό 수 μžˆμŠ΅λ‹ˆλ‹€.

 

 

μœ„μ˜ 과정을 ν•œ λ²ˆμ— μ •λ¦¬ν•˜λ©΄ μ•„λž˜μ™€ κ°™μŠ΅λ‹ˆλ‹€.

 

 

 

 

μ΄μ°¨μ‹μ˜ μ΅œμ†Œκ°’μ„ κ΅¬ν•˜κΈ° μœ„ν•΄μ„œλŠ” κ³ λ“±ν•™κ΅λ•Œ λ°°μ› λ˜ 미뢄을 μ΄μš©ν•˜λ©΄ λ©λ‹ˆλ‹€.

 

μš°λ¦¬κ°€ κ΅¬ν•΄μ•Όν•˜λŠ” $\beta$λŠ” $\beta_0$κ³Ό $\beta_1$μž…λ‹ˆλ‹€.

 

κ·ΈλŸ¬λ―€λ‘œ 각각에 λŒ€ν•œ 미뢄을 μ§„ν–‰ν•©λ‹ˆλ‹€.

 

 

 

 

 

 

 

 

 

✍️ μ„ ν˜•νšŒκ·€μ˜ μž₯점

μ„ ν˜•νšŒκ·€μ˜ κ°€μž₯ 큰 μž₯점은 높은 Interpretabilityλ₯Ό κ°€μ§„λ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€.

 

 

μœ„μ™€ 같은 닀쀑 νšŒκ·€ 뢄석 μ‹μ—μ„œ $\beta_i$λŠ” $X_i$의 변화에 따라 $Y$값이 μ–Όλ§ˆλ‚˜ λ³€ν•˜λŠ” 지λ₯Ό μ•Œλ €μ€λ‹ˆλ‹€.

 

$\beta_0$ 은 $X_i$의 값이 λͺ¨λ‘ 0μΌλ•Œ 즉 base라고 생각 ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

 

λ˜ν•œ λ§€μš° popularν•˜κ³  μ‚¬μš©ν•˜κΈ° μ‰½λ‹€λŠ” μž₯점을 가지고 μžˆμŠ΅λ‹ˆλ‹€.

 

 

 

 

 

 

✍️ μ„ ν˜•νšŒκ·€μ˜ 단점

μ„ ν˜•νšŒκ·€λŠ” 단 ν•˜λ‚˜μ˜ μ„ ν˜• κ΄€κ³„λ§Œμ„ μ„€λͺ…ν•  수 μžˆλ‹€λŠ” 단점이 μžˆμŠ΅λ‹ˆλ‹€.

 

μ΄λ‘œμΈν•΄ λΆ€μ μ ˆν•œ νŠΉμ§•μ„ κ°€μ§€κ±°λ‚˜ 쀑볡이 λ˜λŠ” νŠΉμ§•μ„ κ°€μ§ˆ 수 μžˆμŠ΅λ‹ˆλ‹€.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

πŸ”Ž Reference

https://ko.wikipedia.org/wiki/%ED%9A%8C%EA%B7%80_%EB%B6%84%EC%84%9D

 

νšŒκ·€ 뢄석 - μœ„ν‚€λ°±κ³Ό, 우리 λͺ¨λ‘μ˜ 백과사전

μœ„ν‚€λ°±κ³Ό, 우리 λͺ¨λ‘μ˜ 백과사전. λ…λ¦½λ³€μˆ˜ 1κ°œμ™€ μ’…μ†λ³€μˆ˜ 1개λ₯Ό 가진 μ„ ν˜•νšŒκ·€μ˜ 예 ν†΅κ³„ν•™μ—μ„œ νšŒκ·€ 뢄석(ε›žζ­Έεˆ†ζž, μ˜μ–΄: regression analysis)은 κ΄€μ°°λœ μ—°μ†ν˜• λ³€μˆ˜λ“€μ— λŒ€ν•΄ 두 λ³€μˆ˜ μ‚¬μ΄μ˜ λͺ¨

ko.wikipedia.org