π€Regression
κ΄μ°°λ μ°μν λ³μλ€μ λν΄ λ λ³μ μ¬μ΄μ λͺ¨νμ ꡬν λ€ μ ν©λλ₯Ό μΈ‘μ ν΄ λ΄λ λΆμ λ°©λ²μ λλ€.
μ¦, $x$κ°μ λ°λΌ $y$κ°μ΄ μ΄λ μ λλ‘ λ³νν μ§ μμΈ‘ν μ μμ΅λλ€.
νκ·λΆμμ μκ°μ λ°λΌ λ³ννλ λ°μ΄ν°λ μ΄λ€ μν₯, κ°μ€μ μ€ν, μΈκ³Ό κ΄κ³μ λͺ¨λΈλ§λ±μ ν΅κ³μ μμΈ‘μ μ΄μ©λ μ μμ΅λλ€.
νκ·λΆμμ supervised learning(yκ° μ‘΄μ¬νλ νμ΅)μ λνμ μΈ λΆμ κΈ°λ²μ€ νλμ΄λ©° continuousν κ°λ€μ μ°Ύμ΅λλ€.
νκ· μκ³ λ¦¬μ¦μλ μλμ κ°μ κ²λ€μ΄ μμ΅λλ€.
βοΈ Regressionμ μ’ λ₯
- Linear regression
- Multivariate linear regression
- Lasso and Ridge linear regression
- Neural network regression
- Support vector regression
- Decision tree regression
- Etc.
μ€λμ μ ννκ·(Linear regression)μ λν΄ νμ΅νκ³ μ 리ν΄λ³΄κ² μ΅λλ€.
π Linear Regression
λ€λ₯Έ λ³μμ κ°μ λ³νκ²νλ λ³μλ₯Ό $x$, λ³μ $x$μ μν΄μ κ°μ΄ μ’ μμ μΌλ‘ λ³νλ λ³μ $y$λΌκ³ νκ² μ΅λλ€.
μ΄λ λ³μ $x$μ κ°μ λ 립μ μΌλ‘ λ³ν μ μλ κ²μ λ°ν΄, $y$κ°μ κ³μν΄μ $x$μ κ°μ μν΄μ, μ’ μμ μΌλ‘ κ²°μ λλ―λ‘ $x$λ₯Ό λ 립 λ³μ, $y$λ₯Ό μ’ μ λ³μλΌκ³ ν©λλ€.
μ ν νκ·λ ν κ° μ΄μμ λ 립 λ³μ $x$μ μ’ μλ³μ $y$μ μ ν κ΄κ³λ₯Ό λͺ¨λΈλ§ν©λλ€.
λ§μ½, λ 립 λ³μ $x$κ° 1κ°λΌλ©΄ λ¨μ μ ν νκ·λΌκ³ ν©λλ€.
βοΈ λ¨μ μ ν νκ· λΆμ(Univariate Linear Regression Analysis)
$$Y = \beta_0 + \beta_1X_1$$
μμ μμμ λ¨μ μ ν νκ·μ μμμ 보μ¬μ€λλ€.
μ¬κΈ°μ λ 립 λ³μ$X$μ κ³±ν΄μ§λ κ° $\beta_0$λ₯Ό λ¨Έμ λ¬λμμλ κ°μ€μΉ(weight), λ³λλ‘ λν΄μ§λ κ° $\beta_0$λ₯Ό νΈν₯(bias)μ΄λΌκ³ ν©λλ€.
μ΄λ μλμ κ°μ΄ λνλΌ μ μμ΅λλ€.
βοΈ λ€μ€ μ ν νκ· λΆμ(Multivariate Linear Regression Analysis)
$$Y = \beta_0 + \beta_1X_1 + \beta_2X_1 + \cdots + \beta_dX_d$$
μμ μμμ λ€μ€ μ ν νκ·μ μμμ 보μ¬μ€λλ€.
μλμ μμ κ·Έλνλ‘ λνλ΄λ©΄ μλμ κ·Έλ¦Όκ³Ό κ°μ΄ λν λΌ μ μμ΅λλ€.
βοΈ $\beta$λ₯Ό μ΄λ»κ² μ°Ύμ μ μμκΉμ?
μ€μ λ°μ΄ν°μ μμΈ‘ λ°μ΄ν° κ°κ³Όμ μ°¨μ΄λ₯Ό μμ°¨(Residual)λΌκ³ ν©λλ€.
μ°λ¦¬λ μμ°¨λ₯Ό errorλΌκ³ νλ©° μ΄λ₯Ό $e$λ‘ λνλ΄κ² μ΅λλ€.
μμ°¨λ μλμ μκ³Ό κ°μ΄ λνλΌ μ μμ΅λλ€.
μ΄λ₯Ό κ·Έλ¦ΌμΌλ‘ λνλ΄λ©΄ λΉ¨κ° μ κ³Ό λΉ¨κ° μ§μ μ¬μ΄μ κ°μ $e$λΌκ³ ν©λλ€.
μ°λ¦¬λ $\beta$λ₯Ό ꡬνκΈ° μνμ¬ μμ°¨λ₯Ό μ κ³±ν ν©μΈ μμ°¨μ κ³±ν©(Residual Sum of Squars) "RSS"λ₯Ό μμμΌ ν©λλ€.
μ΄λ μλμ μμΌλ‘ λνλΌ μ μμ΅λλ€.
μ°λ¦¬λ RSSλ₯Ό μ΅μν νλ λ°©λ²μ ν΅ν΄ $\beta$λ₯Ό ꡬν μ μμ΅λλ€.
μ΄λ₯Ό μμΌλ‘ λνλ΄λ©΄ μλμ κ°μ΅λλ€.
μλμ μμμλ λ¨μ μ ν νκ·μ μμ μ΄μ©νκ² μ΅λλ€.
μ΄λ₯Ό μ΄μ°μνμμ λ°°μ λ νλ ¬λ‘ λνλ΄λ©΄ μλμ κ°μ΄ λνλΌ μ μμ΅λλ€.
μμ κ³Όμ μ ν λ²μ μ 리νλ©΄ μλμ κ°μ΅λλ€.
μ΄μ°¨μμ μ΅μκ°μ ꡬνκΈ° μν΄μλ κ³ λ±νκ΅λ λ°°μ λ λ―ΈλΆμ μ΄μ©νλ©΄ λ©λλ€.
μ°λ¦¬κ° ꡬν΄μΌνλ $\beta$λ $\beta_0$κ³Ό $\beta_1$μ λλ€.
κ·Έλ¬λ―λ‘ κ°κ°μ λν λ―ΈλΆμ μ§νν©λλ€.
βοΈ μ ννκ·μ μ₯μ
μ ννκ·μ κ°μ₯ ν° μ₯μ μ λμ Interpretabilityλ₯Ό κ°μ§λ€λ κ²μ λλ€.
μμ κ°μ λ€μ€ νκ· λΆμ μμμ $\beta_i$λ $X_i$μ λ³νμ λ°λΌ $Y$κ°μ΄ μΌλ§λ λ³νλ μ§λ₯Ό μλ €μ€λλ€.
$\beta_0$ μ $X_i$μ κ°μ΄ λͺ¨λ 0μΌλ μ¦ baseλΌκ³ μκ° ν μ μμ΅λλ€.
λν λ§€μ° popularνκ³ μ¬μ©νκΈ° μ½λ€λ μ₯μ μ κ°μ§κ³ μμ΅λλ€.
βοΈ μ ννκ·μ λ¨μ
μ ννκ·λ λ¨ νλμ μ ν κ΄κ³λ§μ μ€λͺ ν μ μλ€λ λ¨μ μ΄ μμ΅λλ€.
μ΄λ‘μΈν΄ λΆμ μ ν νΉμ§μ κ°μ§κ±°λ μ€λ³΅μ΄ λλ νΉμ§μ κ°μ§ μ μμ΅λλ€.
π Reference
https://ko.wikipedia.org/wiki/%ED%9A%8C%EA%B7%80_%EB%B6%84%EC%84%9D