-
๐ Ch02 Data Analysis Part 1 ๐๐ฎ ํ๊ต ๊ณต๋ถ/๐ ์ธ๊ณต์ง๋ฅ๊ฐ๋ก 2025. 6. 22. 21:48
1. Data Analysis (1) The processes of Data Analysis
๋ฐ์ดํฐ ๋ถ์์ ํ์ค ํ๋ก์ธ์ค (์ธ์ฌ์ดํธ ๋ฐ๊ฒฌ ์ค์ )
๋ฐ์ดํฐ๋ฅผ ์กฐ์ฌํ๊ณ , ๋ฐ์ดํฐ์์ ์๋ฏธ ์๋ insights๋ฅผ ์ฐพ๊ณ , ๊ฒฐ๋ก ์ ๋์ถํ๋ ๊ฒ
-
Collecting Data - ๋ค์ํ ์ถ์ฒ์์ ๋ฐ์ดํฐ๋ฅผ ์์ง
Preprocessing Data - ๋ฐ์ดํฐ๋ฅผ ํํฐ๋งํ๊ณ ์ ๋ฆฌํ์ฌ ํ์ํ ํ์์ผ๋ก ๋ณํ
Analyzing and Finding Insights - ๋ฐ์ดํฐ๋ฅผ ํ์, ์ค๋ช , ์๊ฐํํ์ฌ ์ธ์ฌ์ดํธ์ ๊ฒฐ๋ก ์ป์
Insights Interpretations - ์ธ์ฌ์ดํธ๋ฅผ ์ดํดํ๊ณ ๊ฐ ๋ณ์๊ฐ ์์คํ ์ ๋ฏธ์น๋ ์ํฅ ์ฐพ์
Storytelling - ์ผ๋ฐ์ธ๋ ์ดํดํ ์ ์๋๋ก ์คํ ๋ฆฌ ํ์์ผ๋ก ๊ฒฐ๊ณผ ์ ๋ฌ
KDD Process (๋ฐ์ดํฐ ๊ธฐ๋ฐ ํจํด ๋ฐ๊ฒฌ๊ณผ ์๊ฐํ)
๋ฐ์ดํฐ๋ก๋ถํฐ ์ง์ ๋ฐ๊ฒฌ
๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฒ ์ด์ค, ๋ฐ์ดํฐ์จ์ดํ์ฐ์ค, ๊ธฐํ ์น์ด๋ ์ ๋ณด ์ ์ฅ์์์ ์จ๊ฒจ์ง ํฅ๋ฏธ๋ก์ด ํจํด ๋ฐ๊ฒฌํ๊ฑฐ๋ ์ถ์ถ
-
Data Cleaning / Data Integration / Data Selection / Data Transformation
/ Data Mining / Pettern Evaluation / Knowledge Presentation
SEMMA (๋ชจ๋ธ ๊ตฌ์ถ ์์ ์ค์ )
Sample: ๋ชจ๋ธ๋ง ํ๋ก์ธ์ค๋ฅผ ์ํ ์ถฉ๋ถํ ๋ฐ์ดํฐ ์ํ์ ์ ํ
Explore: ๋ฐ์ดํฐ๋ฅผ ์ดํดํ๊ณ , ๋ณ์ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ๋ฐ๊ฒฌํ๊ณ , ๋ฐ์ดํฐ๋ฅผ ์๊ฐํํ๊ณ , ์ด๊ธฐ ํด์์ ์ป์
Modify: ๋ชจ๋ธ๋ง์ ์ค๋น(๋๋ฝ๋ ๊ฐ ์ฒ๋ฆฌ, ์ด์์น ํ์ง, ํน์ฑ ๋ณํ, ์๋ก์ด ์ถ๊ฐ ํน์ฑ ์์ฑ ๋ฑ)
Model: ์ ํ ๋ฐ ๋ก์ง์คํฑ ํ๊ท, KNN, ์ง์ ๋ฒกํฐ ํธ๋ฆฌ, ์์ฌ ๊ฒฐ์ ํธ๋ฆฌ, ๋๋ค ๋ฑ ๋ค์ํ ๋ชจ๋ธ๋ง ๊ธฐ์ ์ ์ ํํ๊ณ ์ ์ฉ
Assess: ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ฌ์ฉํด ๋ชจ๋ธ ํ๊ฐ
CRISP-DM (๋น์ง๋์ค ์ดํด, ๋ฐฐํฌ ์ค์ )
CRoss-InduStry Process for Data Mining
๋น์ง๋์ค ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ฐ๋ ฅํ๊ณ ์ ์ฐํ๋ฉฐ ์ํ์ ์ด๊ณ ์ ์ฉํ๋ฉฐ ์ค์ฉ์ ์ธ ์ ๊ทผ ๋ฐฉ์
1. Data Analysis (2) Comparing Data Analysis and Data Science
๋ฐ์ดํฐ ๋ถ์
(๋น์ง๋์ค) ์์ฌ๊ฒฐ์ ์ ๋์์ด ๋๋ ํจํด์ ๋ฐ๊ฒฌํ๊ธฐ ์ํด ๋ฐ์ดํฐ๋ฅผ ํ์ํ๋ ํ๋ก์ธ์ค
-
๋ค์ํ ์์ค๋ก๋ถํฐ ๋ฐ์ดํฐ๋ฅผ ์ถ์ถํ๊ณ ์ฟผ๋ฆฌํจ
ํ์์ ๋ฐ์ดํฐ ๋ถ์์ ์ํ
๋ฐ์ดํฐ ์๊ฐํ
๋ ํฌํธ ์ค๋น
์ฌ์ ์ฒด์ ์ ์
-
๋ฐ์ดํฐ ๊ณผํ์ ํ์ ๋๋ฉ์ธ
๋ฐ์ดํฐ ๊ณผํ
๊ตฌ์กฐํ๋๊ฑฐ๋ ๊ตฌ์กฐํ๋์ง ์์ ์ ๋ณด๋ก๋ถํฐ ์ธ์ฌ์ดํธ๋ฅผ ์ถ์ถํ๋ ํ์ ๊ฐ ์์ญ
๋ชจ๋ ์ฉ์ด์ ์งํฉ์ฒด (๋ฐ์ดํฐ ๋ถ์, ๋ฐ์ดํฐ ๋ง์ด๋, ๋จธ์ ๋ฌ๋ ๋ฐ ๊ธฐํ ๊ด๋ จ ๋๋ฉ์ธ)
๋ชจ๋ธ ๋ฐ ์์ธก ์๊ณ ๋ฆฌ์ฆ ๊ฐ๋ฐ
๋ฐ์ดํฐ ๋ถ์๊ฐ์ ๊ธฐ์ ์ธํธ
ํ์์ ๋ฐ์ดํฐ ๋ถ์(EDA) - ํจํด ๋ฐ๊ฒฌ, ๊ฐ์ค ๊ฒ์ฆ, ๊ฐ์ ํ์คํ๋ฅผ ์ํ ๋ฐ์ดํฐ ๊ฒ์ฌ
๊ด๊ณํ ๋ฐ์ดํฐ๋ฒ ์ด์ค ex) MySQL, Postgre
์๊ฐํ ๋ฐ BI ๋๊ตฌ - ์ธ์ฌ์ดํธ๋ฅผ ํํํ๊ธฐ ์ํ ์ฌ์ด ์ต์ ex) Tableau, QlikView, MS Power BI, IBM Cognos
์คํ๋ ๋์ํธ - ๋ฐ์ดํฐ๋ฅผ ํ ํ์์ผ๋ก ์ ์ฅํ๊ณ ๊ด๋ฆฌ
์คํ ๋ฆฌํ ๋ง๊ณผ ๋ฐํ ๊ธฐ์ - ๋ฐ์ดํฐ ํฉํธ๋ฅผ ์์ด๋์ด๋ ์ฌ๊ฑด์ ์ฐ๊ฒฐํ๊ณ ์ ํํ๋ ์ ๋ฌธ๊ฐ๊ฐ ๋์ด์ผ ํจ
์ํ๊ณผ ํต๊ณํ - ๋ง์ถคํ ์๋ฃจ์ ์ ๊ฐ๋ฐํ๋ ๋ฐ ๋์
๋จธ์ ๋ฌ๋ - ์ง๋ ํ์ต ๊ธฐ๋ฒ๊ณผ ๋น์ง๋ ํ์ต ๊ธฐ๋ฒ์ ๋ํ ์ง์
ํ๋ก๊ทธ๋๋ฐ ๊ธฐ์ - ๋ฐ์ดํฐ ๊ณผํ์๊ฐ ์ ์ํ ์๋ฃจ์ ์๋ํํ๋ ๋ฐ ๋์๋จ
๋น ๋ฐ์ดํฐ ๊ธฐ์ - ๋๊ท๋ชจ ๊ธฐ์ ์ ์ํ ๋น ๋ฐ์ดํฐ ์๋ฃจ์ ์ ๊ฐ๋ฐํ๋ ๋ฐ ๋์์ด ๋จ
๋ฅ๋ฌ๋ ๋๊ตฌ - NLP ๋ฐ ์ด๋ฏธ์ง ์ฒ๋ฆฌ์ ํ์ฉ๋จ
2. Statistics in Data (1) Data, Object, Attributes
๋ฐ์ดํฐ
๊ฐ์ฒด์ ๊ทธ ์์ฑ์ ์งํฉ
์์ฑ: ๊ฐ์ฒด์ ํน์ฑ์ ๋ํ๋ด๋ ์ด์ด๋ ๋ฐ์ดํฐ ํ๋ ๋๋ ์๋ฆฌ์ฆ (๋ณ์, ํน์ง, ์ฐจ์)
์์ฑ์ ์ปฌ๋ ์ ์ ๊ฐ์ฒด๋ฅผ ์ค๋ช ํจ (๊ธฐ๋ก, ํฌ์ธํธ, ์ผ์ด์ค, ์ํ, ์ํฐํฐ, ๊ด์ฐฐ, ์ฌ๋ก)
์์ฑ(attribute)์ ์ ํ
ํน์ ์ํฉ์์๋ ํน์ ๋ฐ์ดํฐ ์ ํ์ด ํ์ํ๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ ๋ถ์์ ๋์ฑ ์ค์
๋ถ์๊ฐ๊ฐ ๋ฐ์ดํฐ ๋ถ์์ ์ํ ์ฌ๋ฐ๋ฅธ ๋ฐฉ๋ฒ์ ์ ํํ๋ ๋ฐ ๋์์ด ๋จ
qualitative(์ ์ฑ์ )๊ณผ quantitative(์ ๋์ )์ผ๋ก ๋ถ๋ฅ๋จ
qualitative(์ ์ฑ์ ) - ์ฃผ๊ด์ ์ผ๋ก ๊ด์ฐฐํ ์ ์๋ ํน์ง๊ณผ descriptor์ ๋ค๋ฃธ (nominal, ordinal, binary)
quantitative(์ ๋์ ) - ์ซ์, ๊ฐ๊ด์ ์ผ๋ก ์ธก์ ํ ์ ์๋ ๊ฒ ๋ค๋ฃธ (์ซ์ํ, ์ด์ฐํ, ์ฐ์ํ)
qualitative - Nominal ๋ช ๋ชฉํ
๊ฐ์ด ๊ธฐํธ ๋๋ ์์ดํ ์ ์ด๋ฆ์ด ๋ ์ ์์
๊ฐ์ ๋ฒ์ฃผํ์ด๊ณ ์์๊ฐ ์์
๋ธ๋๋ ์ด๋ฆ, ์ฐํธ๋ฒํธ, ์ฃผ, ์ฑ๋ณ, ๊ฒฐํผ ์ฌ๋ถ ๋ฑ
ํ๊ท ๊ณผ ์ค์๊ฐ์ ์ฐพ๋ ๊ฒ์ ์๋ฏธ ์์
๋ฐ์ดํฐ ๋ถ์๊ฐ๋ ๊ฐ์ฅ ์์ฃผ ๋ฐ์ํ๋ ๊ฐ์ธ ์ต๋น๊ฐ(mode) ๊ณ์ฐ ๊ฐ๋ฅ
qualitative - Ordinal ์์ํ
์๋ฏธ ์๋ ์์๋ ์์๋ฅผ ๊ฐ์ง ์ด๋ฆ์ด๋ ๋ผ๋ฒจ ์์ผ๋ ๊ฐ์ ํฌ๊ธฐ๋ ๋ชจ๋ฆ
๊ณ ๊ฐ ๋ง์กฑ๋ ํ๊ฐ, ์ ํ ํ๊ฐ, ์ํ ํ๊ฐ ๋ฑ
1. ๋งค์ฐ ๋ถ๋ง์กฑ / 2. ๋ค์ ๋ถ๋ง์กฑ / 3. ๋ณดํต / 4. ๋ง์กฑ / 5. ๋งค์ฐ ๋ง์กฑ
๋ชจ๋, ์ค์๊ฐ ์ธก์ ๊ฐ๋ฅ
์์ ์ฌ์ด์ ๊ณผํ์ , ์ํ์ ์ฆ๊ฑฐ ์๋ ๊ฒฝ์ฐ ํ๊ท ์ธก์ ์ ์ฃผ์
Aํ์ ์ ๋ฐ์ ํ์์ด Bํ์ ์ ๋ฐ์ ํ์๋ณด๋ค ๋ ๋ฐฐ ๋ ๋๋ํ ๊ฒ์ ์๋
qualitative - Binary ์ด์งํ
๋ ๊ฐ์ง ๊ฐ, ์ํ๋ง ๊ฐ์ง
Symmetric ๋์นญ: ๋ ๊ฐ์ด ๋๊ฐ์ด ์ค์ ex) ์ฑ๋ณ
Asymmetric ๋น๋์นญ: ๋ ๊ฐ์ด ๋๊ฐ์ด ์ค์ํ์ง ์์ ex) ์ง๋จ, ๊ฒ์ฌ ๊ฒฐ๊ณผ
quantitative - Numeric ์ซ์ํ
์ ์, ์ค์ ๊ฐ์ผ๋ก ํํ๋๋ ์ธก์ ๊ฐ๋ฅํ ์
interval-scaled ๊ฐ๊ฒฉ ์ค์ผ์ผ:
๋์ผํ ํฌ๊ธฐ์ ๋จ์๋ก ์ ๋ ฌ๋ ์ฒ๋๋ก ์ธก์ ๋์ง๋ง ์ค์ 0์ ์์ ex) ๋ ์ง, ์จ๋
๊ณฑ์ ๋๋์ ๋ถ๊ฐ๋ฅ
ratio-scaled ๋น์จ์ ๋ฐ๋ผ ์กฐ์ :
๋์ผํ ํฌ๊ธฐ์ ๋จ์๋ก ์ ๋ ฌ๋ ์ฒ๋๋ก ์ธก์ ๋๋ฉฐ ๋ณธ์ง์ ๊ธ๋ก 0์ ์ ๊ฐ๋ ์ฒ๋์ ์ ์ฌ
ex) ํค, ๋ชธ๋ฌด๊ฒ, ๊ฒฝ๋ ฅ, ์ผ๋น ์จ๋
quantitative - Discrete ์ด์ฐํ
์ ์ ์๋ ์ ํํ ์(์ ์๊ฐ)๋ง ํ์ฉ
์ซ์๋ฅผ ์ธ์ด ์ป์ ์ ์์
๋ถ์๊ฐ ์๋ ๊ฐ ํ์ฉ
quantitative - Continuous ์ฐ์ํ
๋ฌดํํ ์์ ๊ฐ๋ฅํ ๊ฐ(์ค์๊ฐ) ํ์ฉ
์ธก์ ํตํด ์ป์ ์ ์์
๋ถ์๋ก ํํ ๊ฐ๋ฅํ ๊ฐ ํ์ฉ
2. Statistics in Data (2) Decriptive Statistics
Descriptive Statistics ๊ธฐ์ ํต๊ณ
์ฐ๊ตฌ์์ ๋ฐ์ดํฐ์ ๊ธฐ๋ณธ์ ์ธ ํน์ง ์ค๋ช ์ ์ฌ์ฉ
๋ฐ์ดํฐ์ ๋ํ ๊ฐ๋จํ ์์ฝ ์ ๊ณต
๋จ์ผ ์์ฑ์๋ ์ธ ๊ฐ์ง ์ฃผ์ํ ์์ฑ์ด ์์
์ค์ฌ ๊ฒฝํฅ, ๋ถ์ฐ, ๋ถํฌ(skewness, kurtosis)
Central Tendency ์ค์ ๊ฒฝํฅ
๊ฐ๋ค์ด ํ๊ท ์ฃผ๋ณ์ผ๋ก ํด๋ฌ์คํ ๋๋ ๊ฒฝํฅ
ํ๊ท , ์ต๋น๊ฐ(mode), ์ค์๊ฐ ๋ฑ
์ค์ ๊ฒฝํฅ์ ์ฃผ์ ๋ชฉ์ ์ ๊ด์ฐฐ์น์ ์ค์ฌ ์ ๋ ๊ฐ์ ๊ณ์ฐํ๋ ๊ฒ
์ค๋ช ์ ์ฉ์ฝ์ ๊ฒฐ์ ํ๊ณ ๊ด์ฐฐ ๊ทธ๋ฃน์ ๋ํ ์ ๋์ ์ ๋ณด ์ ๊ณต
Mean ํ๊ท
์ฐ์ ํ๊ท ๋๋ ํ๊ท
๊ด์ธก์น์ ํฉ์ ๊ด์ธก์น์ ๊ฐ์๋ก ๋๋์ด ๊ณ์ฐ
์ด์์น์ ๋ ธ์ด์ฆ์ ๋ฏผ๊ฐํจ
Median ์ค์๊ฐ
๊ด์ฐฐ์น ๊ทธ๋ฃน์ ์ค๊ฐ์ ๋๋ ์ค๊ฐ๊ฐ
ํ๊ท ๋ณด๋ค ์ด์์น์ ๋ ธ์ด์ฆ์ ์ํฅ์ ๋ ๋ฐ์ -> ํต๊ณ์ ์ธก์ ์ ๋ ์ ํฉํจ
์ผ๋ฐ์ ์ธ ์ค์๊ฐ์ ๋งค์ฐ ๊ฐ๊น์
Mode ์ต๋น๊ฐ
๊ด์ฐฐ ๊ทธ๋ฃน์์ ๊ฐ์ฅ ๋ง์ด ๋ฐ์ํ๋(์์ฃผ ์ฌ์ฉ๋๋) ํญ๋ชฉ
์ด์์น์ ๋ ธ์ด์ฆ๋ฅผ ๋ฌด์
๋ ๊ฐ ์ด์์ ๊ฐ์ด ๋์ผํ ๋ฐ์ ๋น๋ ๊ฐ์ง ์ ์์
Dispersion ํผ์ง ์ ๋
์ค์ฌ ๊ฒฝํฅ์ ๊ด์ฐฐ์น ๊ทธ๋ฃน์ ์ค๊ฐ๊ฐ์ ๋ํ๋ด์ง๋ง ๊ด์ฐฐ์น์ ์ ๋ฐ์ ์ธ ๊ทธ๋ฆผ์ ์ ๊ณตํ์ง๋ ์์
๊ด์ฐฐ์ ๋ณ๋์ฑ, ๊ด์ฐฐ์ ํ์ฐ์ ๋ํ๋ด๋ ์งํ
ex) ๋ฒ์, ์ฌ๋ถ์ ๋ฒ์(IQR), ๋ถ์ฐ, ํ์คํธ์ฐจ
Range ๋ฒ์
๊ด์ฐฐ๊ฐ์ ์ต๋๊ฐ๊ณผ ์ต์๊ฐ์ ์ฐจ์ด
๊ณ์ฐํ๊ธฐ ์ฝ๊ณ ์ดํดํ๊ธฐ ์ฌ์
๋จ์๋ ๊ด์ธก์น์ ๋จ์์ ๋์ผ
Interquartile Range (IQR) ์ฌ๋ถ์ ๋ฒ์
์ 3์ฌ๋ถ์์์ ์ 1์ฌ๋ถ์์์ ์ฐจ์ด
๋๋ถ๋ถ์ ๊ด์ฐฐ๊ฐ์ด ์ฌ๊ธฐ์ ์์
๊ด์ฐฐ์น์ ์ค์ 50%๋ฅผ ์ธก์
midspread / middle 50%, H-spread
Variance ๋ถ์ฐ
ํ๊ท ์ผ๋ก๋ถํฐ์ ํธ์ฐจ ์ธก์
๊ฐ์ด ๋ฎ์์๋ก ๊ด์ฐฐ ๊ฒฐ๊ณผ๊ฐ ๋ ๋๊ฒ ํผ์ ธ ์์์ ์๋ฏธ
๊ด์ฐฐ๊ฐ๊ณผ ํ๊ท ์ ์ฐจ์ด๋ฅผ ์ ๊ณฑํ๊ธฐ ๋๋ฌธ์ ์ธก์ ๋จ์๊ฐ ๋ค๋ฆ
Standard Deviation ํ์คํธ์ฐจ
๋ถ์ฐ์ ์ ๊ณฑ๊ทผ
๋ถ์๊ฐ๊ฐ ํ๊ท ๊ณผ์ ์ ํํ ํธ์ฐจ๋ฅผ ํ๊ฐํ๋ ๊ฒ์ ๋ ์ฝ๊ฒ ํด์ค
Skewness ๋น๋์นญ์ฑ
๋ถํฌ์ ๋์นญ์ฑ ์ธก์
๋ถํฌ๊ฐ ์ ๊ท๋ถํฌ๋ก๋ถํฐ ์ผ๋ง๋ ๋ฒ์ด๋ฌ๋์ง ๋ณด์ฌ์ค
Skewness ์ธก์ ํ๋ ๊ฐ์ฅ ๊ฐ๋จํ ๊ฒ์ ํผ์์์ ์ฒซ ๋ฒ์งธ ๋น๋์นญ์ฑ ๊ณ์
Kurtosis ์ฒจ๋
์ ๊ท๋ถํฌ์ ๋น๊ตํ์ฌ ๊ผฌ๋ฆฌ์ ๋๊ป ์ธก์
๋ฎ์ ์ฒจ๋๋ ๊ผฌ๋ฆฌ๊ฐ ๋๊บผ์์ ๊ด์ฐฐ์น์ ์ด์์น๊ฐ ๋ ๋ง์ด ์กด์ฌํจ์ ์๋ฏธ
2. Statistics in Data (3) Relationships between Attributes
์์ฑ ๊ฐ์ ๊ด๊ณ
๋ณ์ ๊ฐ์ ๊ด๊ณ๋ฅผ ์ธก์ ํ๋ฉด ๋ฐ์ดํฐ ๋ถ์๊ฐ๊ฐ ๋ณ์ ๊ฐ์ ์ญํ ์ดํดํ๋ ๋ฐ ๋์๋จ
Covariance ๊ณต๋ถ์ฐ
๋ ๋ณ์ ๊ฐ์ ๊ด๊ณ ์ธก์
ํ ๋ณ์์ ๋ณํ๊ฐ ๋ค๋ฅธ ๋ณ์์ ์ด๋ป๊ฒ ์ํฅ์ ๋ฏธ์น๋์ง, ๋ณ์์ ๋ณํ ์ ๋๋ฅผ ๋ณด์ฌ์ค
๊ฐ์ ๋ฒ์๋ -๋ฌดํ๋ ~ + ๋ฌดํ๋
ํจ๊ณผ์ ์ธ ๊ฒฐ๋ก ์ ๊ณตํ์ง ์์
์ ๊ทํ๋์ง ์๊ณ ๋จ์์ ๋ฐ๋ผ ์ํฅ ๋ฐ์
Correlation - Pearson ์๊ด๊ด๊ณ - ํผ์ด์จ
๊ฐ ๋ณ์๊ฐ ์ด๋ป๊ฒ ์ ํ์ ์ผ๋ก ์๊ด๊ด๊ณ ๊ฐ๋์ง ๋ณด์ฌ์ค
๊ฐ์ ๋ฒ์๋ -1 ~ +1
๊ณต๋ถ์ฐ๋ณด๋ค ๋ ๋์ ์ดํด๋ฅผ ์ ๊ณตํ๋ฉฐ ๊ณต๋ถ์ฐ์ ์ ๊ทํ๋ ๋ฒ์
2. Statistics in Data (4) Statistical Hypothesis Test
Statistical Hypothesis Test ํต๊ณ์ ๊ฐ์ค ๊ฒ์
๊ฐ์ค์ ์ถ๋ก ์ ์ํ ํต๊ณ์ ์ฃผ์ ํต์ฌ ์ฃผ์
ํต๊ณ์์ ๋ถ์๊ฐ๊ฐ ๊ฐ์ ์ ๊ฒ์ฆํ๋ ํ์
๋ ๊ฐ์ง ์ ํ์ ๊ฐ์ค
๊ท๋ฌด๊ฐ์ค (Null Hypothesis, H0) - ํ ์คํธ๋์ด์ผ ํ๋ ๊ฐ์ค
๋์กฐ๊ฐ์ค (Alternative Hypothesis, HA) - H0์ด ๊ฑฐ์ง์ผ ๋ ๋ฐ์๋ค์ฌ์ง๋ ๊ฐ์ค
P-Value
๊ท๋ฌด๊ฐ์ค์ ๊ฑฐ๋ถํ ์ฆ๊ฑฐ๊ฐ ์๋์ง ํ์ธํ๊ธฐ ์ํ ํ๋ฅ (๋๋ ์ ๋ขฐ๋)
์ ์์์ค์ ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ๊ธฐ ์ํด p๊ฐ์ด ์ผ๋ง๋ ์์์ผ ํ๋์ง๋ฅผ ๊ฒฐ์ ํ๊ธฐ ์ํด ๋ฏธ๋ฆฌ ๋ช ์๋จ
์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ p ๊ฐ์ 0.05 ๋๋ 0.01
๋งค๊ฐ๋ณ์ ํ ์คํธ
ํ๋ณธ์ด ์ถ์ถ๋ ๋ชจ์ง๋จ ๋ถํฌ์ ๋งค๊ฐ๋ณ์์ ๋ํ ๊ฐ์ ์ ํ๋ ๊ฒ
๋งค๊ฐ๋ณ์๋ ์ ์ฒด๋ฅผ ๋ํ๋ด๋ ์ซ์์ ์ ex) ํ๊ท , ๋ถ์ฐ
์ ๋์ ์ด๊ณ ์ฐ์์ ์ธ ๋ฐ์ดํฐ์ ํ ์คํธ์ ์ฌ์ฉ๋จ
๋น๋งค๊ฐ๋ณ์ ํ ์คํธ๋ณด๋ค ๋ ๊ฐ๋ ฅํ๊ณ ์ ๋ขฐํ ์ ์์
t-test
ํ๊ท ๊ฐ์ ์ ์๋ฏธํ ์ฐจ์ด๊ฐ ์๋์ง ํ์ธํ๋ ๋ฐ ์ฌ์ฉ๋๋ ์ผ์ข ์ ๋งค๊ฐ๋ณ์ ํ ์คํธ
๊ฐ์ฅ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ ์ถ๋ก ํต๊ณ๋
t-test์๋ ์ธ ๊ฐ์ง ํ์ ์ด ์์
One sample t-test / Independent samples / Paired samples t-test
One-sample t-test ๋จ์ผํ๋ณธ t ๊ฒ์
ํ๋ณธ ํ๊ท ๊ณผ ๊ฐ์ ๋ ๋ชจ์ง๋จ ํ๊ท ์ฌ์ด์ ์ ์๋ฏธํ ์ฐจ์ด๊ฐ ์๋์ง ํ์ธํ๋ ๋ฐ ์ฌ์ฉ
Two-sample t-test 2-ํ๋ณธ t ๊ฒ์
๋ ๋ ๋ฆฝ ์ง๋จ ๊ฐ์ ์ ์๋ฏธํ ์ฐจ์ด ๋น๊ตํ๋ ๋ฐ ์ฌ์ฉ
๋ ๋ฆฝ ํ๋ณธ t ๊ฒ์
Paired(related) sample t-test ๋์ํ๋ณธ t ๊ฒ์
๋์ผ ๊ทธ๋ฃน์ ๋ ๊ด์ฐฐ์น ์ฌ์ด์ ํ๊ท ์ฐจ์ด๊ฐ ์๋์ง ์ฌ๋ถ ๊ฒฐ์
์ข ์ ์ํ t ๊ฒ์
Non-parametric Tests ๋น๋งค๊ฐ๋ณ์ ํ ์คํธ
ํต๊ณ์ ๋ถํฌ์ ์์กดํ์ง ์์
๋ถํฌ ์๋ ๊ฐ์ค ๊ฒ์ ์ผ๋ก ์๋ ค์ ธ ์์
๋ชจ์ง๋จ์ ๋งค๊ฐ๋ณ์๊ฐ ์์
๊ด์ฐฐ ์์์ ์์ ๊ฒฐ์ ์ ์ฌ์ฉ
Mann-Whitney U Test
๋ ํ๋ณธ์ ๋ํ t ๊ฒ์ ์ ๋น๋งค๊ฐ๋ณ์ ๋์๋ฌผ
๊ด์ฐฐ ๊ฒฐ๊ณผ๊ฐ ์์ํ์ผ ๋ ์ฌ์ฉ
์ฐจ์ด๊ฐ ์ ๊ท๋ถํฌ๋ผ๊ณ ๊ฐ์ ํ์ง ์์
'๐ฎ ํ๊ต ๊ณต๋ถ > ๐ ์ธ๊ณต์ง๋ฅ๊ฐ๋ก ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๐ Ch06 Uncertainty ๐ (0) 2025.06.25 ๐ Ch05 Knowledge ๐ (0) 2025.06.24 ๐ Ch04 Agent and Search ๐ (0) 2025.06.24 ๐ Ch03 Data Preprocessing ๐ (0) 2025.06.24 ๐ Ch01 Introductions of AI ๐ (0) 2025.06.22