ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • ๐Ÿ€ Ch02 Data Analysis Part 1 ๐Ÿ€
    ๐Ÿฎ ํ•™๊ต ๊ณต๋ถ€/๐Ÿ€ ์ธ๊ณต์ง€๋Šฅ๊ฐœ๋ก  2025. 6. 22. 21:48

    1. Data Analysis (1) The processes of Data Analysis

    ๋ฐ์ดํ„ฐ ๋ถ„์„์˜ ํ‘œ์ค€ ํ”„๋กœ์„ธ์Šค (์ธ์‚ฌ์ดํŠธ ๋ฐœ๊ฒฌ ์ค‘์ )

    ๋ฐ์ดํ„ฐ๋ฅผ ์กฐ์‚ฌํ•˜๊ณ , ๋ฐ์ดํ„ฐ์—์„œ ์˜๋ฏธ ์žˆ๋Š” insights๋ฅผ ์ฐพ๊ณ , ๊ฒฐ๋ก ์„ ๋„์ถœํ•˜๋Š” ๊ฒƒ

    -

    Collecting Data - ๋‹ค์–‘ํ•œ ์ถœ์ฒ˜์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘

    Preprocessing Data - ๋ฐ์ดํ„ฐ๋ฅผ ํ•„ํ„ฐ๋งํ•˜๊ณ  ์ •๋ฆฌํ•˜์—ฌ ํ•„์š”ํ•œ ํ˜•์‹์œผ๋กœ ๋ณ€ํ™˜

    Analyzing and Finding Insights - ๋ฐ์ดํ„ฐ๋ฅผ ํƒ์ƒ‰, ์„ค๋ช…, ์‹œ๊ฐํ™”ํ•˜์—ฌ ์ธ์‚ฌ์ดํŠธ์™€ ๊ฒฐ๋ก  ์–ป์Œ

    Insights Interpretations - ์ธ์‚ฌ์ดํŠธ๋ฅผ ์ดํ•ดํ•˜๊ณ  ๊ฐ ๋ณ€์ˆ˜๊ฐ€ ์‹œ์Šคํ…œ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ ์ฐพ์Œ

    Storytelling - ์ผ๋ฐ˜์ธ๋„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ์Šคํ† ๋ฆฌ ํ˜•์‹์œผ๋กœ ๊ฒฐ๊ณผ ์ „๋‹ฌ

    KDD Process (๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ํŒจํ„ด ๋ฐœ๊ฒฌ๊ณผ ์‹œ๊ฐํ™”)

    ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์ง€์‹ ๋ฐœ๊ฒฌ

    ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค, ๋ฐ์ดํ„ฐ์›จ์–ดํ•˜์šฐ์Šค, ๊ธฐํƒ€ ์›น์ด๋‚˜ ์ •๋ณด ์ €์žฅ์†Œ์—์„œ ์ˆจ๊ฒจ์ง„ ํฅ๋ฏธ๋กœ์šด ํŒจํ„ด ๋ฐœ๊ฒฌํ•˜๊ฑฐ๋‚˜ ์ถ”์ถœ

    -

    Data Cleaning / Data Integration / Data Selection / Data Transformation

    / Data Mining / Pettern Evaluation / Knowledge Presentation

    SEMMA (๋ชจ๋ธ ๊ตฌ์ถ• ์ž‘์—… ์ค‘์ )

    Sample: ๋ชจ๋ธ๋ง ํ”„๋กœ์„ธ์Šค๋ฅผ ์œ„ํ•œ ์ถฉ๋ถ„ํ•œ ๋ฐ์ดํ„ฐ ์ƒ˜ํ”Œ์„ ์„ ํƒ

    Explore: ๋ฐ์ดํ„ฐ๋ฅผ ์ดํ•ดํ•˜๊ณ , ๋ณ€์ˆ˜ ์‚ฌ์ด์˜ ๊ด€๊ณ„๋ฅผ ๋ฐœ๊ฒฌํ•˜๊ณ , ๋ฐ์ดํ„ฐ๋ฅผ ์‹œ๊ฐํ™”ํ•˜๊ณ , ์ดˆ๊ธฐ ํ•ด์„์„ ์–ป์Œ

    Modify: ๋ชจ๋ธ๋ง์„ ์ค€๋น„(๋ˆ„๋ฝ๋œ ๊ฐ’ ์ฒ˜๋ฆฌ, ์ด์ƒ์น˜ ํƒ์ง€, ํŠน์„ฑ ๋ณ€ํ™˜, ์ƒˆ๋กœ์šด ์ถ”๊ฐ€ ํŠน์„ฑ ์ƒ์„ฑ ๋“ฑ)

    Model: ์„ ํ˜• ๋ฐ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€, KNN, ์ง€์› ๋ฒกํ„ฐ ํŠธ๋ฆฌ, ์˜์‚ฌ ๊ฒฐ์ • ํŠธ๋ฆฌ, ๋žœ๋ค ๋“ฑ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ๋ง ๊ธฐ์ˆ ์„ ์„ ํƒํ•˜๊ณ  ์ ์šฉ

    Assess: ์„ฑ๋Šฅ ํ‰๊ฐ€๋ฅผ ์‚ฌ์šฉํ•ด ๋ชจ๋ธ ํ‰๊ฐ€

    CRISP-DM (๋น„์ง€๋‹ˆ์Šค ์ดํ•ด, ๋ฐฐํฌ ์ค‘์ )

    CRoss-InduStry Process for Data Mining

    ๋น„์ง€๋‹ˆ์Šค ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๊ฐ•๋ ฅํ•˜๊ณ  ์œ ์—ฐํ•˜๋ฉฐ ์ˆœํ™˜์ ์ด๊ณ  ์œ ์šฉํ•˜๋ฉฐ ์‹ค์šฉ์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹

    1. Data Analysis (2) Comparing Data Analysis and Data Science

    ๋ฐ์ดํ„ฐ ๋ถ„์„

    (๋น„์ง€๋‹ˆ์Šค) ์˜์‚ฌ๊ฒฐ์ •์— ๋„์›€์ด ๋˜๋Š” ํŒจํ„ด์„ ๋ฐœ๊ฒฌํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ํƒ์ƒ‰ํ•˜๋Š” ํ”„๋กœ์„ธ์Šค

    -

    ๋‹ค์–‘ํ•œ ์†Œ์Šค๋กœ๋ถ€ํ„ฐ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”์ถœํ•˜๊ณ  ์ฟผ๋ฆฌํ•จ

    ํƒ์ƒ‰์  ๋ฐ์ดํ„ฐ ๋ถ„์„์„ ์ˆ˜ํ–‰

    ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™”

    ๋ ˆํฌํŠธ ์ค€๋น„

    ์‚ฌ์—…์ฒด์— ์ œ์‹œ

    -

    ๋ฐ์ดํ„ฐ ๊ณผํ•™์˜ ํ•˜์œ„ ๋„๋ฉ”์ธ

    ๋ฐ์ดํ„ฐ ๊ณผํ•™

    ๊ตฌ์กฐํ™”๋˜๊ฑฐ๋‚˜ ๊ตฌ์กฐํ™”๋˜์ง€ ์•Š์€ ์ •๋ณด๋กœ๋ถ€ํ„ฐ ์ธ์‚ฌ์ดํŠธ๋ฅผ ์ถ”์ถœํ•˜๋Š” ํ•™์ œ๊ฐ„ ์˜์—ญ

    ๋ชจ๋“  ์šฉ์–ด์˜ ์ง‘ํ•ฉ์ฒด (๋ฐ์ดํ„ฐ ๋ถ„์„, ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹, ๋จธ์‹ ๋Ÿฌ๋‹ ๋ฐ ๊ธฐํƒ€ ๊ด€๋ จ ๋„๋ฉ”์ธ)

    ๋ชจ๋ธ ๋ฐ ์˜ˆ์ธก ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐœ๋ฐœ

    ๋ฐ์ดํ„ฐ ๋ถ„์„๊ฐ€์˜ ๊ธฐ์ˆ  ์„ธํŠธ

    ํƒ์ƒ‰์  ๋ฐ์ดํ„ฐ ๋ถ„์„(EDA) - ํŒจํ„ด ๋ฐœ๊ฒฌ, ๊ฐ€์„ค ๊ฒ€์ฆ, ๊ฐ€์ • ํ™•์‹คํ™”๋ฅผ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ๊ฒ€์‚ฌ

    ๊ด€๊ณ„ํ˜• ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค ex) MySQL, Postgre 

    ์‹œ๊ฐํ™” ๋ฐ BI ๋„๊ตฌ - ์ธ์‚ฌ์ดํŠธ๋ฅผ ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•œ ์‰ฌ์šด ์˜ต์…˜ ex) Tableau, QlikView, MS Power BI, IBM Cognos

    ์Šคํ”„๋ ˆ๋“œ์‹œํŠธ - ๋ฐ์ดํ„ฐ๋ฅผ ํ‘œ ํ˜•์‹์œผ๋กœ ์ €์žฅํ•˜๊ณ  ๊ด€๋ฆฌ

    ์Šคํ† ๋ฆฌํ…”๋ง๊ณผ ๋ฐœํ‘œ ๊ธฐ์ˆ  - ๋ฐ์ดํ„ฐ ํŒฉํŠธ๋ฅผ ์•„์ด๋””์–ด๋‚˜ ์‚ฌ๊ฑด์— ์—ฐ๊ฒฐํ•˜๊ณ  ์ „ํ™˜ํ•˜๋Š” ์ „๋ฌธ๊ฐ€๊ฐ€ ๋˜์–ด์•ผ ํ•จ

    ์ˆ˜ํ•™๊ณผ ํ†ต๊ณ„ํ•™ - ๋งž์ถคํ˜• ์†”๋ฃจ์…˜์„ ๊ฐœ๋ฐœํ•˜๋Š” ๋ฐ ๋„์›€

    ๋จธ์‹ ๋Ÿฌ๋‹ - ์ง€๋„ ํ•™์Šต ๊ธฐ๋ฒ•๊ณผ ๋น„์ง€๋„ ํ•™์Šต ๊ธฐ๋ฒ•์— ๋Œ€ํ•œ ์ง€์‹

    ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๊ธฐ์ˆ  - ๋ฐ์ดํ„ฐ ๊ณผํ•™์ž๊ฐ€ ์ œ์•ˆํ•œ ์†”๋ฃจ์…˜ ์ž๋™ํ™”ํ•˜๋Š” ๋ฐ ๋„์›€๋จ

    ๋น…๋ฐ์ดํ„ฐ ๊ธฐ์ˆ  - ๋Œ€๊ทœ๋ชจ ๊ธฐ์—…์„ ์œ„ํ•œ ๋น…๋ฐ์ดํ„ฐ ์†”๋ฃจ์…˜์„ ๊ฐœ๋ฐœํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋จ

    ๋”ฅ๋Ÿฌ๋‹ ๋„๊ตฌ - NLP ๋ฐ ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ์— ํ™œ์šฉ๋จ

    2. Statistics in Data (1) Data, Object, Attributes

    ๋ฐ์ดํ„ฐ

    ๊ฐ์ฒด์™€ ๊ทธ ์†์„ฑ์˜ ์ง‘ํ•ฉ

    ์†์„ฑ: ๊ฐ์ฒด์˜ ํŠน์„ฑ์„ ๋‚˜ํƒ€๋‚ด๋Š” ์—ด์ด๋‚˜ ๋ฐ์ดํ„ฐ ํ•„๋“œ ๋˜๋Š” ์‹œ๋ฆฌ์ฆˆ (๋ณ€์ˆ˜, ํŠน์ง•, ์ฐจ์›)

    ์†์„ฑ์˜ ์ปฌ๋ ‰์…˜์€ ๊ฐ์ฒด๋ฅผ ์„ค๋ช…ํ•จ (๊ธฐ๋ก, ํฌ์ธํŠธ, ์ผ€์ด์Šค, ์ƒ˜ํ”Œ, ์—”ํ‹ฐํ‹ฐ, ๊ด€์ฐฐ, ์‚ฌ๋ก€)

    ์†์„ฑ(attribute)์˜ ์œ ํ˜•

    ํŠน์ • ์ƒํ™ฉ์—์„œ๋Š” ํŠน์ • ๋ฐ์ดํ„ฐ ์œ ํ˜•์ด ํ•„์š”ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋ฐ์ดํ„ฐ ๋ถ„์„์— ๋”์šฑ ์ค‘์š”

    ๋ถ„์„๊ฐ€๊ฐ€ ๋ฐ์ดํ„ฐ ๋ถ„์„์„ ์œ„ํ•œ ์˜ฌ๋ฐ”๋ฅธ ๋ฐฉ๋ฒ•์„ ์„ ํƒํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋จ

    qualitative(์ •์„ฑ์ )๊ณผ quantitative(์ •๋Ÿ‰์ )์œผ๋กœ ๋ถ„๋ฅ˜๋จ

    qualitative(์ •์„ฑ์ ) - ์ฃผ๊ด€์ ์œผ๋กœ ๊ด€์ฐฐํ•  ์ˆ˜ ์žˆ๋Š” ํŠน์ง•๊ณผ descriptor์„ ๋‹ค๋ฃธ (nominal, ordinal, binary)

    quantitative(์ •๋Ÿ‰์ ) - ์ˆซ์ž, ๊ฐ๊ด€์ ์œผ๋กœ ์ธก์ •ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ ๋‹ค๋ฃธ (์ˆซ์žํ˜•, ์ด์‚ฐํ˜•, ์—ฐ์†ํ˜•)

    qualitative - Nominal ๋ช…๋ชฉํ˜•

    ๊ฐ’์ด ๊ธฐํ˜ธ ๋˜๋Š” ์•„์ดํ…œ์˜ ์ด๋ฆ„์ด ๋  ์ˆ˜ ์žˆ์Œ

    ๊ฐ’์€ ๋ฒ”์ฃผํ˜•์ด๊ณ  ์ˆœ์„œ๊ฐ€ ์—†์Œ

        ๋ธŒ๋žœ๋“œ ์ด๋ฆ„, ์šฐํŽธ๋ฒˆํ˜ธ, ์ฃผ, ์„ฑ๋ณ„, ๊ฒฐํ˜ผ ์—ฌ๋ถ€ ๋“ฑ

        ํ‰๊ท ๊ณผ ์ค‘์•™๊ฐ’์„ ์ฐพ๋Š” ๊ฒƒ์€ ์˜๋ฏธ ์—†์Œ

        ๋ฐ์ดํ„ฐ ๋ถ„์„๊ฐ€๋Š” ๊ฐ€์žฅ ์ž์ฃผ ๋ฐœ์ƒํ•˜๋Š” ๊ฐ’์ธ ์ตœ๋นˆ๊ฐ’(mode) ๊ณ„์‚ฐ ๊ฐ€๋Šฅ

    qualitative - Ordinal ์ˆœ์„œํ˜•

    ์˜๋ฏธ ์žˆ๋Š” ์ˆœ์„œ๋‚˜ ์ˆœ์œ„๋ฅผ ๊ฐ€์ง„ ์ด๋ฆ„์ด๋‚˜ ๋ผ๋ฒจ ์žˆ์œผ๋‚˜ ๊ฐ’์˜ ํฌ๊ธฐ๋Š” ๋ชจ๋ฆ„

         ๊ณ ๊ฐ ๋งŒ์กฑ๋„ ํ‰๊ฐ€, ์ œํ’ˆ ํ‰๊ฐ€, ์˜ํ™” ํ‰๊ฐ€ ๋“ฑ

         1. ๋งค์šฐ ๋ถˆ๋งŒ์กฑ / 2. ๋‹ค์†Œ ๋ถˆ๋งŒ์กฑ / 3. ๋ณดํ†ต / 4. ๋งŒ์กฑ / 5. ๋งค์šฐ ๋งŒ์กฑ

    ๋ชจ๋“œ, ์ค‘์•™๊ฐ’ ์ธก์ • ๊ฐ€๋Šฅ

    ์ˆœ์„œ ์‚ฌ์ด์— ๊ณผํ•™์ , ์ˆ˜ํ•™์  ์ฆ๊ฑฐ ์—†๋Š” ๊ฒฝ์šฐ ํ‰๊ท  ์ธก์ • ์‹œ ์ฃผ์˜

        Aํ•™์ ์„ ๋ฐ›์€ ํ•™์ƒ์ด Bํ•™์ ์„ ๋ฐ›์€ ํ•™์ƒ๋ณด๋‹ค ๋‘ ๋ฐฐ ๋” ๋˜‘๋˜‘ํ•œ ๊ฒƒ์€ ์•„๋‹˜

    qualitative - Binary ์ด์ง„ํ˜•

    ๋‘ ๊ฐ€์ง€ ๊ฐ’, ์ƒํƒœ๋งŒ ๊ฐ€์ง

    Symmetric ๋Œ€์นญ: ๋‘ ๊ฐ’์ด ๋˜‘๊ฐ™์ด ์ค‘์š” ex) ์„ฑ๋ณ„

    Asymmetric ๋น„๋Œ€์นญ: ๋‘ ๊ฐ’์ด ๋˜‘๊ฐ™์ด ์ค‘์š”ํ•˜์ง€ ์•Š์Œ ex) ์ง„๋‹จ, ๊ฒ€์‚ฌ ๊ฒฐ๊ณผ

    quantitative - Numeric ์ˆซ์žํ˜•

    ์ •์ˆ˜, ์‹ค์ˆ˜ ๊ฐ’์œผ๋กœ ํ‘œํ˜„๋˜๋Š” ์ธก์ • ๊ฐ€๋Šฅํ•œ ์–‘

    interval-scaled ๊ฐ„๊ฒฉ ์Šค์ผ€์ผ:

        ๋™์ผํ•œ ํฌ๊ธฐ์˜ ๋‹จ์œ„๋กœ ์ •๋ ฌ๋œ ์ฒ™๋„๋กœ ์ธก์ •๋˜์ง€๋งŒ ์‹ค์ œ 0์€ ์—†์Œ ex) ๋‚ ์งœ, ์˜จ๋„

        ๊ณฑ์…ˆ ๋‚˜๋ˆ—์…ˆ ๋ถˆ๊ฐ€๋Šฅ

    ratio-scaled ๋น„์œจ์— ๋”ฐ๋ผ ์กฐ์ •:

        ๋™์ผํ•œ ํฌ๊ธฐ์˜ ๋‹จ์œ„๋กœ ์ •๋ ฌ๋œ ์ฒ™๋„๋กœ ์ธก์ •๋˜๋ฉฐ ๋ณธ์งˆ์ €๊ธ๋กœ 0์ ์„ ๊ฐ–๋Š” ์ฒ™๋„์™€ ์œ ์‚ฌ

        ex) ํ‚ค, ๋ชธ๋ฌด๊ฒŒ, ๊ฒฝ๋ ฅ, ์ผˆ๋นˆ ์˜จ๋„

    quantitative - Discrete ์ด์‚ฐํ˜•

    ์…€ ์ˆ˜ ์žˆ๋Š” ์œ ํ•œํ•œ ์ˆ˜(์ •์ˆ˜๊ฐ’)๋งŒ ํ—ˆ์šฉ

    ์ˆซ์ž๋ฅผ ์„ธ์–ด ์–ป์„ ์ˆ˜ ์žˆ์Œ

    ๋ถ„์ˆ˜๊ฐ€ ์•„๋‹Œ ๊ฐ’ ํ—ˆ์šฉ

    quantitative - Continuous ์—ฐ์†ํ˜•

    ๋ฌดํ•œํ•œ ์ˆ˜์˜ ๊ฐ€๋Šฅํ•œ ๊ฐ’(์‹ค์ˆ˜๊ฐ’) ํ—ˆ์šฉ

    ์ธก์ • ํ†ตํ•ด ์–ป์„ ์ˆ˜ ์žˆ์Œ

    ๋ถ„์ˆ˜๋กœ ํ‘œํ˜„ ๊ฐ€๋Šฅํ•œ ๊ฐ’ ํ—ˆ์šฉ

    2. Statistics in Data (2) Decriptive Statistics

    Descriptive Statistics ๊ธฐ์ˆ  ํ†ต๊ณ„

    ์—ฐ๊ตฌ์—์„œ ๋ฐ์ดํ„ฐ์˜ ๊ธฐ๋ณธ์ ์ธ ํŠน์ง• ์„ค๋ช… ์‹œ ์‚ฌ์šฉ

    ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ๊ฐ„๋‹จํ•œ ์š”์•ฝ ์ œ๊ณต

    ๋‹จ์ผ ์†์„ฑ์—๋Š” ์„ธ ๊ฐ€์ง€ ์ฃผ์š”ํ•œ ์†์„ฑ์ด ์žˆ์Œ

       ์ค‘์‹ฌ ๊ฒฝํ–ฅ, ๋ถ„์‚ฐ, ๋ถ„ํฌ(skewness, kurtosis)

    Central Tendency ์ค‘์•™ ๊ฒฝํ–ฅ

    ๊ฐ’๋“ค์ด ํ‰๊ท  ์ฃผ๋ณ€์œผ๋กœ ํด๋Ÿฌ์ŠคํŒ…๋˜๋Š” ๊ฒฝํ–ฅ

    ํ‰๊ท , ์ตœ๋นˆ๊ฐ’(mode), ์ค‘์•™๊ฐ’ ๋“ฑ

    ์ค‘์•™ ๊ฒฝํ–ฅ์˜ ์ฃผ์š” ๋ชฉ์ ์€ ๊ด€์ฐฐ์น˜์˜ ์ค‘์‹ฌ ์„ ๋„ ๊ฐ’์„ ๊ณ„์‚ฐํ•˜๋Š” ๊ฒƒ

    ์„ค๋ช…์  ์šฉ์•ฝ์„ ๊ฒฐ์ •ํ•˜๊ณ  ๊ด€์ฐฐ ๊ทธ๋ฃน์— ๋Œ€ํ•œ ์ •๋Ÿ‰์  ์ •๋ณด ์ œ๊ณต

    Mean ํ‰๊ท 

    ์‚ฐ์ˆ  ํ‰๊ท  ๋˜๋Š” ํ‰๊ท 

    ๊ด€์ธก์น˜์˜ ํ•ฉ์„ ๊ด€์ธก์น˜์˜ ๊ฐœ์ˆ˜๋กœ ๋‚˜๋ˆ„์–ด ๊ณ„์‚ฐ

    ์ด์ƒ์น˜์™€ ๋…ธ์ด์ฆˆ์— ๋ฏผ๊ฐํ•จ

    Median ์ค‘์•™๊ฐ’

    ๊ด€์ฐฐ์น˜ ๊ทธ๋ฃน์˜ ์ค‘๊ฐ„์  ๋˜๋Š” ์ค‘๊ฐ„๊ฐ’

    ํ‰๊ท ๋ณด๋‹ค ์ด์ƒ์น˜์™€ ๋…ธ์ด์ฆˆ์˜ ์˜ํ–ฅ์„ ๋œ ๋ฐ›์Œ -> ํ†ต๊ณ„์  ์ธก์ •์— ๋” ์ ํ•ฉํ•จ

    ์ผ๋ฐ˜์ ์ธ ์ค‘์•™๊ฐ’์— ๋งค์šฐ ๊ฐ€๊นŒ์›€

    Mode ์ตœ๋นˆ๊ฐ’

    ๊ด€์ฐฐ ๊ทธ๋ฃน์—์„œ ๊ฐ€์žฅ ๋งŽ์ด ๋ฐœ์ƒํ•˜๋Š”(์ž์ฃผ ์‚ฌ์šฉ๋˜๋Š”) ํ•ญ๋ชฉ

    ์ด์ƒ์น˜์™€ ๋…ธ์ด์ฆˆ๋ฅผ ๋ฌด์‹œ

    ๋‘ ๊ฐœ ์ด์ƒ์˜ ๊ฐ’์ด ๋™์ผํ•œ ๋ฐœ์ƒ ๋นˆ๋„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ์Œ

    Dispersion ํผ์ง ์ •๋„

    ์ค‘์‹ฌ ๊ฒฝํ–ฅ์€ ๊ด€์ฐฐ์น˜ ๊ทธ๋ฃน์˜ ์ค‘๊ฐ„๊ฐ’์„ ๋‚˜ํƒ€๋‚ด์ง€๋งŒ ๊ด€์ฐฐ์น˜์˜ ์ „๋ฐ˜์ ์ธ ๊ทธ๋ฆผ์„ ์ œ๊ณตํ•˜์ง€๋Š” ์•Š์Œ

    ๊ด€์ฐฐ์˜ ๋ณ€๋™์„ฑ, ๊ด€์ฐฐ์˜ ํ™•์‚ฐ์„ ๋‚˜ํƒ€๋‚ด๋Š” ์ง€ํ‘œ

    ex) ๋ฒ”์œ„, ์‚ฌ๋ถ„์œ„ ๋ฒ”์œ„(IQR), ๋ถ„์‚ฐ, ํ‘œ์ค€ํŽธ์ฐจ

    Range ๋ฒ”์œ„

    ๊ด€์ฐฐ๊ฐ’์˜ ์ตœ๋Œ€๊ฐ’๊ณผ ์ตœ์†Œ๊ฐ’์˜ ์ฐจ์ด

    ๊ณ„์‚ฐํ•˜๊ธฐ ์‰ฝ๊ณ  ์ดํ•ดํ•˜๊ธฐ ์‰ฌ์›€

    ๋‹จ์œ„๋Š” ๊ด€์ธก์น˜์˜ ๋‹จ์œ„์™€ ๋™์ผ

    Interquartile Range (IQR) ์‚ฌ๋ถ„์œ„ ๋ฒ”์œ„

    ์ œ3์‚ฌ๋ถ„์œ„์ˆ˜์™€ ์ œ1์‚ฌ๋ถ„์œ„์ˆ˜์˜ ์ฐจ์ด

    ๋Œ€๋ถ€๋ถ„์˜ ๊ด€์ฐฐ๊ฐ’์ด ์—ฌ๊ธฐ์— ์žˆ์Œ

    ๊ด€์ฐฐ์น˜์˜ ์ค‘์•™ 50%๋ฅผ ์ธก์ •

    midspread / middle 50%, H-spread

    Variance ๋ถ„์‚ฐ

    ํ‰๊ท ์œผ๋กœ๋ถ€ํ„ฐ์˜ ํŽธ์ฐจ ์ธก์ •

    ๊ฐ’์ด ๋‚ฎ์„์ˆ˜๋ก ๊ด€์ฐฐ ๊ฒฐ๊ณผ๊ฐ€ ๋œ ๋„“๊ฒŒ ํผ์ ธ ์žˆ์Œ์„ ์˜๋ฏธ

    ๊ด€์ฐฐ๊ฐ’๊ณผ ํ‰๊ท ์˜ ์ฐจ์ด๋ฅผ ์ œ๊ณฑํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ธก์ • ๋‹จ์œ„๊ฐ€ ๋‹ค๋ฆ„

    Standard Deviation ํ‘œ์ค€ํŽธ์ฐจ

    ๋ถ„์‚ฐ์˜ ์ œ๊ณฑ๊ทผ

    ๋ถ„์„๊ฐ€๊ฐ€ ํ‰๊ท ๊ณผ์˜ ์ •ํ™•ํ•œ ํŽธ์ฐจ๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ์„ ๋” ์‰ฝ๊ฒŒ ํ•ด์คŒ

    Skewness ๋น„๋Œ€์นญ์„ฑ

    ๋ถ„ํฌ์˜ ๋Œ€์นญ์„ฑ ์ธก์ •

    ๋ถ„ํฌ๊ฐ€ ์ •๊ทœ๋ถ„ํฌ๋กœ๋ถ€ํ„ฐ ์–ผ๋งˆ๋‚˜ ๋ฒ—์–ด๋‚ฌ๋Š”์ง€ ๋ณด์—ฌ์คŒ

    Skewness ์ธก์ •ํ•˜๋Š” ๊ฐ€์žฅ ๊ฐ„๋‹จํ•œ ๊ฒƒ์€ ํ”ผ์„œ์€์˜ ์ฒซ ๋ฒˆ์งธ ๋น„๋Œ€์นญ์„ฑ ๊ณ„์ˆ˜

    Kurtosis ์ฒจ๋„

    ์ •๊ทœ๋ถ„ํฌ์™€ ๋น„๊ตํ•˜์—ฌ ๊ผฌ๋ฆฌ์˜ ๋‘๊ป˜ ์ธก์ •

    ๋‚ฎ์€ ์ฒจ๋„๋Š” ๊ผฌ๋ฆฌ๊ฐ€ ๋‘๊บผ์›Œ์„œ ๊ด€์ฐฐ์น˜์— ์ด์ƒ์น˜๊ฐ€ ๋” ๋งŽ์ด ์กด์žฌํ•จ์„ ์˜๋ฏธ

    2. Statistics in Data (3) Relationships between Attributes

    ์†์„ฑ ๊ฐ„์˜ ๊ด€๊ณ„

    ๋ณ€์ˆ˜ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ์ธก์ •ํ•˜๋ฉด ๋ฐ์ดํ„ฐ ๋ถ„์„๊ฐ€๊ฐ€ ๋ณ€์ˆ˜ ๊ฐ„์˜ ์—ญํ•™ ์ดํ•ดํ•˜๋Š” ๋ฐ ๋„์›€๋จ

    Covariance ๊ณต๋ถ„์‚ฐ

    ๋‘ ๋ณ€์ˆ˜ ๊ฐ„์˜ ๊ด€๊ณ„ ์ธก์ •

    ํ•œ ๋ณ€์ˆ˜์˜ ๋ณ€ํ™”๊ฐ€ ๋‹ค๋ฅธ ๋ณ€์ˆ˜์— ์–ด๋–ป๊ฒŒ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€, ๋ณ€์ˆ˜์˜ ๋ณ€ํ™” ์ •๋„๋ฅผ ๋ณด์—ฌ์คŒ

    ๊ฐ’์˜ ๋ฒ”์œ„๋Š” -๋ฌดํ•œ๋Œ€ ~ + ๋ฌดํ•œ๋Œ€

        ํšจ๊ณผ์ ์ธ ๊ฒฐ๋ก  ์ œ๊ณตํ•˜์ง€ ์•Š์Œ

        ์ •๊ทœํ™”๋˜์ง€ ์•Š๊ณ  ๋‹จ์œ„์— ๋”ฐ๋ผ ์˜ํ–ฅ ๋ฐ›์Œ

    Correlation - Pearson ์ƒ๊ด€๊ด€๊ณ„ - ํ”ผ์–ด์Šจ

    ๊ฐ ๋ณ€์ˆ˜๊ฐ€ ์–ด๋–ป๊ฒŒ ์„ ํ˜•์ ์œผ๋กœ ์ƒ๊ด€๊ด€๊ณ„ ๊ฐ–๋Š”์ง€ ๋ณด์—ฌ์คŒ

    ๊ฐ’์˜ ๋ฒ”์œ„๋Š” -1 ~ +1

        ๊ณต๋ถ„์‚ฐ๋ณด๋‹ค ๋” ๋‚˜์€ ์ดํ•ด๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ ๊ณต๋ถ„์‚ฐ์˜ ์ •๊ทœํ™”๋œ ๋ฒ„์ „

    2. Statistics in Data (4) Statistical Hypothesis Test

    Statistical Hypothesis Test ํ†ต๊ณ„์  ๊ฐ€์„ค ๊ฒ€์ •

    ๊ฐ€์„ค์€ ์ถ”๋ก ์— ์˜ํ•œ ํ†ต๊ณ„์˜ ์ฃผ์š” ํ•ต์‹ฌ ์ฃผ์ œ

    ํ†ต๊ณ„์—์„œ ๋ถ„์„๊ฐ€๊ฐ€ ๊ฐ€์ •์„ ๊ฒ€์ฆํ•˜๋Š” ํ–‰์œ„

    ๋‘ ๊ฐ€์ง€ ์œ ํ˜•์˜ ๊ฐ€์„ค

    ๊ท€๋ฌด๊ฐ€์„ค (Null Hypothesis, H0) - ํ…Œ์ŠคํŠธ๋˜์–ด์•ผ ํ•˜๋Š” ๊ฐ€์„ค

    ๋Œ€์กฐ๊ฐ€์„ค (Alternative Hypothesis, HA) - H0์ด ๊ฑฐ์ง“์ผ ๋•Œ ๋ฐ›์•„๋“ค์—ฌ์ง€๋Š” ๊ฐ€์„ค

    P-Value

    ๊ท€๋ฌด๊ฐ€์„ค์„ ๊ฑฐ๋ถ€ํ•  ์ฆ๊ฑฐ๊ฐ€ ์žˆ๋Š”์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•œ ํ™•๋ฅ (๋˜๋Š” ์‹ ๋ขฐ๋„)

    ์œ ์˜์ˆ˜์ค€์€ ๊ท€๋ฌด๊ฐ€์„ค์„ ๊ธฐ๊ฐํ•˜๊ธฐ ์œ„ํ•ด p๊ฐ’์ด ์–ผ๋งˆ๋‚˜ ์ž‘์•„์•ผ ํ•˜๋Š”์ง€๋ฅผ ๊ฒฐ์ •ํ•˜๊ธฐ ์œ„ํ•ด ๋ฏธ๋ฆฌ ๋ช…์‹œ๋จ

    ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” p ๊ฐ’์€ 0.05 ๋˜๋Š” 0.01

    ๋งค๊ฐœ๋ณ€์ˆ˜ ํ…Œ์ŠคํŠธ

    ํ‘œ๋ณธ์ด ์ถ”์ถœ๋œ ๋ชจ์ง‘๋‹จ ๋ถ„ํฌ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ๊ฐ€์ •์„ ํ•˜๋Š” ๊ฒƒ

    ๋งค๊ฐœ๋ณ€์ˆ˜๋Š” ์ „์ฒด๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ˆซ์ž์  ์–‘ ex) ํ‰๊ท , ๋ถ„์‚ฐ

    ์ •๋Ÿ‰์ ์ด๊ณ  ์—ฐ์†์ ์ธ ๋ฐ์ดํ„ฐ์˜ ํ…Œ์ŠคํŠธ์— ์‚ฌ์šฉ๋จ

    ๋น„๋งค๊ฐœ๋ณ€์ˆ˜ ํ…Œ์ŠคํŠธ๋ณด๋‹ค ๋” ๊ฐ•๋ ฅํ•˜๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ์Œ

    t-test

    ํ‰๊ท  ๊ฐ„์— ์œ ์˜๋ฏธํ•œ ์ฐจ์ด๊ฐ€ ์žˆ๋Š”์ง€ ํ™•์ธํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋Š” ์ผ์ข…์˜ ๋งค๊ฐœ๋ณ€์ˆ˜ ํ…Œ์ŠคํŠธ

    ๊ฐ€์žฅ ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋Š” ์ถ”๋ก  ํ†ต๊ณ„๋Ÿ‰

    t-test์—๋Š” ์„ธ ๊ฐ€์ง€ ํƒ€์ž…์ด ์žˆ์Œ

        One sample t-test / Independent samples / Paired samples t-test

    One-sample t-test ๋‹จ์ผํ‘œ๋ณธ t ๊ฒ€์ •

    ํ‘œ๋ณธ ํ‰๊ท ๊ณผ ๊ฐ€์ •๋œ ๋ชจ์ง‘๋‹จ ํ‰๊ท  ์‚ฌ์ด์— ์œ ์˜๋ฏธํ•œ ์ฐจ์ด๊ฐ€ ์žˆ๋Š”์ง€ ํ™•์ธํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ

    Two-sample t-test 2-ํ‘œ๋ณธ t ๊ฒ€์ •

    ๋‘ ๋…๋ฆฝ ์ง‘๋‹จ ๊ฐ„์˜ ์œ ์˜๋ฏธํ•œ ์ฐจ์ด ๋น„๊ตํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ

    ๋…๋ฆฝ ํ‘œ๋ณธ t ๊ฒ€์ •

    Paired(related) sample t-test ๋Œ€์‘ํ‘œ๋ณธ t ๊ฒ€์ •

    ๋™์ผ ๊ทธ๋ฃน์˜ ๋‘ ๊ด€์ฐฐ์น˜ ์‚ฌ์ด์˜ ํ‰๊ท  ์ฐจ์ด๊ฐ€ ์žˆ๋Š”์ง€ ์—ฌ๋ถ€ ๊ฒฐ์ •

    ์ข…์† ์ƒ˜ํ”Œ t ๊ฒ€์ •

    Non-parametric Tests ๋น„๋งค๊ฐœ๋ณ€์ˆ˜ ํ…Œ์ŠคํŠธ

    ํ†ต๊ณ„์  ๋ถ„ํฌ์— ์˜์กดํ•˜์ง€ ์•Š์Œ

    ๋ถ„ํฌ ์—†๋Š” ๊ฐ€์„ค ๊ฒ€์ •์œผ๋กœ ์•Œ๋ ค์ ธ ์žˆ์Œ

    ๋ชจ์ง‘๋‹จ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ์—†์Œ

    ๊ด€์ฐฐ ์ˆœ์„œ์™€ ์ˆœ์œ„ ๊ฒฐ์ • ์‹œ ์‚ฌ์šฉ

    Mann-Whitney U Test

    ๋‘ ํ‘œ๋ณธ์— ๋Œ€ํ•œ t ๊ฒ€์ •์˜ ๋น„๋งค๊ฐœ๋ณ€์ˆ˜ ๋Œ€์‘๋ฌผ

    ๊ด€์ฐฐ ๊ฒฐ๊ณผ๊ฐ€ ์ˆœ์„œํ˜•์ผ ๋•Œ ์‚ฌ์šฉ

    ์ฐจ์ด๊ฐ€ ์ •๊ทœ๋ถ„ํฌ๋ผ๊ณ  ๊ฐ€์ •ํ•˜์ง€ ์•Š์Œ

Designed by Tistory.