Peer Session Badge

1. 강의 듣기

1. 범주형 데이터

1.1 범주형 데이터의 정의

범주형 데이터는 명확하게 구분되는 그룹이나 카테고리를 나타내며, 두 가지 유형으로 나눌 수 있습니다:

  • 명목형 데이터: 순서와 상관없이 항목으로 구분되는 데이터
    • 예: 성별, 국가, 과일 종류 등
  • 순서형 데이터: 순서가 존재하는 데이터
    • 예: 리커트 척도, 영화 별점

1.2 대푯값

대푯값은 데이터 집단의 특성을 대표하는 값으로, 여러 가지 방법으로 계산할 수 있습니다:

  • 평균: 모든 값을 합한 후 개수로 나눈 값
  • 최빈값: 가장 많이 나타나는 값
  • 중앙값: 정렬된 데이터의 중앙에 위치한 값

1.3 대푯값 예시

import pandas as pd

# 데이터프레임 생성
data = {'과일': ['사과', '포도', '귤', '사과', '사과', '포도']}
df = pd.DataFrame(data)

# 최빈값 계산
mode_value = df['과일'].mode()[0]
print("최빈값:", mode_value)

2. 명목형 데이터 전처리

2.1 Label Encoding

명목형 데이터를 수치형으로 변환하는 가장 기본적인 방법입니다.

from sklearn.preprocessing import OrdinalEncoder

data = [['한국', '여자'], ['한국', '남자'], ['중국', '여자']]
encoder = OrdinalEncoder()
encoded_data = encoder.fit_transform(data)
print(encoded_data)

2.2 One-Hot Encoding

순서 정보가 없는 경우 사용하는 방법입니다.

from sklearn.preprocessing import OneHotEncoder

data = [['한국'], ['일본'], ['중국']]
encoder = OneHotEncoder()
encoded_data = encoder.fit_transform(data).toarray()
print(encoded_data)

3. 순서형 데이터

3.1 순서형 데이터의 인코딩

순서형 데이터는 명목형 데이터의 인코딩 방법을 그대로 사용할 수 있습니다.

from sklearn.preprocessing import OrdinalEncoder

data = [['매우 나쁨'], ['나쁨'], ['좋음'], ['매우 좋음']]
encoder = OrdinalEncoder()
encoded_data = encoder.fit_transform(data)
print(encoded_data)

4. 순환형 데이터

4.1 순환형 데이터의 처리

순환형 데이터는 월, 요일, 각도와 같이 주기적으로 반복되는 데이터를 의미하며, 삼각 함수 등을 사용해 처리할 수 있습니다.

import numpy as np

# 예시: 월 데이터
months = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12])
sin_transform = np.sin(2 * np.pi * months / 12)
cos_transform = np.cos(2 * np.pi * months / 12)

print("sin 변환:", sin_transform)
print("cos 변환:", cos_transform)

2. 두런두런

데이터 사이언티스트로서 가장 중요하게 생각하시는 기술적 역량이 뭐가 있을까

기술적 역량이 크게 중요하지 않을 수도 있다. 문제 정의하는 역량, 비즈니스 모델(돈을 어떻게 버는가?) => 데이터를 활용하는 사람이 굉장히 일을 잘한다

기술적 역량: 파이썬, 프로그래밍, SQL, 머신러닝/딥러닝
=> 어느 정도 수준 이후가 되면, 회사에서도 새로운 문제가 생기고 그 때 학습해서 익혀서 제품을 만들어야 할 수도 있음

기술적인 것을 빠르게 습득하고, 효율적으로 만들 수 있을까?를 고민해보자.

Gallup 강점 분석을 어떻게 해석하고, 활용하며 스스로 적용하는 구체적인 방법

레포트를 보면서 내가 이런가? => 아닌 것도 있고 맞을 수도 있고
이걸 안 상태에서 내가 뭘 하면 이 강점을 더 키울 수 있을까?
명확하게 떠오르는 것도 있고, 아닌 것도 있음 => 명확한 것부터 하자

LLM에게 물어보자. GPT, 클로드한테 이야기하고 내가 어떤 상황이다. 뭐 해볼까?
이걸 고민하는 시간을 정기적으로 갖자