4주차 교육일지: SQL / Numpy, Pandas

국비지원교육/교육일지

민서타 2023. 8. 12. 12:09

1. 모델링: 복잡한 현실세계를 단순화 시켜 포현하는 것, 현실세계를 추상화, 단순화, 명확화 하여 데이터 모델로 표현

2. 모델링의 3가지 관점

3. 데이터 모델이 제공하는 기능: 가시화, 명세화, 구조화된 틀 제공, 문서화, 다양한 관점 제공, 구체화된 표현방법

4. 프로젝트 생명주기에서의 데이터 모델링: 정보전략계획->분석->설계->개발->테스트->전환/이행

5. 데이터 모델링의 3 요소

6. 정규화

7. 함수적 종속성: 데이터들이 어떤 기준값에 의해 종속되는 현상, 기준값을 결정자, 종속값을 종속자

8. 반정규화: 정규화된 엔터티, 속성, 관게에 대해 성능향상 등을 위해 중복, 통합, 분리 등을 수행하는 모델링 기법

Numpy 대표 명령어

Universial function(unfunc): ndarray 안에 있는 데이터 원소 별로 연산을 수행하는 함수

(다른 함수에 약간의 기능을 덧씌워 사용하는 래퍼함수와 비슷)

Pandas 대표 명령어

read_excel('경로명', sheet_name) # sheet_name None으로 설정 후 df.values() 키값 시트 이름, 벨류로 concat 가능
df.sort_values(by = '기준', ascending=False) #오름차순 내림차순 기준 설정
df.rename(columns = { 'k' : 'key'}) #열 이름 변경
df. sort_index, df.reset_index #인덱스 정렬 또는 초기화
df.loc['행 인덱스', '열 인덱스'] # 값 기준 검색, 논리형 bool값을 통한 비교 연산자값 확인 가능
df.iloc['인덱스 번호', '인덱스 번호'] # 인덱스 값 기준 검색
df.groupby(by = 'col')
concat과 merge 차이: concat(단순히 행 또는 열을 붙임), merge(엑셀의 vlookup처럼 특정 조건 기준 붙이기 가능)
pd.concat([df1, df2], axis= 0 or 1) #axis = 0 기본값, 밑에 붙임 / axis = 1 옆에 붙임
pd.merge(left_df, right_df, how = 'left', on = '열 이름') # how(left, right, inner, outer) 왼쪽, 오른쪽 기준, 교집합, 합집합
df.dropna(), df.fillna() # NA값 버리기, 채우기, inplace = TRUE 설정해야 원 데이터 반영
pd.pivot_table(index = '행 위치 열', columns = '열 위치 열', values = '데이터로 사용할 열', aggfunc = '집계함수')
pd.read_html('경로명', match = '.+', header= None, index_col = None) #
pd.mask(bool조건식, True일 때 반환값)
pd.cut(x(구간을 나눌 배열, 1차원), bins(정수, 순서의 배열), right(우측 경계를 포함할 지 여부), labels(왼쪽부터 이름))

6주차 교육일지: 코딩 테스트 주요 개념, Git 설정, 마크다운 (0)	2023.09.11
5주차 교육일지: Pandas feature engineering (0)	2023.08.21
3주차 교육일지: 파이썬 기초, 선형대수, 웹크롤링 (0)	2023.07.31
2주차 교육일지: 파이썬 기초, 선형대수, 웹 크롤링 (0)	2023.07.24
1주차: 통계학 기초이론 및 선형대수, 보스턴 데이터분석 (0)	2023.07.21

패스트캠퍼스, 민서타, 부트캠프, LLM, 티스토리챌린지, nlp, sql, AI, 오블완, 태블로, DS, 국비지원, 딥러닝, It, 머신러닝, 민스타, DA, 추천시스템, 데이터분석, 인공지능,

민서타의 데이터 분석 연구일지