[혼공데분] 1주차_데이터 분석을 시작하며

2024. 1. 7. 18:59

▶ 요약

● 데이터 과학 vs 데이터 분석

- 데이터 분석은 데이터 과학에 포함되는 one of them

- 데이터 과학 = 데이터 분석 + 머신 러닝

● '데이터 분석'의 정의
- 광의적 정의 : 데이터 수집/처리/정제 및 모델링을 포함한 전체 영역
- 협의적 정의 : 기술통계, 탐색적 데이터 분석, 가설 검정

● 이번 공부에서 사용하는 Python Package

- Numpy
- pandas
- matplotlib
- SciPy
- scikit-learn

● 데이터 파일 확보하기

- 이번 공부에서는 '도서관별로 공개된 장서/대출 데이터'를 사용

. https://www.data4library.kr/openDataL
- 한글 데이터의 경우에는 특히 인코딩에 대한 처리가 필요할 수 있음

● pandas dataframe
- 하나의 행은 여러 데이터 타입의 열을 갖을 수 있다.
- 하나의 열은 한 종류의 데이터타입으로만 구성된다.

▶ 기본 미션

p. 81의 확인 문제 4번 풀고 인증하기

4. 판다스 read_csv() 함수의 매개변수 설명이 옳은 것은 무엇인가요?

① header 매개변수의 기본값은 1로 CSV 파일의 첫 번째 행을 열 이름으로 사용합니다.

② names 매개변수에 행 이름을 리스트로 지정할 수 있습니다.

③ encoding 매개변수에 CSV 파일의 인코딩 방식을 지정할 수 있습니다.

④ dtype 매개변수를 사용하려면 모든 열의 데이터 타입을 지정해야 합니다.

매뉴얼을 찾아보자.

[출처] https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

① header 매개변수의 기본값은 1로 CSV 파일의 첫 번째 행을 열 이름으로 사용합니다. (X)

header 매개변수의 기본값은 "infer"이고, 자동으로 header를 추론하게 된다.

header가 없는 경우 "None"으로 명시해줘야 한다.

② names 매개변수에 행 이름을 리스트로 지정할 수 있습니다. (X)

names 매개변수는 column 이름을 지정하기 위한 것이다.

③ encoding 매개변수에 CSV 파일의 인코딩 방식을 지정할 수 있습니다. (O)

④ dtype 매개변수를 사용하려면 모든 열의 데이터 타입을 지정해야 합니다.

전체 dataset의 데이터 타입을 지정할 수도 있지만, 개별 column의 데이터 타입을 지정할 수도 있다.

▶ 선택 미션

p. 71 ~ 73 남산 도서관 데이터를 코랩에서 데이터프레임으로 출력하고 화면 캡처하기

→ 다음 순서대로 진행해보겠다.

① 도서관 데이터 다운로드 받기

② 구글 드라이브에 업로드 하기

③ Colab 실행해서 코드 작성하기

차근 차근 진행해보자.

① 도서관 데이터 다운로드 받기

- https://www.data4library.kr/

상단 탭 메뉴에서 "데이터 제공"을 선택하고 받고자 하는 도서관을 선택해보자.

나는 ... 우리 동네 도서관을 골라봤다 ^^

"도서관명"을 클릭하면 상세 화면이 나온다.

하단에 있는 리스트 중에서 마음에 드는 것을 하나 고르고,

다운로드에서 "Text"를 선택하면 CSV 파일을 다운로드 받을 수 있다.

② 구글 드라이브에 업로드 하기

구글 드라이브에 들어가서 이번 공부에서 사용할 폴더를 하나 새로 만들자.

앞에서 다운로드 받은 파일을 업로드 하자.

③ Colab 실행해서 코드 작성하기

이번 공부를 위한 새 노트를 하나 만들자.

교재를 보면 'gdown' 패키지를 통해서 구글 드라이브에 있는 파일을 다운로드 받을 수 있다고 하는데,

내가 멍청해서인지.... 성공하지 못했다.

이유는 아마도 인증 관련해서 처리가 안되어서인 것 같은데,

구글 드라이브에 있는 파일을 누구나 다운로드 받을 수 있도록(인증 없이 다운로드 되도록)

권한을 처리해주면 될 것 같기는 하지만.... 여하튼, 그냥 사용하기에는 이슈가 있었다.

하지만, 우리의 Colab은 구글 드라이브를 편하게 사용할 수 있도록 기능을 제공해준다!!!

왼쪽 위의 저 메뉴를 누르면 된다.

Google Drive 연결을 진행하면 된다.

drive라는 폴더에 Google Drive가 마운트 되어있는 것을 확인할 수 있다.

우리는 이제 그냥 사용하면 된다.

파일 경로를 일일이 타이핑하려면 힘드니까 편하게 복사하자.

이번 숙제의 소스코드는 정말 심플하다.

실행 결과는 다음과 같다.

이번 공부는 여기까지~

저작자표시 비영리 변경금지 (새창열림)

'Books' 카테고리의 다른 글

[혼공데분] 3주차_데이터 정제하기 (1)	2024.01.21
[혼공데분] 2주차_데이터 수집하기 (2)	2024.01.16
[혼공학습단 11기] 혼자 공부하는 데이터 분석 with 파이썬 (0)	2023.12.27
[디코딩] 챗GPT 개발자 핸드북 (0)	2023.08.28
[정보문화사] 파이썬과 엑셀로 시작하는 딥러닝 (0)	2023.08.01

머가필요해