첫 주는 조금 여유로울줄 알았는데, 공부할게 많다.
02-1. 훈련 세트와 테스트 세트
확인 문제를 통해 이 부분을 공부해보자.
1. 머신러닝 알고리즘의 한 종유로서 샘플의 입력과 타깃(정답)을 알고 있을 때 사용할 수 있는 학습방법은 무엇인가요?
- 머신러닝은 크게 지도학습과 비지도학습으로 구분할 수 있고, 정답을 알고 있는 경우 지도학습을 적용한다.
→ ① 지도학습
2. 훈련 세트와 테스트 세트가 잘못 만들어져 전체 데이터를 대표하지 못하는 현상을 무엇이라고 부르나요?
- 훈련 세트와 테스트 세트를 만들 때 전체적인 데이터 분포를 유지하는 것이 중요하며 그렇지 못한 경우 편향을 보인다.
→ ④ 샘플링 편향
3. 사이킷런은 입력 데이터(배열)가 어떻게 구성되어 있을 것으로 기대하나요?
- 문제 해석이 조금 오해의 여지가 있어 보이지만, 특성은 열(column)로 나열되어 있고 데이터의 구분은 행으로 된다.
→ ② 행: 샘플, 열: 특성
02-2. 데이터 전처리
이 책은 초보자를 위한 수준은 아닌 것 같고, 기본 지식이 좀 있어야 따라갈만한 것 같다.
어쩐지 처음 이 책으로 공부할 때 왠지 자괴감이 좀 들더라니..... ㅠㅠ
분산 = 기대값(평균)으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자
표준편차 = 분산의 제곱근
표준화(Standardization) = 평균을 0, 분산을 1로 만들어주는 스케일링 기법 (Z-Score 활용)
기본이 될만한 것들을 같이 정리하면서 공부해봐야겠다.
반응형
'Books' 카테고리의 다른 글
[혼공머신] 3주차 - CH04. 다양한 분류 알고리즘 (0) | 2024.07.22 |
---|---|
[혼공머신] 2주차 - CH03. 회귀 알고리즘과 모델 규제 (0) | 2024.07.14 |
[혼공머신] 1주차 - CH01. 나의 첫 머신러닝 (0) | 2024.07.07 |
[혼공데분] 6주차_복잡한 데이터 표현하기 (0) | 2024.02.09 |
[혼공데분] 5주차_데이터 시각화하기 (0) | 2024.02.01 |