혼공학습단을 하게 되니, 일주일이 너무 빨리 지나간다.

저번 주 스터디를 한지 얼마 안된 것 같은데, 벌써 2주차 마지막 날이라니... 

 

 

정말 다행인 것은 다음 챕터가 아닌 Chapter 01 실습이라 큰 부담은 되지 않았다. 😅

 

 

▶ 기본 숙제 (필수)

Ch.01(01-3) LeNet으로 Fashion MNIST 분류 실습 후 예측 결과 화면 캡쳐하기

 

앞서 분류되어 있는 test 데이터를 가지고 실행하도록 했고,

눈으로 좀 보고 싶어서 앞의 10개 데이터는 화면에 보여주도록 했다.

 

 

 

 

▶ 추가 숙제 (선택)

예측이 틀린 이미지를 골라 "왜 틀렸을까?" 추측해보기

 

 

실제로는 "Coat"인데, "Pullover"로 예측을 한 샘플이다.

전체적으로 예측값과 실제값 사이의 matrix를 찍어보면 다음과 같다.

 

 

예측값이 틀린 경우를 보면 주로 Shirt, T-shirt/top, Pullover, Coat에서 발생한다는 것을 알 수 있다.

실제 상당히 유사한 데이터들임을 알 수 있다.

 

이를 극복하기 위한 방법을 생각해보면 다음과 같다.

- 더 많은 데이터 (Augmented 포함)

- 28x28 보다 더 큰 이미지 사이즈

- 단색이 아닌 RGB 컬러 이미지 입력

 

반응형

관심 있는 책들을 가지고 혼공 활동을 열심히 했더니,

참여할만한 것들이 없어서 쉬었던 혼공학습단 활동을 간만에 하게 되었다.

 

바로 이 책이 나왔기 때문이다.

- https://www.whatwant.com/entry/honman-deep

 

그래서, 이번 혼공학습단 14기에 지원하게 되었고,

기쁘게도 선정이 되었다.

 

앞으로도 계속 "만들면서" 시리즈가 나왔으면 좋겠다.

- https://hongong.hanbit.co.kr/

 

혼공시리즈이기에 너무나 고맙게도 동영상을 비롯해 소스코드까지 모두 제공해준다.

- https://www.youtube.com/playlist?list=PLVsNizTWUw7F1EIzSwUiPn3PFSO-aSEHi

 

박해선님은 나를 모르겠지만,

나는 박해선님을 애정한다 !!! ^^

- https://github.com/rickiepark

 

 

이번 첫 주 공부할 거리는 다음과 같다.

 

 

▷ 기본 숙제

- 소스코드 확인하기

  . https://github.com/rickiepark/hm-dl

 

- '01-3.ipynb' 파일 확인

  . https://github.com/rickiepark/hm-dl/blob/main/01-3.ipynb

 

- 'Open in Colab' 클릭

  . 'Drive에 사본 저장'까지 진행

 

- 모두 실행

 

- LeNet-5 그리기

 

 

▷ 추가 숙제

  - 합성곱층 (Convolution Layer)

    . 이미지와 같은 2D 형식의 데이터의 특징을 추출하는 layer로써 결과물로 특성맵(feature map)을 만들어 냄

  - 풀링층 (Pooling Layer)

    . 중요한 특징은 유지하면서 이미지(데이터)의 크기를 줄이기 위한 layer로써, 평균값 또는 최댓값을 활용

  - 밀집층 (Dense Layer)

    . 결과를 도출하기 위해 이전 layer들의 feature들을 모두 1D 형태로 변환하여 처리

 

반응형

"한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다."

 

 

개발자라면 누구나 알고 있을 "혼공" 시리즈.

 

혼자서도 공부할 수 있도록 잘 만들어진 책일 뿐만 아니라,

동영상 강의도 제공해주고 샘플 코드도 제공해주는 정말 혜자와 같은 교과서들이다.

 

그런데, 이제는 "혼공"이 아니라 "혼만" 시리즈가 나오고 있다.

 

"혼자 만들면서" 시리즈 !!!

그것도, "딥러닝" !!!

거기다가, "박해선"님 !!!

 

 

5월에 출간한 따끈따끈한 책이다.

 

딥러닝은 CNN 부터 시작하는 것이 국롤이기에,

이 책 역시 '합성곱 신경망(CNN)'으로 Chapter 01 시작이다.

 

 

최근 트렌드는 LLM,

트랜스포머의 디코더 기반으로 만들어진 GPT 모델도 Chapter 05에서 알려주고 있다.

 

 

트랜스포머의 인코더와 디코더를 모두 사용하는 모델인

BART와 T5까지 마지막 챕터에서 언급해주고 있다.

 

 

이론이 아니라 직접 만들어 보면서 공부할 수 있는 책이라서 정말 마음에 들었다.

그렇다고 이론적인 내용이 없는 것도 아니다. 충분히 친절하게 이론에 대한 설명도 해주고 있다.

 

더더욱 이 책이 마음에 드는 것은 컬러 인쇄이다!!!

눈이 안아프게 빛 반사도 적은 종이 재질이다!!!

 

 

이와같은 "혼공/혼만" 시리즈 책을 정말 제대로 공부하기 위해서는

"혼공학습단"에 지원해서 맛있는 간식을 먹으며 많은 사람들과 함께 공부하는 것이다.

 

 

이번 14기 참여 기회를 놓쳤다면.... 다음 15기에 지원하면 된다 ^^

종종 있으니 꼭 기억했다가 참여하길 바란다.

 

"혼공/혼만" 시리즈 책들은 많이 있으니 관심있는 다른 책도 구매해서~~~ ^^

 

 

혼공학습단 활동을 열심히 하면 많은 것들이 생긴다 !!!

 

 

혼자 공부할 수 있는 책이지만,

혼자 하다 보면 의욕이 떨어지거나 작심삼일이 되기 쉬운 분들은

이런 활동을 통해서 동기부여를 받으면 좋지 않을까 한다.

 

 

화이팅!!!

반응형

제목을 보자마자 왠지 PTSD가 올 것만 같아서 구매하지 않을 수가 없었다!

(응?! 뭔가 흐름이 이상한데?!)

 

 

나이가 있다보니 "해고"라는 단어에도 PTSD가 올 것만 같았지만,

"사내 시스템을 전부 혼자 관리"라는 말에도 충격이 ... !!!

 

 

실제로 판매가 되는 만화책이다 !!! 그것도 따끈따끈한 신상 !!!

  - https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=363313416

 

다행히 초판본을 구매한 관계로 일러스트 카드도 받았다.

 

 

음?! 너무 평범한 일러스트인데!?

왜 평범하다고 생각하냐고? 여자 주인공의 취미 생활이 코스튬이기 때문이다 ^^

 

주인공이 해고를 당한 이유는 2가지 이다.

 

 

첫번째는 윗분들이 보기에 바람직하지 않은 코스프레 복장.

두번째는 사내 시스템 구축 및 운영 업무에 대한 평가 절하.

 

 

아직 1권밖에 보지 않았지만,

사실 이 만화를 보면 위에 대한 문제 의식 보다는, 왠지 직장인에 대한 힐링물 스토리가 주된 것 같다.

 

좀 아쉽기는 하다.

나에게 이 책이 확~ 꽂힌 이유는 저 2가지 주제에 대한 것이었는데...

 

일본에서는 현재 4권까지 출판이 되었다고 한다.

 

 

2권은 주인공의 동창이기도 하고, 해고된 주인공을 스카웃한 스타트업 CEO가 표지 모델이다.

 

 

3권은 주인공이 근무하던 회사를 인수하고 경영 효율화를 하면서 주인공을 정리 해고한 사장

 

 

4권은?! 응?! 누구지!? 아직 잘 모르겠다!!!

 

 

절대 비하하는 것이 아니고, 주류 문화가 아니라는 의미로 서브컬쳐의 한 유형으로

"개발자 컬쳐(Developer Culture)"가 많이 활성화 되었으면 좋겠다라는 생각을 갖고 있다.

 

'개발자 유머' 같은거....

 

그런 생각의 연장선으로 이 만화책을 처음 발견했을 때 엄청 반가웠다.

 

간간히 이런 도서들이 발간되는데....

아쉽게도 많은 판매량이 나오지 않아서인지 완결까지 가는 것이 쉽지 않아보인다.

 

힘내라고 도서 구매도 꼬박꼬박 하고 있기도 하고,

이렇게 홍보성 짙은 포스팅도 해본다!

 

여러분도 구매해서 한 번 봐보세요! 재미나요!!!!

반응형

 

"한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다."

 

"박해선"님의 명작 도서, "혼자 공부하는 머신러닝+딥러닝"의 "개정판"이 나왔다 !!!

 

AI 관련하여 공부를 했던 사람들이라면 아마도 모두 가지고 있을 책이 아닐까 싶은데,

물론 나도 기존 도서를 가지고 있어서 비교 사진을 찍어봤다.

 

동그라미도 하나 추가되었고, 페이지도 더 많아진 새로운 개정판이다.

그래서인지 정가도 2.6만원에서 3.2만원으로 인상되었다. ㅋㅋㅋ

 

 

초판 발행 뒤, 4-5년 정도가 지났으니 물가 인상을 고려하면 정가 인상에 대해서도 충분히 이해가 간다!

벌써 4-5년이 흘렀다니... 처음 이 책으로 공부했던 때가 어제 같은데... 

 

이 책의 장점은 머신러닝에서부터 딥러닝까지 전반적인 사항을 모두 담고 있다는 것이다.

 

 

책에서도 말해주다 싶이, 반드시 순차적으로 공부해야하는 것은 아니다.

 

머신러닝에 대해서 공부하고 딥러닝을 살펴보는 것이 도움이 되기는 하지만,

필수는 아니기에 과감히 점프하고 딥러닝을 공부하는 것도 나쁘지는 않다.

 

 

이 책의 초판이 나오는 시점에서는 Tensorflow가 많이 사용될 때라 괜찮았지만,

최근에는 대부분 Pytorch를 많이 사용하기에 개정판에서 파이토치에 대한 내용을 추가해 준 것은 정말 반갑다.

 

혼공 시리즈의 책답게 동영상 강의도 멋지게 제공을 해준다.

- https://www.youtube.com/playlist?list=PLJN246lAkhQihHwcbrZp9uuwgxQen5HS-

 

 

큰 변화가 없는 챕터의 경우에는 기존 동영상 강의를 재활용하셨을거라 생각했는데, 전부 새로 등록하신 것 같다! 와우!

 

깃허브에 친절하게도 주피터노트북 파일들을 모두 등록해주셨다.

- https://github.com/rickiepark/hg-mldl2

 

"박해선"님의 블로그를 참고하면 좋다. 정오표도 확인할 수 있다.

- https://tensorflow.blog/hg-mldl2/

 

 

개인적으로 처음에 공부할 때에 이 책을 보고선 좀 당황한 적이 있었다.

다른 곳에서 설명하는 것들과는 조금 다른식으로 접근하거나 설명하는 것들이 있어서였다.

 

그래서 잠시 이 책을 끊고(?) 이렇게 저렇게 시간이 흘러

"혼공학습단"을 통해 다시 이 책을 공부해 보고자 시작하게 되었는데 !!!

 

머신러닝이나 딥러닝을 조금 공부하고 다시 이 책을 봤더니 감탄을 할 수 밖에 없었다.

아! 이래서 박해선님이 이 부분을 이렇게 설명을 하셨구나!

 

혼자 공부할 수 있도록 잘 정리되고 친절한 설명이 되어 있는 책이지만,

사실 이 책의 일부 챕터만 가지고도 책 한권이 나올 수가 있을만큼

크고 방대한 내용을 다루는 책이 바로 이 "혼공머신"이다.

 

그렇기에 이 책을 제대로 공부하기 위해서는 좀 더 꼼꼼하게 살펴보는 것을 권해본다.

 

이 책에 대해서 서평을 한 마디로 남겨 본다면,

"머신러닝, 딥러닝"을 공부해보고 싶다면 무조건 추천해드립니다!!!

반응형

"한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다."

 

 

그렇지 않아도 최근에 LLM과 연관된 스터디를 하고 있던 중에 만나게 된 반가운 책

"NLP와 LLM 실전가이드"

 

 

원서의 제목은 "Mastering NLP from Foundations to LLMs"인데,

한글로 번역하자면... '기초부터 LLM까지, 자연어 처리 완전 정복!' 정도로 될 것 같다 ^^

 

여기서 또 하나 주목해야할 이름이 보인다. "박조은"

데이터분석, Kaggle, Python 같은 것들을 공부하신 분들이라면 한 번쯤은 들어보셨을 이름 ^^

그래서인지 아래와 같이 동영상 강의도 유튜브로 계속 올려주고 계신다. 와우~

 

 

그리고, 실습을 위한 노트북 파일도 새롭게 손봐서 따로 올려주셨다.

- https://github.com/corazzon/Mastering-NLP-from-Foundations-to-LLMs

 

 

원래 제공하는 실습 파일과 비교해보는 것도 재미(?)가 있을 수 있다.

 

 

위에서 볼 수 있는 원서의 표지 그림을 보면 알겠지만

이 책의 본질은 NLP(자연어 처리) 책이다.

그 기반이 되는 수학적인 요소들을 포함해 LLM까지 언급하고 있는 것이다.

 

 

책에서는 "대상 독자"를 아래와 같이 말하고 있다.

 

 

내가 생각했을 때에는 "NLP(자연어 처리)와 관련된 전체적인 내용을 훑어보고 싶은 사람"이라고 말해야 하지 않나 싶다.

 

이 책의 목차는 다음과 같다.

 

CHAPTER   1   자연어 처리 개요 살펴보기
CHAPTER   2   머신러닝과 자연어 처리를 위한 선형대수, 확률, 통계 마스터하기
CHAPTER   3   자연어 처리에서 머신러닝 잠재력 발휘하기
CHAPTER   4   자연어 처리 성능을 위한 텍스트 전처리 과정 최적화
CHAPTER   5   텍스트 분류 강화: 전통적인 머신러닝 기법 활용하기
CHAPTER   6   텍스트 분류의 재해석: 딥러닝 언어 모델 깊게 탐구하기
CHAPTER   7   대규모 언어 모델 이해하기
CHAPTER   8   대규모 언어 모델의 잠재력을 끌어내는 RAG 활용 방법
CHAPTER   9   대규모 언어 모델이 주도하는 고급 응용 프로그램 및 혁신의 최전선
CHAPTER 10   대규모 언어 모델과 인공지능이 주도하는 과거, 현재, 미래 트렌드 분석
CHAPTER 11   세계적 전문가들이 바라본 산업의 현재와 미래

 

전체 목차와 함께 이 책의 쪽수 424쪽인 것을 보면 알겠지만

"기초 수학부터 실전 AI 문제 해결까지" 살펴볼 수 있는 책인 것은 맞지만

깊이 있게까지 살펴보려면 다른 자료들을 더 많이 찾아봐야할 것이다.

 

기초 수학부터 언급한다고 하여 좋아할 사람도 있고, 싫어할 사람도 있을텐데....

그냥 말 그대로 한 번 쭉 훑어보고 지나가는 수준의 수학이기 때문에

너무 큰 기대도 너무 큰 걱정도 할 필요는 없을 것 같다.


이 책은 원서 제목 그대로가 딱 적당한 제목인 것 같다.

 

"Mastering NLP from Foundations to LLMs"

(기초부터 LLM까지, 자연어 처리 완전 정복!)

반응형

셀레나님의 스터디 가이드 일정표에 다음과 같이 되어있다.

  - 8주차: 부족한 부분 복습 또는 배운 내용을 활용해 새로운 캐글 데이터셋 분석

 

제일 어려운 "자율학습" ... 😅

 

 

0. Kaggle Dataset

그래서 찾아본 캐글 데이터는 다음과 같다.

  - https://www.kaggle.com/datasets/undefinenull/million-song-dataset-spotify-lastfm

 

 

너무 흔한 데이터셋 말고 새로운 것으로 해서 결측치 등을 포함한 데이터셋 찾는 것도

막상 찾아보려고 하니 쉽지 않았다 ^^

 

위에 찾은 것은 "음악 추천 시스템 데이터셋"으로

사용자와 음악 트랙 간의 상호작용 데이터를 활용하여 개인화된 음악 추천 시스템을 구축할 수 있는 데이터셋이라고 한다.

 

 

1. 데이터 다운로드

kaggle 데이터 다운로드 받는 것도 해보자.

 

 

 

2. 데이터프레임

다운로드 받은 데이터셋을 가볍게 살펴보자.

 

 

데이터의 실제 모습을 살펴보려 했는데, 컬럼이 많아서 한 눈에 잘 보이지는 않는다 😅

 

 

 

3. 결측치 처리

info() 정보에서 보이는 것처럼 2개 column에만 결측치가 있는 것으로 보이는데,

직접 한 번 확인해보자.

 

 

데이터들이 어떤 모습인지 한 번 살펴보자.

 

 

genre의 경우 50%가 훨씬 넘는 비율을 갖기에 해당 column을 삭제하면 좋겠는데,

정말 삭제해도 되는지를 고민해봐야 하는데...

잘 모르는 상황에서도 가만히 보면 tags를 가지고 genre를 대체할 수 있을 것으로 보인다.

 

반면, tags의 경우에는 2.22% 비율의 결측치만 있으므로, 해당 row에 대해서 drop을 하는 것으로 하자.

 

 

맞겠지만 그래도 혹시 모르니 확인을 해보자.

 

 

4. 컬럼 분리

tags 부분을 보면 여러 데이터가 ", "으로 묶여서 표현되어 있는 것을 볼 수 있다.

이것을 One-Hot-Encoding 방식처럼 분리를 해보자.

 

 

좀 더 분석해보고 했어야 했는데, 그냥 해보다보니 tags 의 개별 아이템 개수가 엄청 많았다.

덕분에(?) 전체 column의 개수가 120개가 되었다.

 

 

5. 통계

도메인 지식이 미천하다보니.... 😥

음악 분류에 따라 뭔가 수치들이 달리 나오지 않을까 추정해본다.

 

 

 

6. 그래프

뭔가 다양하게 분석을 해봐야할 것 같은데,

일단 생각나는대로 하나 집어서 그래프를 그려봤다.

 

 

원하는 그래프는 아니지만, 그래도 ...

 

 

 

음... ChatGPT한테 일을 많이 시켜봐야겠다.

반응형

드디어 마지막 챕터까지 왔다.

힘들었지만, 그래도 주말마다 꼬박 꼬박 해냈다.

 

07장 의료 데이터 분석 프로젝트

 

 

앞서 했던 "넷플릭스 데이터 분석 프로젝트"와 유사한 방식으로 진행하면 될 것 같다.

 

① 의료 데이터 분석 프로젝트 소개

② 의료 데이터셋 파악하기

③ 심부전 데이터셋 필터링하기

④ 심부전 데이터셋 결측치 처리하기

⑤ 심부전 데이터셋 통계 처리하기

⑥ 심부전 데이터셋 시각화하기

 

 

① 의료 데이터 분석 프로젝트 소개

앞서 진행한 넷플릭스 데이터 분석과 대부분 유사하게 진행되고

차이가 있다면 "logical indexing" 부분에 조금 더 중심을 두고 진행하는 것이라고 한다.

 

 

② 의료 데이터셋 파악하기

교재에서는 자세한 설명이 없었지만, 찾아보니 아래 데이터인 것 같다.

- https://www.kaggle.com/datasets/fedesoriano/heart-failure-prediction

 

 

직접 다운로드 받아보자.

 

 

다운로드 받은 CSV 파일을 데이터프레임으로 읽어오자.

 

 

샘플 데이터를 살펴보자.

 

 

각 columns 의미는 다음과 같다.

 

 

그런데, 교재의 데이터와는 좀 차이가 있는 것 같다.

교재에서 제공하는 데이터를 보면 일부 column에서 결측치 값이 보이는데,

Kaggle에서 내려받은 데이터에서는 결측치 값이 안보인다.

 

아쉽지만, 교재에서 제공받은 파일을 업로드해서 사용해야겠다.

 

 

 

③ 심부전 데이터셋 필터링하기

심장병 여부를 나타내는 'HeartDisease' 컬럼 데이터를 살펴보자.

 

 

결측치 값도 보이고, 0.0/1.0 데이터도 보인다.

값이 '1.0'인 데이터를 True (심장병 맞음) 로 판단하면 된다.

간단히 실습해보자.

 

 

 

④ 심부전 데이터셋 결측치 처리하기

결측치 값들이 얼마나 되는지 살펴보자.

 

 

그다지 큰 비율은 아니지만, 그래도 처리를 해줘야 한다.

책의 저자와는 다른 개인적인 취향으로 별도의 데이터프레임을 만들어서 작업을 진행했다.

 

 

앞서 해봤던 넷플릭스 데이터 분석과 거의 유사한 과정이다.

이렇게 진행한 결과는 다음과 같다.

 

 

 

⑤ 심부전 데이터셋 통계 처리하기

데이터프레임에서는 여러 통계량을 손쉽게 구할 수 있도록 다양한 함수를 제공해준다.

 

 

groupby()를 이용해서 그룹별 통계값들을 구할 수도 있다.

 

 

 

⑥ 심부전 데이터셋 시각화하기

여기에서 사용할 팔레트를 설정해보자.

 

 

흉통 유형을 카테고리화 한 다음 개수를 세고, 이를 파이 차트로 표현해보자.

 

 

심부전 빈도 그래프를 그려보자.

심부전증이 있을 때와 없을 때 ASY(무증상)가 압도적인지 살펴보기 바란다.

 

 

 

나이에 따른 HeartDisease 데이터를 한 번 살펴보자

 

 

이렇게 구한 값을 가지고 나이에 따른 심부전 여부를 살펴볼 수 있는 그래프를 그려보자.

 

 

 

심부전 범주형 산점도 그래프를 그려보자.

 

 

 

워드 클라우드도 하나 만들어보자.

 

 

예쁘게 하트 모양으로 그려졌다.

 

 

여기까지 해서 책을 한 번 살펴봤다.

추후 한 번 다시 복습하면서 곱씹어봐야겠다 ^^

반응형

+ Recent posts