▶ 요약

  ● 데이터 과학 vs 데이터 분석

    - 데이터 분석은 데이터 과학에 포함되는 one of them

    - 데이터 과학 = 데이터 분석 + 머신 러닝

 

  ● '데이터 분석'의 정의
    - 광의적 정의 : 데이터 수집/처리/정제 및 모델링을 포함한 전체 영역
    - 협의적 정의 : 기술통계, 탐색적 데이터 분석, 가설 검정

 

  이번 공부에서 사용하는 Python Package

    - Numpy
    - pandas
    - matplotlib
    - SciPy
    - scikit-learn

 

  ● 데이터 파일 확보하기

    - 이번 공부에서는 '도서관별로 공개된 장서/대출 데이터'를 사용

      . https://www.data4library.kr/openDataL
    - 한글 데이터의 경우에는 특히 인코딩에 대한 처리가 필요할 수 있음

 

  ● pandas dataframe
    - 하나의 행은 여러 데이터 타입의 열을 갖을 수 있다.
    - 하나의 열은 한 종류의 데이터타입으로만 구성된다.

 

 

▶ 기본 미션

p. 81의 확인 문제 4번 풀고 인증하기

 

4. 판다스 read_csv() 함수의 매개변수 설명이 옳은 것은 무엇인가요?

    ① header 매개변수의 기본값은 1로 CSV 파일의 첫 번째 행을 열 이름으로 사용합니다.

    ② names 매개변수에 행 이름을 리스트로 지정할 수 있습니다.

    ③ encoding 매개변수에 CSV 파일의 인코딩 방식을 지정할 수 있습니다.

    ④ dtype 매개변수를 사용하려면 모든 열의 데이터 타입을 지정해야 합니다.

 

매뉴얼을 찾아보자.

[출처] https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

 

① header 매개변수의 기본값은 1로 CSV 파일의 첫 번째 행을 열 이름으로 사용합니다. (X)

 

header 매개변수의 기본값은 "infer"이고, 자동으로 header를 추론하게 된다.

header가 없는 경우 "None"으로 명시해줘야 한다.

[출처] https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

 

② names 매개변수에 행 이름을 리스트로 지정할 수 있습니다. (X)

 

names 매개변수는 column 이름을 지정하기 위한 것이다.

[출처] https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

 

③ encoding 매개변수에 CSV 파일의 인코딩 방식을 지정할 수 있습니다. (O)

[출처] https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

 

④ dtype 매개변수를 사용하려면 모든 열의 데이터 타입을 지정해야 합니다.

 

전체 dataset의 데이터 타입을 지정할 수도 있지만, 개별 column의 데이터 타입을 지정할 수도 있다.

[출처] https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

 

▶ 선택 미션

p. 71 ~ 73 남산 도서관 데이터를 코랩에서 데이터프레임으로 출력하고 화면 캡처하기

 

→ 다음 순서대로 진행해보겠다.

  ① 도서관 데이터 다운로드 받기

  ② 구글 드라이브에 업로드 하기

  ③ Colab 실행해서 코드 작성하기

 

차근 차근 진행해보자.

 

① 도서관 데이터 다운로드 받기

  - https://www.data4library.kr/

https://www.data4library.kr/

 

상단 탭 메뉴에서 "데이터 제공"을 선택하고 받고자 하는 도서관을 선택해보자.

나는 ... 우리 동네 도서관을 골라봤다 ^^

데이터 제공 - 도서관 선택

 

"도서관명"을 클릭하면 상세 화면이 나온다.

상세 화면

 

하단에 있는 리스트 중에서 마음에 드는 것을 하나 고르고,

다운로드에서 "Text"를 선택하면 CSV 파일을 다운로드 받을 수 있다.

 

② 구글 드라이브에 업로드 하기

구글 드라이브에 들어가서 이번 공부에서 사용할 폴더를 하나 새로 만들자.

https://drive.google.com/

 

앞에서 다운로드 받은 파일을 업로드 하자.

파일 업로드

 

③ Colab 실행해서 코드 작성하기

이번 공부를 위한 새 노트를 하나 만들자.

https://colab.research.google.com/

 

교재를 보면 'gdown' 패키지를 통해서 구글 드라이브에 있는 파일을 다운로드 받을 수 있다고 하는데,

내가 멍청해서인지.... 성공하지 못했다.

 

이유는 아마도 인증 관련해서 처리가 안되어서인 것 같은데,

구글 드라이브에 있는 파일을 누구나 다운로드 받을 수 있도록(인증 없이 다운로드 되도록)

권한을 처리해주면 될 것 같기는 하지만.... 여하튼, 그냥 사용하기에는 이슈가 있었다.

 

하지만, 우리의 Colab은 구글 드라이브를 편하게 사용할 수 있도록 기능을 제공해준다!!!

Drive Mount

 

왼쪽 위의 저 메뉴를 누르면 된다.

액세스 허용

 

Google Drive 연결을 진행하면 된다.

mount

 

drive라는 폴더에 Google Drive가 마운트 되어있는 것을 확인할 수 있다.

우리는 이제 그냥 사용하면 된다.

 

파일 경로를 일일이 타이핑하려면 힘드니까 편하게 복사하자.

경로 복사

 

이번 숙제의 소스코드는 정말 심플하다.

code

 

실행 결과는 다음과 같다.

pd.read_csv()

 

이번 공부는 여기까지~

반응형

요즘 어떤 서비스의 아키텍처를 설계한다고 하면

당연히 "마이크로서비스 아키텍처(MSA)"를 떠올리게 될 정도로 MSA는 이제 거의 표준처럼 되어 버렸다.

 

그렇기에 당연히 우리는 "마이크로서비스 아키텍처(MSA)"를 공부해야 하고,

아마존에서 설계/아키텍처 부분 베스트셀러인 이 책을 살펴보는 것은 자연스러운 수순일 것이다 ^^

 

표지

 

2017년도에 초판으로 출간된 책인데,

빠른 변화와 신기술의 등장에 발맞춰서 얼마전에 전면 개정판으로 새로운 책으로 거듭났다!

 

전면 개정판

 

이 책의 저자는 특정 회사에 속하지 않고 프리랜서로 활동하시는 것 같고,

옮긴이는 포동 서비스를 언급하신 것으로 봐서 LG유플러스에서 근무하시는 것이 아닌가 싶다 ^^

 

지은이/옮긴이

 

책 제목에 "아키텍처"가 들어가있다보니

이 책의 대상독자로 제일 먼저 떠오르는 것이 "어?! 이 책은 Architect를 위한 책인가?"였다.

 

하지만, 뒤에 설명할 목차 등을 보면 알겠지만

이 책은 개발자부터 PL 및 C-level에게도 도움이 될 수 있는

"마이크로서비스 아키텍처(MSA)"에 대한 모든 것을 담고 있는 책이다.

 

대상 독자

 

이 책은 크게 "기초/구현/사람"이라는 3개의 부로 나뉘어져 있다.

 

응?

 

사람?

 

1부 기초

 

개인적으로는 2부 구현 부분에 가장 관심이 많이 간다.

 

2부 구현

 

정말 의외인 "3부 사람" ...

 

뭐 세상 모든 일은 다 사람하기 나름이니.... 가장 중요한 것이 사람인 것 맞지만.... 호오....!

 

3부 사람

 

회사를 다니고 있다면

처음부터 아무 것도 없는 상태에서 새롭게 설계하는 일 보다는

이미 모놀리스 아키텍처로 구성되어 있는 기존의 서비스를

마이크로 서비스 아키텍처로 마이그레이션하는 일이 더 많을 것이다.

 

그래서 "Chapter3. 모놀리스 분해" 부분에 관심이 많이 갔다.

 

CH3 - 모놀리스 분해

 

아마존에서 괜히 베스트셀러가 된 것은 아니기에

책 구성과 내용은 정말 훌륭한 것 같다.

 

다만, 개인적인 취향으로 아쉬운 것은...... 풀컬러가 아니라는 점!?

ㅋㅋ 사실 책 주제 자체가 굳이 풀컬러일 필요가 전혀 없기에 이마저도 단점이 아닌 것 같다 ^^

 

CH1

 

책 내용이 훌륭하다는 예시를 들어보자면,

모놀리스의 유형 중 하나인 "모듈식 모놀리스"에 대한 설명을 한 번 살펴보자.

 

모듈식 모놀리스

 

당연하게 보일 수도 있겠지만

개인적으로는 저렇게 모듈로 나눠서 구성하면

그것을 가지고 마치 마이크로 서비스인 것처럼 착각하는 경우가 종종 있다.

그런 부분에 대한 설명이 차분하게 잘 서술되어 있는 것을 보면 이 책의 내공이 정말 탄탄한 것 같다.

 

그리고 또, 개인적으로 애정하는 쿠버네티스...

 

K8s

 

마이크로서비스 아키텍처(MSA)하면 빼놓을 수 없는 짝꿍 쿠버네티스(Kubernetes) !!!

 

 

전반적으로 이 책은 정말 "마이크로서비스 아키텍처(MSA)"의 교과서라고 불리워도 무방할만큼

탄탄한 내공이 가득차 있는 정말 좋은 책이다.

 

쿠버네티스(Kubernetes)를 공부하는 분들도 필수 도서로 같이 공부하면 정말 많은 도움이 될 것이다!!!

 

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

반응형

IaC라는 말은 인프라스트럭처(Infrastructure)를 코드(Code)로 관리를 하겠다라는 것이다.

 

Infrastructure as Code

 

이것을 가능하게 만들어주는 도구 중에서

최근 가장 유명한 도구가 바로 해시코프(HashiCorp)에서 만든 테라폼(Terraform)이다.

 

바로 이 도구에 대해서 친절히 알려주는 책이 바로 이 책이다.

 

 

5월말에 출간된 따끈따끈한 책이다.

 

 

이 책의 구성은 개인 사용자를 위한 내용부터 단일팀, 다수팀을 넘어 조직 단위에서 필요한 내용까지 담고 있다.

 

 

다만, 이 책은 초보자들을 위한 책은 아니다.

본업이 Infrastructure와 관련된 분들을 위한 책이다.

 

 

이 부분이 조금 아쉬운 부분일 수도 있겠지만,

이 분야를 조금이라도 아시는 분들은 어쩔 수 없다는 것에 동의하실 것이라고 생각한다.

 

사실 Infrastructure 라는 용어에 대한 명확한 정의조차 어려움이 있긴한데,

단순히 서버(Server)라는 hardware라고 생각할 수도 있지만

지금 실제 필드에서 infrastructure라는 용어는 대단히 광의적으로 쓰이고 있다.

 

이 분야에서 업무를 하기 위해 알아야할 것들은 정말 많다.

CPU, Memory 등의 실제 hardware에 대한 지식도 알아야 하고

Windows Server나 Linux 등의 운영체제에 대해서도 알아야 하고

서버에 설치되는 MySQL, PostgreSQL,Oracle 등과 같은 데이터베이스도 알아야 하고

NginX나 Apache, Tomcat과 같은 WAS에 대한 지식 뿐만 아니라

그 외 다양한 HW에 대한 지식 + SW에 대한 지식들을 모두 알아야 한다.

 

최근에는 심지어 AWS, Azure, GCP, OCI 등 Cloud에 대한 지식은 물론이고

Container, Kubernetes 등에 대한 지식까지 모두 알아야만 한다.

 

또한 보안 관련된 지식 뿐만 아니라 네트워크에 대한 지식까지도 필요하다.

 

 

위에서 언급한 모든 것들을 전부 잘 알아야 하는 것은 아니지만

최소한 무엇인지 알고는 있어야 테라폼에 대해서 공부할만할 것이다.

 

그러면, 테라폼 외에 다른 IaC 도구들은 없는 것일까!?

 

 

비교표를 보면 알겠지만... 뭐 결국은 Terraform 짱!!!

 

 

설치 과정이 단순하기에... 사실 경로 설정만 신경쓰면 된다.

 

 

책은 전반적으로 많은 노력을 기울인 잘 만들어졌다라는 것이 느껴진다.

다만, 아쉬운 점은 ... 위 이미지와 같이 ... 컬러가 아니다보니, 몇 몇 그림은 아쉬움이 남는다.

 

 

서버 관리 및 DevOps 등을 담당하는 분들이라면,

서버 및 클라우드 등을 code로 관리하고픈 분들이라면 필독서로 옆에 비치해놓아야 할 책이라고 생각한다.

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

반응형

IT 관련 직업에 있는 사람이 아니더라도

최근 대부분의 사람들이 모두 알고 있을 ChatGPT !!!

 

그냥 심심풀이로 사용해보는 것에서 그치지 않고

본인의 업무에 실제로 도움이 되도록 사용하려면 어떻게 해야하는지를 알려주는 책이 나왔다.

 

 

ChatGPT는 이름 그대로 Chatting 방식을 통해서 인터페이스(interface)를 하는 도구이다.

그렇기에 어떻게 대화를 해야하는지가 대단히 중요하고

이러한 대화법을 바로 "프롬프트(prompt)"라고 한다.

 

이 책은

원하는 결과를 얻기 위한 프롬프트 작성 방법을 알려주는 책이다.

 

 

따끈따끈한 ChatGPT와 관련된 책이기에 번역본이 아니라 생각했는데 (시간이 좀 걸리는 것이 일반적이기에)

"이안 클레이턴"이라는 분이 쓴 책을 "김상규"님이 옮기셨다.

 

 

2023년 5월 12일에 초판 1쇄가 발행된 따끈따끈한 신간이다.

 

크게 3부로 구성된 책이다.

 

 

1부에서는 프롬프트에 대해서 알아야할 것들을 소개해준다.

 

 

2부에서는 본격적으로 산업별로 어떻게 프론프트를 작성해야하는지를 알려준다.

 

 

3분에서는 자기 계발을 위해 어떻게 ChatGPT를 활용할 수 있는지를 알려준다.

 

 

메인이 되는 내용은 2부에 있는 산업별 프롬프트 부분인데,

여기에서 소개해주는 산업 분야를 보면 엄청나게 세분화 되어 있다.

자신이 속한 산업 분야를 찾아보면 되는 것이다.

 

 

책의 내용을 보면 다양한 상황과 조건에 대해서 Example 형식으로 보여준다.

 

 

책을 보다보면 좀... 왠지 성의 없어보이는 페이지도 보이긴 하지만,

자세히 살펴보면 조금씩 미묘하게 차이가 있는 모두 필요한 내용들이다.

 

 

글을 쓰고자 할 때 알아야할 내용들을 설명해주는 페이지를 살펴보자.

 

쓰고자 하는 글의 분류가 어떻게 되는지

글의 핵심 요소가 무엇인지를 잘 설명해주고 있다.

이런 내용들을 파악하고 있어야 ChatGPT를 제대로 활용할 수 있는 것이다.

 

그냥 무조건 글을 써달라고 하면

ChatGPT는 그냥 그저그런 내용만 답변할 뿐이다.

 

구체적으로 무엇을 어떻게 해야하는지,

지금 필요로 하는 내용이 어떤 것인지 명확히 전달을 해줘야

그에 걸맞는 내용을 답변한다.

 

 

뉴스에서 새로 생긴 프롬프트 개발자의 연봉이 엄청 높다는 이야기가 나오면

고작 ChatGPT와 대화하는 것이 왜 그런 연봉을 받는지 의아해하는 사람이 많다.

 

ChatGPT를 효과적으로 사용하기 위해서는

필요한 도메인에 대한 충분한 지식과 분석적이며 논리적인 접근을 통해

제대로된 대화를 할 줄 알아야 하는 것이고

그런 능력을 갖고 있는 사람이 흔하지는 않기에 몸값이 비싼 것이다.

 

최근 다양한 생성형 AI가 쏟아지고 있고

이러한 생성형 AI를 효과적으로 다루기 위해서는 어떻게 해야하는지

이 책을 통해 충분히 느끼고 배우기를 바란다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

반응형

ChatGPT로 온세상이 떠들썩하다.

얼마전 발표한 GPT-4는 어지간한 인간보다 더 똑똑하다고 난리다.

 

이런 GPT와 같은 언어 모델의 바탕이 되는 것이 바로 트랜스포머(Transformers)이다.

 

과거(?) 딥러닝을 공부한다고 하면

이미지 처리를 위한 CNN 계열들 공부하고, 시계열 데이터를 다루기 위한 RNN 계열들 공부하고...

나중에 가면 음성처리 하던지 이미지 디텍션이라던지 하는 도메인별 특성에 따른 연구/공부를 하곤 했는데,

요즘은 그냥 무조건 그 끝은 전부 트랜스포머이다.

 

음성처리와 같은 것들도 그냥 End-to-End Model을 트랜스포머로 구성하곤 한다.

 

말 그대로 그냥 닥치고 트랜스포머인 세상이다.

 

표지

 

NLP를 공부하면서 Transformer를 공부한다고 하면

논문부터 찾아서 encoder가 어쩌고 decoder가 어쩌고 Self-attention이 뭐고.... 공부를 하곤 하는데,

 

우리가 직접 GPT 같은 것을 만들어야 한다면 이런 공부가 필수이겠지만

OpenAI와 같은 충분한 인력과 자본이 없다면

지금 우리에게 필요한 것은 활용이다.

 

초판

 

원서를 찾아보면 2022년 1월에 초판이 나왔고, 22년 5월에 Revised Color Edition이 나왔다.

번역본은 아마도 22년 5월에 나온 Revised Edition을 기반으로 했을테니, 아직은 1년이 되지 않은 책이다 ^^

 

옮긴이

 

옮긴이는 개인적으로 너무나 좋아하는 박해선님이다.

박해선님의 책은 무조건 추천!!! 와아~~~!!!

 

NLP 성장 동력

 

NLP 혁명의 성장 동력은 트랜스포머, 사전 훈련한 모델, 허깅페이스의 3가지라고 한다.

 

저자 자랑

 

결국은 책 자랑인데 ^^

트랜스포머 개발자와 허깅페이스 개발자들이 모여서 책을 썼으니

이 책은 킹왕짱 !!!

 

거기에다가 옮긴이가 박해선님이라니 !!!

정말 울츠라 슈퍼 초 킹왕짱 !!!

 

대상 독자

 

이 책은 절대 입문서가 아니다.

그리고 활용을 주 목적으로 한다.

 

예제 코드

 

위의 3개 사이트는 그냥 그런게 있다라고 하면 된다.

그런데, 3번째로 나와있는 '페이퍼스페이스 그레이디언트 노트북'이라는 곳은

처음 듣는 것이라 접속을 해봤더니 '404'로 페이지를 찾을 수 없었다.

 

- https://www.paperspace.com/gradient/notebooks

 

위 주소로 접속할 수 있었는데, 뭐 사실 그냥 구글 코랩이면 충분하지 싶다 ^^

 

github

 

박해선님의 책을 좋아하는 이유는 정말 정말 충실한 예제 코드 제공이다.

꼼꼼히 직접 실행해보시며 만들어주시는 예제는 정말 정말 애정이다.

 

타임라인

 

정말 긴 시간인 것 같지만 Transformer가 세상에 나온지는 얼마되지 않았다.

그리고 InstructGPT/GPT-3.5 이어서 얼마전 나온 GPT-4까지 ...

 

전이 학습

 

허깅페이스를 활용해서 우리가 해볼 것은 위와 같은 전이 학습이다.

 

허깅페이스

 

허깅페이스를 통해 데이터셋을 다운로드 받을 수 있다.

별것 아닌 것처럼 보이지만, 정말 편리하다.

 

결론

 

각 챕터의 뒷 부분에는 위와 같은 결론을 제공해준다.

그냥 단순한 summary가 아니라 참고 자료도 제공해주고, 어떤 의미가 있는지도 친근하게(?) 정리해준다.

 

아키텍처

 

흔하게 볼 수 있는 이미지가 아니라,

나름의 방법으로 표현된 아키텍처를 볼 수 있어서 좋았다.

 

 

이 책을 살펴보면서 느낀점은 다음과 같다.

딥러닝 공부를 하면서 트랜스포머가 무엇인지 맛을 본 분들에게 활용에 대해서 안내해주는 친절한 가이드.

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

반응형

제가 정말 정말 좋아하는 번역자이자 작가이신 박해선님이 내놓은 또 하나의 역작이 나왔다.

 

"혼자 공부하는 데이터 분석 with 파이썬"

 

 

요즘은 딥러닝 모델에 대해서 공부하는 것 보다

데이터 분석하는 것이 더 많이 유행하고 있는 듯 하다.

 

이런 분위기에 정말 딱 맞게 나온 책이 아닌가 싶다.

 

우리 회사에서도 DS 인증 프로그램을... @.@

 

 

박해선님은 번역하신 책이든, 직접 작성하신 책이든 항상 정성이 가득하다.

 

실습 내용도 하나 하나 모두 직접 업데이트 해주시고

Youtube로 강의도 제공하여 주시고, 심지어 오픈채팅까지도 운영해주신다니...

 

 

무려 13개의 강의 동영상을 제공해주신다!

- https://www.youtube.com/playlist?list=PLVsNizTWUw7FGzSRCkQrPEEe-ljVXgS7k 

 

 

직접 물어보고 대답을 들을 수 있는 카카오 오픈채팅 !!!

- https://open.kakao.com/o/gBF5aQ1c

 

 

1월 2일, 새해가 시작하자마자 1쇄 발행을 하다니... 너무 한 것 아닌가?! ㅋㅋㅋ

 

 

박해선님은 항상 도식화를 좋아하시는 것 같다 ^^

 

 

딥러닝 모델링에 대해서 공부하려면 수학이 발목을 잡는 것 처럼

데이터 분석에 대해서 공부하려면 파이썬이 발목을 잡는다.

 

발목 잡히지 않으려면 시간을 들여서 제대로 파이썬을 공부해놓는 것이 좋다.

 

 

도식화, 로드맵을 정말 좋아하시는 박해선님! ^^

 

 

오해하면 안된다.

"이 도서가 얼마나 인기가 좋을까요?"는 정말 이 책에 대한 것이 아니라

데이터 분석의 첫 번째 예제일 뿐이다 ^^

 

 

박해선님은 그림도 잘 그리신다~ ^^

 

 

ML/DL

머신러닝과 딥러닝이 막 알려지면서 사람들이 공부를 시작할 때에는

DS(Data Science, 데이터 과학)에 대한 영역이 대중적으로 정착되지 않았었다.

 

지금은 Data Scientist, Data Engineer 직종이 정착된 것 같다.

외부에서 만나는 많은 분들이 "저는 OO에서 데이터 사이언스로 일하고 있어요"라고 하고 있다는...

 

 

책 구성을 보면 정말 정성 가득함이 엿보인다.

 

 

이 책을 보다가 새롭게 배운 지식

 

"Data Analytics(데이터 분석) vs. Data Science(데이터 과학)"

 

 

음 ... 이 정도면 ... Full Stack ... 만능 아닌가 ?!

 

 

Summary 까지 꼼꼼하게 되어 있다.

 

 

혼자서, 또는 다같이 공부할 수 있도록 "확인 문제"도 제공해준다.

주관식은 너무 어렵다는...

 

 

직접 실습을 해볼 수 있도록 GitHub 저장소도 제공해주고, 설명도 친절히 해준다.

 

 

링크까지 꼼꼼히 제공해주는 박해선님!!!

 

 

리뷰 때문에 살펴보다가 알게된 정말 꿀팁 !!!

 

정부 주도로 진행한 데이터들일텐데,

요즘 시대에 아직도 Euc-KR 형식으로 만들어진 데이터 볼 때마다 정말 ... 에휴 ... 할말하않 !!!

 

 

 

이 책은 뭐 두말할 필요 없이 무조건 추천한다.

 

박해선님이 지은 책이라는 것 만으로도 추천하지만,

책 내용 및 책 외부적으로 제공되는 컨텐츠 모두 정말 정성 가득한 책이다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

반응형

 

파이썬으로 자연어 처리를 하고 싶다면

공부해볼만한 책 한 권을 소개하고자 한다.

 

표지

 

원서 제목은 다음과 같다.

"Blueprints for Text Analytics Using Python"

 

초판

 

발행한지 얼마 안된 따끈따끈한 책이다.

 

원서는 2020년 12월에 출간되었으니

약 2년의 시차가 있어서 조금 아쉽기는 하지만

지금 공부하기 해서 활용하는데에는 부족함이 없다.

 

독자

 

이 책은 텍스트 분석에 대해서 처음 접하는 분들이 아니라

텍스트 분석을 실제 구현하고자 하는 분들을 위한 책이다.

 

제약

 

다만, 기본적으로 영어를 기반으로 하기 때문에

한글 텍스트 분석을 위해서는

추가적인 학습이 필요하긴 하다.

 

원서와 2년의 차이가 있는데,

이왕이면 실습 코드만이라도 한글 지원을 추가해줬으면

훨씬 더 좋았을 것 같다.

 

챕터 개요

 

각 챕터(장)에서 어떤 데이터셋을 사용하고

어떤 라이브러리를 이용했는지

깔끔하게 정리를 해줘서

필요할 때 손쉽게 찾아볼 수 있다.

 

추천 도서

 

이 책에서는 기본적인 이론 등에 대해서 설명해주지 않기 때문에

추가적으로 공부하면 좋을 책들을 추천해주고 있다.

 

심지어 한빛미디어 출판이 아닌 책도 추천을 해준다 ^^

 

본문

 

책은 아쉽게도 흑백이다.

컬러 추종자로써 조금 아쉽다 ^^

 

원서 eBook을 보면 컬러로 나오던데...

 

구성

 

각 챕터(장)별로

학습목표와 데이터셋에 대한 설명을 해준다.

 

해당 챕터에서 뭘 하고자 하는 것인지

어떤 데이터를 가지고 하는 것인지

설명을 해주기에 공부할 때 많은 도움이 된다.

 

 

그리고, 중요한 실습 코드 !!!

 

https://github.com/blueprints-for-text-analytics-python/blueprints-text

 

실습 코드

각 챕터별로

README.md

내용을 너무나 예쁘게 잘 작성해줘서 기분이 좋았다.

 

JupyterNotebook

 

JupyterNotebook 파일도 깔끔하게 작성되어 있다.

 

사실 책 내용을 보면 책에서 설명하고 있는 내용이

JupyterNotebook 파일에 작성되어 있으면

공부할 때 훨씬 더 손쉽게 접근할 수 있을 것 같지만...

그것까지 바라는 것은 욕심인 것 같기도 하고...

 

 

NLP에 대해서 기본적인 사항을 공부한 다음

실제 코드로 만져보고 싶은 분들에게는

엄청 유용한 도움이 될 책이다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

반응형

 

컴퓨터공학을 전공한 코딩쟁이로써

머신러닝, 딥러닝을 공부하면서 항상 수학이라는 엄청난 장벽에 어려움을 겪고 있다.

(공돌이라고 누구나 수학을 잘하지 않아요 !!! 😥)

 

나는 엔지니어(Engineer)이지 사이언티스트(Scientist)가 아니다.

사실 GPT-3에서 사용된 Transformer가 어떤 특징이 있는지 그런건 별로 궁금하지 않다. 😑

 

내가 관심있는 것은 그것을 어떻게 구현했는지 이고,

그걸 사용하려면 어떻게 해야하는지 그런 것이 훨씬 더 궁금하다.

 

그런데, 역시 오레일리에서는 나같은 코딩쟁이들을 위한 책을 내놨고,

멋진 한빛미디어에서 존경스러운 박해선님이 번역한 책을 출간해주셨다 !!! 😍

 

표지

 

말 그대로 "개발자를 위한 (For Coders)" 책이다 !!!

 

한글판은 나온지 얼마 안된 따끈따끈한 책이지만, 원서는 2020년 10월 1일에 출간했으니 시간이 좀...

하지만, 머신러닝 번역서의 장인이신 박해선님이 예제를 비롯하여 내용들을 모두 살펴봐주셨으니, 믿습니다 !!! 😎

 

초판

 

다시 한 번 말하지만, 이 책은 개발자를 위한 책이다.

모델의 수학적 배경을 알고 싶다거나 머신러닝 자체에 대해서 공부하기를 원한다면 다른 책을 찾아봐야 한다.

 

아! 그리고, 이 책은 텐서플로(Tensorflow)를 사용하고 있다.

파이토치(PyTorch)를 원한다면 역시 다른 책을 ... 🙄

 

대상 독자

 

이 책은 크게 `모델구축``모델 사용`의 두 묶음으로 구분이 되어 있다.

 

`모델 구축`에 있어서도 (비전, 자연어, 시퀀스) 3가지 유형에 대해서 모두 설명해준다.

 

모델 구축

 

`모델 사용` 부분에서는 모바일 환경에서 사용할 수 있는

`텐서플로 라이트(Tensorflw Lite)`를 설명해주고 있으며 심지어 iOS 앱으로 구현하는 것까지도 알려준다.

 

모델 사용

 

그리고, 20장을 보면

짧게나마 윤리/공정성/개인정보에 대한 이야기도 해준다.

 

 

책의 전체적인 내용에 대해서

박해선님이 직접 설명해주신 그림도 있다.

 

[출처] https://tensorflow.blog/aiml4coders/

 

 

'이론과 실습' 측면에서 바라보면 이 책은 '실습'에 충실한 책이다.

뒤늦게 머신러닝을 공부하고자 하는 개발자에게는 속시원한 책이지 않을까 한다.

 

 

책의 정오표는 아래 링크에서 확인할 수 있다.

  - https://tensorflow.blog/aiml4coders/

 

 

예제 파일(쥬피터 노트북)은 아래 링크에서 확인할 수 있다.

  - https://github.com/rickiepark/aiml4coders

 

예제 파일은 원서의 것을 그대로 공유하는 것이 아니라

박해선님이 확인하고 다듬어서 올려주신 것으로 알고 있다.

 

주석이 별도로 없는 것은 조금 아쉽지만, 그래도... !!! 😋

 

 

마지막으로,

개인적인 취향으로 ... 이 책은 Coloful 하다 !!! 😁

 

그림

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

 

반응형

+ Recent posts