북로그/독서 기록

<비즈니스데이터과학> 리뷰(feat. 아마존 부사장이 친절하게 알려주는 데이터 분석법)

동사힐 2022. 7. 19.

<비즈니스데이터과학> 앞표지

최근  한빛미디어에서 <비즈니스데이터과학>이 출간되었습니다.


한빛미디어에서 <비즈니스데이터과학>이 지난 6월말에 출간되었습니다. 이 책은 기업 경영과 실무에 있어서 자주 맞닥뜨리는 실제 문제를 사례로 들면서 데이터 과학을 어떻게 적용하고 풀어나가는지를 매우 이해하기 쉽게 풀어주는 책인데요. 점차 기업 경영에 있어서 데이터 기반의 의사결정이 중요해짐에 따라 데이터 과학의 중요성은 커져만 가고 있습니다. 저도 주변 지인들이 전공 선택과 관련하여 질문을 받을때마다 경영학과 통계학을 함께 공부하라는 조언을 많이 하고는 합니다. 또는 프로그래밍과 경영을 선택하라고 할 때도 있고요. 

반응형

이러한 이유는 바로 기업에서 의사결정이 데이터 기반으로 이루어지고 있기 때문입니다. 예전에는 감으로 무언가 의사결정을 했다면 이제는 더이상 그런 시기는 지났다고 할 수 있습니다. 하지만 문제는 경영학을 전공한 사람이 굳이 통계나 프로그래밍을 복수전공하지 않는 이상, 경영학을 전공한 사람에게 데이터과학에 관한 진입장벽은 매우 높다고밖에 할 수 없습니다. 

이러한 어려움을 극복하고, 경영학전공자나 기업 실무자가 조금이라도 쉽게 데이터 과학에 입문할 수 있도록 돕는 책이 바로 <비즈니스데이터과학>이라고 할 수 있습니다. 10년전만하더라도 데이터과학이나 머신러닝, 인공지능은 특수 분야에서만 활용되거나 대학원 석박사들의 연구 주제일뿐이었습니다. 그러나 이제는 다양한 분야에서 널리 적용되고 있고, 특히 실무에서도 많이 활용됩니다. 이전에는 전문가만이 관련 데이터에 접근할 수 있었지만 지금은 누구나 쉽게 빅데이터에 접근할 수 있게 되었습니다. 

그러나 접근은 가능했지만, 여전히 어렵게만 느껴지는 것은 사실입니다. 수많은 오픈소스들이 넘쳐나지만, 그것조차 어렵게 느끼는 문과생들이 수두룩 합니다. <비즈니스데이터과학>의 저자 맷 태디는 시카고 대학교에서 강의하던 경험을 살려서 기본적인 통계학 개념부터 데이터과학을 위한 머신러닝의 핵심 개념까지 매우 상세하게 다루고 있습니다. 따라서 이 책을 통해서 수많은 기업의 실무자들이 데이터 엔지니어로서 성장하는데 작은 발판이 될 것임을 믿어 의심치 않습니다.

<비즈니스데이터과학> 뒷표지와 예제 소스 주소

 

<비즈니스데이터과학>에 대해서 조금 더 자세히 설명하면 다음과 같습니다.


<비즈니스데이터과학>의 저자 맷 테디는 2008년부터 2018년까지 시카고 대학교 부스 경영대학원에서 통계학 교수로 재직하면서 MBA 과정의 데이터 과학을 가르쳤습니다. 그의 이런 경험이 요약되어 <비즈니스데이터과학>로 출간된 것인데요. 맷 테디는 마이크로소프트와 아마존에서 데이터 과학팀을 이끌던 경험도 갖고 있습니다. 현재는 아마존의 부사장으로 근무하는 맷테디는 실무와 이론을 모두 겸비했다고 할 수 있습니다. 맷 테디는 자신의 경험을 바탕으로 데이터 기반 의사결정 프로세스를 도입하고자 하는 실무자를 위한 책을 썼습니다. 

반응형

이 책이 다른 책들과는 달리 유독 데이터 과학 분야에서 두각을 나타내는 이유는 바로 통계학, 머신러닝 등의 핵심 개념을 매우 알기 쉽게 썼기 때문인데요. 무엇보다도 복잡한 내용을 매우 간결하게 전달하는 능력을 <비즈니스데이터과학>의 저자는 자신의 책에서 유감없이 드러내고 있습니다. 왜 <비즈니스데이터과학>의 맷 테디가 시카고 대학교에서 인기를 끌었던 스타강사였는지 알 수 있었습니다.

맷 테디는 <비즈니스데이터과학>을 통해서 데이터 분석을 위한 새로운 표준을 제시하고 있습니다. 이를 위해서 저자는 비즈니스 문제에서 무슨 일이 있었는지 보다 왜 이런 일이 발생했는지를 파악해야 한다고 강조하고 있습니다. 따라서 인과관계에 대한 분석도 다루고 있습니다. 이러한 내용은 실무에 크게 유용할 것입니다. 

오토바이 데이터에 대한 기본 고정 GP 적합

또한 <비즈니스데이터과학>의 저자는 실행을 무척 강조합니다. 실행은 곧 지저분한 데이터를 분석하기 위해 코드를 작성하는 것을 의미하는데요, 실제 예제를 돌려봄으로써 예제를 이해하고 그에 따라서 효과적으로 학습할 수 있습니다. 이 예제는 독자의 이해를 돕는 매우 강력한 도구라고 할 수 있습니다.

이 책은 들어가며와 함께 10개 챕터로 구성되어 있습니다.

  • 챕터1 : 불확실성
  • 챕터2 : 회귀
  • 챕터3 : 정규화
  • 챕터4 : 분류
  • 챕터5 : 실험
  • 챕터6 : 제어
  • 챕터7 : 인수분해
  • 챕터8 : 데이터로서의 텍스트
  • 챕터9 : 비모수
  • 챕터10 : 인공지능

챕터1에서는 불확실성의 개념과 통계학에서 사용하는 주요 도구들에 대해서 간략하게 살피고 있습니다. 

챕터2에서는 통계에서 가장 기본이자 필수라고 할 수 있는 회귀 분석에 대해서 다룹니다. <비즈니스데이터과학>에서 가장 중요하면서도 기초라고 할 수 있는 부분이라 이 부분만큼은 꼼꼼하게 짚고 넘어가야 합니다. 

챕터3에서는 회귀로는 분석하기 어려운 데이터 분석을 위한 다양한 고차원 모델링을 주로 다루고 있습니다.

챕터4에서는 데이터 예측을 위해 주로 사용하는 분류 기법을 중점적으로 다룹니다.

챕터5와 6에서는 상관관계가 아닌 인과관계 분석을 위한 기법을 다루고 있습니다. 이 부분은 기업에서 데이터 기반의 의사결정을 내리는 실무자에게 특히나 중요하면서 필수적인 내용이라고 할 수 있습니다.

챕터7에서는 데이터 분석을 보다 효율적으로 하기 위한 방법을 살펴봅니다. 의사결정을 내리는 필요한 정보만을 포함하여 압축하는 차원 축소에 관해 다룹니다.

챕터8에서는 텍스트 분석 기법에 관한 기본적인 내용을 다룹니다.

챕터9에서는 비모수적 접근을 통해 데이터를 분석하는 방법에 대해서 다루고 있습니다.

마지막 챕터인 챕터10에서는 DNN(심층심경망)과 같은 머신러닝 기반의 인공지능 프레임워크에 대해서 개괄적으로 살피고 있습니다.

강화 학습 수식

이처럼 <비즈니스데이터과학>은 회귀에서부터 인공지능까지 데이터 과학자 혹은 데이터 엔지니어가 되기 위해 필요한 기본적인 지식들을 모두 다루고 있습니다. 

 

<비즈니스데이터과학>는 이런 분들에게 추천합니다.


구글 검색 결과

먼저 <비즈니스데이터과학>은 책 제목에서도 알 수 있듯이 경영에 바로 접목할 수 있는 데이터과학을 분석하는 방법에 관한 책입니다. 그래서 <비즈니스데이터과학>의 저자인 맷 테디는 이 책의 대상 독자를 데이터 과학 기술을 습득하려는 과학자, 비즈니스 전문가, 엔지니어 등으로 들고 있습니다. 

그런데 저는 이 책을 경영을 전공한 실무자들 중에서 데이터과학을 공부하고 싶은 사람에게 꼭 추천하고 싶습니다. 아시다시피 대학에서 경영학만을 전공한 사람은 데이터 과학에 관한 지식이 전무합니다. 제가 학교다니던 시절을 더듬어보아도 기껏해야 경영통계학 수업을 겨우 배웠고, 통계도 SPSS를 돌리는 것에 그쳤습니다. 그런데 무려 10여녀전 이야기입니다. 지금 시대에는 전혀 쓸모없는 지식이 되었죠.

물론 경영학을 전공하면서 통계학이나 기초 프로그래밍 혹은 빅데이터에 관한 복수전공을 경험한 독자분들도 계실 것입니다. 하지만 경영학은 문과적 성향이 강하고, 통계나 프로그래밍은 이과적 성향이 강하기에 일반적으로 경영을 전공하는 사람이 통계나 프로그래밍을 복수전공할 확률은 상당히 적습니다. 따라서 경영을 배운 후 실무에서 데이터 과학 관련 일을 해야 하는 분들이라면 이 책을 추천드립니다. 

실제로 <비즈니스데이터과학>의 저자 맷 테디는 시카도 대학교 부스 경영대학원 MBA 과정에서 처음으로 데이터 과학을 가르쳤습니다. 이때 맷 테디는 심층적인 빅데이터 연구에 필요한 기술적인 도구를 가르치는 데 성공을 했습니다. 그때의 경험을 정리한 것이 바로 <비즈니스데이터과학>인 것입니다.

바스크(ETA) 테러리즘의 경제적 효과에 대한 합성 제어 분석

다만, 데이터 과학이라는 것이 늘 그렇듯 이쪽 분야를 한번도 겪어보지 않은 독자라면 진입장벽이 꽤 높게 느껴질 것입니다. 선형 회귀 모델과 같은 다양한 수식을 보면 머리가 지끈하게 느껴질 수도 있습니다. 게다가 <비즈니스데이터과학>에서 다루는 프로그램은 R입니다. R은 프로그래밍 언어입니다. 혹시라도 프로그래밍을 한 번도 해보지 않은 독자라면 당장 R을 다루는데에도 어려움을 느낄 수 있습니다. 적어도 책에서 제공하는 깃에 들어가서 예제를 받고, 그 예제를 R로 복사하거나 R의 코드를 읽을 수 있어야 합니다.

저 역시 SPSS와 같이 단순히 데이터만 넣고 돌리면 되는 통계 프로그램을 다루다가, 당장 제가 코드를 입력해야 돌아가는 R을 처음 접했을때는 크게 당황했습니다. 혹시라도 R을 배우고 싶은 독자라면 혼공 시리즈를 추천합니다. 저 역시 혼공시리즈로 R을 혼자서 학습했기 때문이죠. 

 

요약하자면 <비즈니스데이터과학>은 실무에 데이터 과학을 도입하고자 하는 실무자, 그 중에서 수학에 대한 기초 지식과 최소한의 컴퓨터 프로그래밍 경험이 있는 사람에게는 매우 추천하는 책입니다. 물론 수학이나 프로그래밍에 대한 배경지식이 없어도, 말랑말랑한 유연성을 가지고 새로운 분야를 거부감없이 받아들일 수 있는 독자라면 얼마든지 이 책을 소화하실 것이라고 생각합니다.

<비즈니스데이터과학>에서 인상 깊은 점은 다음과 같습니다.


저는 그동안 빅데이터에서 크다는 것이 도대체 무슨 의미인지 의문이 있었습니다. 그저 빅데이터의 3가지 특성(3V)으로 크기, 속도, 다양성이라고 하면서 정작 그것들의 의미가 무엇인지 제대로 이해가도록 설명을 본 적이 없었기 때문이죠. 그런데 <비즈니스데이터과학>에서는 제가 그동안 가졌던 의문을 제대로 풀어줍니다.

lasso 결과에 대한 OOS 예측 성능

반응형

 

빅데이터는 컴퓨터 공학에서 유래한 용어다. 메모리에 적재할 수 없거나 단일 시스템에 저장할 수 없을 정도로 데이터의 양이 매우 많다는 것을 의미한다. (중략) 예를 들어 웹 브라우저 행동 데이터는 웹사이트 전반에 걸친 방문 횟수를 포함할 수 있으며 고차원 데이터셋을 생성한다. 이것은 차원의 복잡도를 높인다. -<비즈니스데이터과학>22쪽

즉 빅데이터에서 크다는 의미는 컴퓨터공학에서 유래한 것으로 메모리에 올리지 못할 정도로 크기 때문에 빅데이터라는 말이 붙은 것입니다. 그런데 단순히 양적인 측면으로 크다는 것만을 의미하는 것이 아니라 데이터의 차원이 크다는 것도 함께 의미하는데요. 여러 차원으로 고도화되어 복잡한 데이터를 뜻합니다. 이렇게 복잡한 데이터를 통해서 유의미한 의사결정을 내릴 수 있게 되는 것이죠.

반응형

이렇게 데이터가 커지면서 도저히 인간이 데이터를 분석하기 어렵고 그에 따라 머신러닝이 빅데이터와 함께 등장을 하는 것입니다. 즉 복자한 데이터를 사용하여 기계가 자동으로 학습하고, 그 학습한 내용을 바탕으로 예측하는 것이 지금의 데이터과학이라고 할 수 있는 것입니다.

브랜드별 광고량을 보여주는 모자이크 플롯

<비즈니스데이터과학>에서 인상 깊은 점 중에 하나는 바로 예시 데이터인데요. 몇가지 데이터 사례를 살펴보겠습니다.

  • 도미니크 식료품점의 오렌지 주스(트로피카나, 미닛메이드, 도미니크) 판매 데이터
  • NHL 2002~2014 시즌에서 활약한 모든 선수의 골 데이터
  • 낙태가 쉬워질수록 범죄가 줄어드는가?, 휴대 전화 가입이 증가할수록 살인율이 줄어드는가?와 관련된 데이터
  • 우주 은하 속도 추정 데이터

이처럼 상당히 친숙하면서도 재밌는 데이터를 분석하고 있습니다. 이를 통해서 데이터를 어렵고 낯설게만 느끼던 독자들도 조금은 쉽고 친숙하게 다가갈 수 있습니다.

하키 회귀에 대한 OOS 오차와 경로

다만 아쉬운 점이 하나 있다면 바로 챕터8. 데이터로서의 텍스트 부분입니다. 아무래도 영어로 설명을 하다보니 한국어에는 맞지 않는 부분들이 있습니다.  예를 들어 단어를 어근으로 분리하는 과정의 경우 예를 든 것이 바로 taxing, taxes, taxation, taxable의 tax입니다. 하지만 한국어의 경우 이렇게 무썰듯이 어근을 분리하기 어렵습니다. 게다가 자주 빈출되는 단어의 숫자를 산출하는 명령어를 사용하는데, 사실 한국어에서 동사와 형용사는 활용을 하기에 빈도 분석이 쉽지 않습니다. 주로 명사가 빈도분석에 주로 활용되죠. 아직까지 한국어의 토큰 분석 등은 해결해야 할 문제들이 많이 있다고 볼 수 있습니다.

 

끝으로 이 책은 R을 학습하는 책이 아닙니다. 실무에서 활용하는 다양한 데이터 분석 기법에 대한 이해를 위한 책이죠. 결국에는 처음부터 끝까지 정독으로 학습하기 위해서는 상당한 끈기와 인내심이 필요합니다. 그래서 자신에게 필요한 부분을 찾아서 발췌해서 보는 것이 중요한데요. <비즈니스데이터과학>을 통해서 어렵게 느껴지던 빅데이터와 통계 그리고 머신러닝에 가까워지기를 바라면서 오늘 리뷰를 마치겠습니다.

끝으로 이 글은 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성한 서평이지만, 철저히 주관적으로 상세하게 독자에게 도움이 되도록 적은 글임을 밝힙니다. 특히 책 외에는 일절 원고료나 광고비를 받지 않았습니다.
반응형

댓글

💲 추천 글