이제 5장도 마지막이다. 다만 가장 중요하고, 긴 부분이 남았다. 앞서 정리한 자료들을 가지고 이제 어떤 투수가 가장 훌륭한 투수인지를 평가하고, 누구를 영입할지를 정해야 한다. 이를 위해 우리가 정리한 자료들을 살펴보면, 크게 MLB와 KBO에서의 경기 데이터와 투구가 분석되어있는 Statcast자료가 있다. 그런데 상식적으로, 경기 데이터는 아무래도 투수의 역량보다는 팀의 역량이 중요한 변수로 작용할 것이다. 그렇기 때문에 아마도 중점적으로 분석해야 할 데이터는 스탯캐스트 데이터일 것이다. 우승자분은 그중에서도 일단은 제구력을 가장 먼저 확인해 보는것이 좋을 것이라고 판단했다. import seaborn as sns import matplotlib.pyplot as plt plt.figure(figs..
한동안 캐글과 데이콘에 집중한다는 핑계로 티스토리에 거의 들어오지도 않았다. 반성해야지. 사실 그렇게 죽을만큼 바쁘지도 않았던 것 같은데. 일단 당장 하다 끊긴 데이콘 5장부터 좀 마무리를 지어야겠다는 생각에 거의 2주만에 다시 글을 쓰기 시작한다. 직전까지는 우선 외국인 투수 관련된 자료들의 형태와, 대략적인 경향성을 EDA를 통해 확인해 보았고 이제는 본격적으로 데이터 전처리를 시작하자. 한 2주동안 전처리만 계속 하다가, 관련된 우스갯소리를 들었다. 데이터 분석가는 전체 시간의 80%를 데이터 전처리하는데에 쓰고, 나머지 20%는 전처리가 제대로 되었기를 바라는데 쓴다나... 정말 내가 마주한 현실을 이보다 잘 표현한 것은 없을 것 같다. 서두가 길었는데, 바로 코드로 들어가자. import pan..
두번째 리뷰는 5장, 외국인 투수 스카우팅 최적화이다. ・ 주 최 : 데이콘, 서울대학교 통계연구소, 한국야구학회 ・ 문 제 : 최종 스카우팅 선수 2명 선정과 그 과정에 대한 인사이트 보고서 제출 ・ 평가 척도 - 전달력 : 코드 또는 시각화에 대한 설명이 얼마나 이해하기 쉬운지에 관한 가중치 0.5 - 논리성 : 어떤 선수를 스카우트 할 것인지에 대한 논리력 가중치 0.4 - 실용성 : 인사이트와 결과물이 실제 현업에서 쓸 수 있는 것인지에 관한 가중치 0.1 - 간결성 : 중요한 인사이트를 얼마나 간결하고 압축적으로 잘 표현했는지(동점 발생 시) ・ 기 간 : '19. 3. 26 ~ 5. 20 ・ 참여 팀 : 80팀 이번 주제의 경우 평가척도가 다른 주제와 다소 다르게 예측값과 실제값의 일치도를 평..
드디어 데이콘 우승작 4장 신용카드 매출 예측의 끝이 보이기 시작한다. 오늘은 모델 구축과 검증부터 성능향상방법까지 끝을 볼 수 있기를. 아 이전에 먼저 다뤘어야겠지만, 이 우승자분께서는 특이하게도 R studio를 사용하셨다. 그런데 책에서는 이걸 rpy2 라이브러리를 활용해서 파이썬에 적용하는 방향으로 작성이 되어있었다. 처음에는 문제를 풀 때, 왜 굳이 R코드를 가상환경을 만들고 굳이 호환되는 버전까지 찾아가며 파이썬으로 옮겨서 작업을 하셨을까 싶은 의문이 있었는데, 알고보니 독자들이 뭐 하나라도 더 배울 수 있게 해 주겠다는 저자분들의 노고가 들어간 것이라고 생각 하려고 한다. 근데 그래도,,, 이렇게는 안할것같다. 차라리 R을 따로 돌리고 말지.... from rpy2.robjects.packa..