한동안 캐글과 데이콘에 집중한다는 핑계로 티스토리에 거의 들어오지도 않았다. 반성해야지. 사실 그렇게 죽을만큼 바쁘지도 않았던 것 같은데. 일단 당장 하다 끊긴 데이콘 5장부터 좀 마무리를 지어야겠다는 생각에 거의 2주만에 다시 글을 쓰기 시작한다. 직전까지는 우선 외국인 투수 관련된 자료들의 형태와, 대략적인 경향성을 EDA를 통해 확인해 보았고 이제는 본격적으로 데이터 전처리를 시작하자. 한 2주동안 전처리만 계속 하다가, 관련된 우스갯소리를 들었다. 데이터 분석가는 전체 시간의 80%를 데이터 전처리하는데에 쓰고, 나머지 20%는 전처리가 제대로 되었기를 바라는데 쓴다나... 정말 내가 마주한 현실을 이보다 잘 표현한 것은 없을 것 같다. 서두가 길었는데, 바로 코드로 들어가자. import pan..
두번째 리뷰는 5장, 외국인 투수 스카우팅 최적화이다. ・ 주 최 : 데이콘, 서울대학교 통계연구소, 한국야구학회 ・ 문 제 : 최종 스카우팅 선수 2명 선정과 그 과정에 대한 인사이트 보고서 제출 ・ 평가 척도 - 전달력 : 코드 또는 시각화에 대한 설명이 얼마나 이해하기 쉬운지에 관한 가중치 0.5 - 논리성 : 어떤 선수를 스카우트 할 것인지에 대한 논리력 가중치 0.4 - 실용성 : 인사이트와 결과물이 실제 현업에서 쓸 수 있는 것인지에 관한 가중치 0.1 - 간결성 : 중요한 인사이트를 얼마나 간결하고 압축적으로 잘 표현했는지(동점 발생 시) ・ 기 간 : '19. 3. 26 ~ 5. 20 ・ 참여 팀 : 80팀 이번 주제의 경우 평가척도가 다른 주제와 다소 다르게 예측값과 실제값의 일치도를 평..
드디어 데이콘 우승작 4장 신용카드 매출 예측의 끝이 보이기 시작한다. 오늘은 모델 구축과 검증부터 성능향상방법까지 끝을 볼 수 있기를. 아 이전에 먼저 다뤘어야겠지만, 이 우승자분께서는 특이하게도 R studio를 사용하셨다. 그런데 책에서는 이걸 rpy2 라이브러리를 활용해서 파이썬에 적용하는 방향으로 작성이 되어있었다. 처음에는 문제를 풀 때, 왜 굳이 R코드를 가상환경을 만들고 굳이 호환되는 버전까지 찾아가며 파이썬으로 옮겨서 작업을 하셨을까 싶은 의문이 있었는데, 알고보니 독자들이 뭐 하나라도 더 배울 수 있게 해 주겠다는 저자분들의 노고가 들어간 것이라고 생각 하려고 한다. 근데 그래도,,, 이렇게는 안할것같다. 차라리 R을 따로 돌리고 말지.... from rpy2.robjects.packa..
이어서 상점 신용카드 매출 예측 1위 코드 공부 및 정리. 우선 데이터가 정상定常인지부터 확인하자. 그러기 위해서는 먼저 비정상 데이터의 패턴부터 정리 해 보자. 계절성(Seasonality) 계절성이라는 말에 혹해서 꼭 연단위 변화일 필요는 없다. 다만 일정하고 알려진 빈도로 변화하는 경우를 계절성을 띈다고 한다. 추세(Trend) 데이터가 시간에 따라 증가하거나 감소하는 경우. 꼭 선형이거나 증감이 변하여도 상관없음. 대략 눈으로 볼때 평균이 어떻게든 변하는구나 싶으면 추세가 있다고 보면 맞을 듯. 주기성(cycle) 계절성과 처음엔 헷갈렸으나 정의를 보면 쉽게 알 수 있다. 주기성도 계절성처럼 관측값이 변화하지만 그 빈도가 알려져있지 않고, 일정하지 않은 모습을 보인다. 보통 잔차와 함께 묶여서 그..