2016년 2학기는 프로젝트, 학회 등 다방면으로 매우 바쁜 한 학기였다. 그 중 숙대에서의 학부 강의는 나에게 많은 것을 배우고 느끼게 해준 소중한 경험이었다. 강의 설계부터 수업자료 고민, 수업 진행 등 모든 일을 혼자서 진행하면서 지금까지 들어온 수많은 강의가 얼마나 많은 고민을 통해 만들어졌을지 생각하게 되었다.

강의를 맡게 되면서 선배들에게 여러 가지 조언을 구했고 큰 도움을 받았다. 은정언니가 정리해놓은 글 (https://www.lucypark.kr/blog/2015/08/03/lecturing/) 또한 많은 도움이 되었다. 강의 관련 조언이 필요하다면 이 글을 읽어보길 강추한다.

다만, 나와 다른 전공의 학생들을 가르친 사례는 드물었다. 나의 전공은 데이터마이닝이고, 내가 가르칠 학생들의 전공은 홍보광고학과였다. 나는 자연과학과 공학을 전공한 뼛속까지 이과생이고, 학생들은 문과생이고 수능 이후로는 수학을 접할 기회가 없었다. 어떡하지..? 이 간극을 잘 메워나갈 수 있을까..?

걱정과 고민을 가지고 시작했던 강의이지만 학생들이 너무 잘 따라와줘서 무사히 마쳤다. 나는 홍보광고 분야에 대해, 학생들은 데이터 분석에 대해 이해하는 한 학기였다. 아래는 내가 배웠던 점과 흥미로웠던 내용들을 정리하였다.

1. 서로 다른 전공, 낯선 용어

데이터 분석에 대한 사회의 관심이 많아져 생긴 강의인 만큼 학생들이 사회에 나가서 도움이 될 내용 위주로 가르치기로 했기에, 내가 설정한 강의의 목적은 “앞으로 데이터 분석가와 함께 일하게 되면 그들의 언어를 이해하고 소통할 수 있는 홍보광고인이 되자!” 였다. Drew Conway의 데이터사이언스 벤 다이어그램을 보면 수학/통계, 프로그래밍, 도메인 지식의 세가지 큰 축이 있는데, 홍보광고 분야 전문지식만 가지고 있던 학생들이 수학/통계와 프로그래밍 전문지식을 가진 사람들의 사고 방식과 언어를 이해할 수 있게 되면 성공이라고 생각했다.

하지만 늘 이론과 실제가 다르듯, 나의 생각과 실제 경험은 달랐다. 벡터, 확률, 통계의 세 가지 선수지식을 강의 내용에 포함하고, 최대한 쉽게 설명하기 위해 노력했음에도 어쩔 수 없는 한계점이 있었던 것 같다. 아래는 학생들의 피드백이다.

“다만 수식이나 그런건 이해하기 힘드니까 그부분에서는 어떻게 해야할지…문과아이들에게 백터란….1도 배워보지 못했던 것….설명할때 단어 선택에 있어서 고민이 필요할것도 같고…제가 수2를 안배워서 뭐라고 설명을 드려야할지 모르겠어요… 어쨌든 한학기동안 진짜진짜 교수님도 수고많으셨습니다!”

“꼼꼼하고 친절하게 설명해 주시려고 교수님이 노력해주셔서 감사했지만 홍보광고 과목인데 수학적인 내용(이과적인) 내용이 많아서 이해가 어려울 때가 많았습니다. “

나는 고등학교 시절부터 벡터, 함수, 확률, 통계와 같은 개념을 배워왔고 이미 내재화되었기에 눈높이를 아무리 낮추고자 노력해도 어쩔 수 없는 임계점이 있었을지도 모른다. 예를 들어, 장바구니 분석이라고 불리는 연관규칙분석은 금방 넘어가겠다 생각했지만 의외로 많은 시간이 소요되었다. 조건부 확률의 개념을 고등학교 때 잠깐, 그리고 이번 수업에서 잠깐 배운 학생들에게 support, confidence, lift와 같은 수식은 낯설었을 것이다. 만약 다음 번에 수업을 한 번 더 진행하게 된다면, 기본 개념을 학생들이 일정 수준 이상 이해할 때까지 많은 시간을 할애할 예정이다.

학생들의 능동적이고 솔직한 태도는 한 학기 강의가 잘 마무리될 수 있는 원동력이었다. 홍보광고라는 전공 특성상 소통과 표현에 익숙해서 그런걸까. 수업 중 모르는 게 있으면 즉각적으로 질문을 했고, 원하는 내용을 거리낌 없이 알렸다. 그만큼 수업에서 적극적으로 배우려는 의지를 보였기에 서로 낯선 전공임에도 불구하고 차이점을 메워나갈 수 있었다. 이러한 학생들의 태도는 나 스스로도 많이 배워야 겠다고 생각했다.

아래는 학생들의 종강 후 피드백이다. 읽으면서 너무 감동이었다…

“잘 못따라오는 문과생들을 이해시키려는 교수님 너무 감사합니당. 빅데이터라는 새로운 지식을 배울 수 있어서 너무 즐거웠어용 싸랑해요 <3”

“지금까지 자세히 배워본 적 없는 ‘빅데이터 분석’에 보다 심층적으로 배워보고 이를 통해 직접 빅데이터 분석을 해 볼 수 있던 점이 매우 좋았다.”

“공대 출신이자 빅데이터 현업에 계시는 교수님께서 사회과학대 소속인 홍보광고학과 수업을 진행해주셔서 다른 전공 수업에 비해 조금 색달랐던 것 같습니다. 홍보광고학이라는 학과 특성상 다양한 분야를 접하는 것이 좋다고 생각하는데, 교수님의 수업이 신선했고, 교수님께서 정말 열심히 가르쳐주시고 질문도 많이 받아주셔서 좋았습니다. 시험이나 팀 프로젝트 피드백도 바로 바로 진행해주시고, 학생들의 의견을 많이 반영해주시는 것 같다고 느껴졌습니다.”

“입문으로 다양한 것을 알기에 좋았던것 같아요. 너무 어려운걸 가르치지 않았나라고 말씀하셨는데, 그정도는 알아야 기본적으로 해석할 수 있는 능력이 될 것이라고 생각합니다. 그리고 한학기동안 저희 이해시키시려고 엄청 노력해주신것 감사드려요 정말…..”

“처음 배워보는 통계학과적 강의 내용이라 좀 힘들었지만 빅데이터의 중요성이 커지고 있는 트렌드에 맞춘 강의라 좋았습니다. 빅데이터에 대해 관심이 생겼다는 점이 이강의의 가장 좋은 부분인 것 같습니다.”

읽다보니 불현듯 학부시절 교육철학 교수님께서 하셨던 말이 생각났다.

가르침이란 학생에게 세상을 보는 안경을 주는 것과 같다. 수학을 배우면 수학적 사고를 통해 세상을 수리적인 관점에서 볼 수 있게 된다. 학생들은 언어, 사회, 물리학, 음악, 미술 등 다양한 안경을 통해 다채로운 방식으로 세상을 바라볼 수 있게 된다.

이번 강의를 통해 데이터에 기반한 사고을 경험해보고 기존과는 조금 다른 시선으로 세상을 볼 수 있게 되었다면 교육철학 측면에서는 성공이지 않을까? 여러분, 저도 한 학기동안 너무 감사했어요♥️

2. 쉬는 시간

가만히 앉아 3시간 연강의 강의를 듣고 있는게 얼마나 힘들지 생각해본 적이 없었다. 하지만 중간고사 때 대부분의 학생들이 아래와 같은 피드백을 주었다.

“중간중간 쉬는시간…이 필요..해요”

나도 이전 학기까지는 수업을 듣던 학생이었는데, 왜 생각을 못했지? 가르치고 싶은 게 너무 많았던 나의 불찰이었다. 마케팅 관련 이론만 공부하던 학생이 3시간 쉬는 시간 없이 데이터 분석에 대한 내용을 듣고 있는다는 게 얼마나 힘들었을지… 입장을 바꿔 생각해보니 그 고통이 그대로 전달되었다. (경제학에 젬병이었던 내가 경제학 수업을 들으며 얼마나 고통받았던가..)

이후부터 강의 중간에 쉬는 시간을 주었다. 강의 내용을 크게 둘로 나누어 그 중간에 쉬는 시간을 껴넣었다. 확실히 학생들이 쉬는 시간에 잠을 자든 친구들이랑 얘기를 하든 쉬고 나면 강의에 보다 더 집중하게 될 수 있었던 것 같다. 너무 당연한 사실일수록 잊기 쉽다.

3. 중간고사

중간고사 문제는 O/X로 총 40문제를 출제하였다. O/X라고 하면 매우 쉬운 거 아니냐, 몰라도 찍으면 반은 맞지 않나, 라는 주변 반응도 있었다. 하지만 문제가 담고 있는 개념을 줄이고 단순화할수록 채점을 통해 학생들이 어떤 내용을 잘 모르는지 명확히 이해할 수 있다고 생각했다. 그리고 무분별한 찍기를 방지하기 위해, “맞으면 +2, 틀리면 -1이니 모르면 빈 칸으로 두세요.” 라는 채점 기준을 두었다. (사실 조교 없이 진행하는 강의이기에 중간고사 문제를 서술식으로 냈을 때의 후폭풍이 감당이 안되기도 했다..)

실제로 학생들이 잘 맞춘 내용과 그렇지 않은 내용을 비교해보면 특징이 있다. 먼저, 정답률이 높은 문제는 단순한 개념을 묻고 있는 경우가 많았으며 문제 길이가 짧다.

표 1. 정답률이 높은 문제
정답률 문제 길이
     100% 4. 데이터마이닝을 통해 인사이트와 포사이트를 도출할 수 있으며, 기업이나 공공의 객관적 의사결정이 가능해진다.       59
94% 9. 위 시각화 자료는 상자 그림 (box plot) 이며, 여러 집단의 분포를 한 눈에 비교하는데 도움이 된다. 60
88% 2. 빅데이터의 4V는 Volume, Variety, Velocity, Veracity이며, 데이터의 크기, 데이터가 생성되고 분석되는 속도, 다양한 종류의 데이터, 데이터의 불확실성을 뜻한다. 105
88% 19. 운영 시스템에 이식되어 활용되고 있는 기존 모델이 노후한 경우 재학습이 필요하다. 46
88% 30. Naïve Bayes 모델은 입력변수 끼리 독립이라는 가정이 필요하며, 이 가정이 들어맞지 않으면 결과가 왜곡된다. 64
88% 40. 기계학습 모델이 과적합되는 것을 방지하기 위해 주어진 데이터를 학습데이터/검증데이터/평가데이터와 같이 나눈다. 61

반면 정답률이 낮은 문제는 다른 문제나 참고자료, 도표를 파악해야 풀 수 있는 문제가 많으며 문제의 길이도 길다. 문제가 담고 있는 여러 개념을 모두 알아야 맞출 수 있기에 어렵게 느껴졌을 것이라 생각된다.

표 2. 정답률이 낮은 문제
정답률 문제 길이
       0% 34. 위의 문제 중 예측 모델링을 통해 해결 가능한 문제를 나열하라. (예: ABCD) 45
18% 15. 각각의 그림은 두 변수 간 관계가 어떠한지를 보여준다. 예를 들어, 좌상귀부터 우하귀까지의 대각선에 존재하는 4개의 그림은 두 변수가 매우 뚜렷한 양의 상관관계가 있음을 나타낸다.      100
29% 5. 데이터마이닝은 빅데이터가 등장하고 이를 수용할 수 있는 컴퓨터의 성능 (저장용량 및 계산속도)가 향상되면서 대두되었다. 그러나 사용가능한 데이터 분석 툴이 비싸고 그 종류가 한정적이기 때문에 대중적으로 데이터를 분석하는 데 어려움이 있다. 134
29% 23. 심리학자는 폭력적인 영상이나 게임을 접하는 횟수와 폭력 성향 지수 간 상관관계가 1.2가 나오는 것을 보고, 폭력적인 영상이나 게임을 많이 접할수록 폭력적인 성향을 가지게 된다고 결론내렸다. 106
29% 28. Linear regression은 타겟 변수를 예측하는데 사용되는 변수 중 중요한 변수가 무엇인지 파악하는 탐색적 목적으로도 사용될 수 있다. 각 계수의 값이 클수록 중요한 변수이며, 값이 작을수록 중요하지 않은 변수이다. 124
29% 37. Decision tree는 재귀적 분기를 통해 불순도(impurity)가 0이 될 때까지 데이터 공간을 최대한 분리한 뒤, 과적합을 방지하기 위해 가지치기를 하게 된다. 가지치기를 통해 분리된 공간 중 일부가 합쳐지게 되며, 규칙이 단순해진다. 재귀적 분기와 가지치기는 동일한 데이터를 사용하여 수행한다. 170

나중에 또 이런 식으로 문제를 낸다면, 문제 길이나 참고자료 유무여부에 따라 배점에 차등을 두어도 재밌을 것 같다.

채점 후 문제해설 시간을 가졌는데, 마침 시험지가 시험을 보고 나간 순서대로 정렬돼있었다. 갑자기 시험 보고 나간 순서와 시험등수 간 상관관계가 궁금해져 산점도를 그려봤다.

scatterplot

x축은 시험을 보고 나간 순서로, 오른쪽으로 갈수록 시험시간이 길다는 것을 의미한다. y축은 시험등수로, 아래쪽으로 갈수록 성적이 좋음을 의미한다. 위의 산점도를 보면 크게 오른쪽 하단 군집과 왼쪽 상단 군집이 있다. 즉, 오랫동안 문제를 푸는 것과 시험 등수 간 상관관계가 있었다. 장고 끝에 악수 둔다는 말과는 반대로 오랫동안 고민한 결과가 좋았을 수도 있고, 아니면 원래 공부를 잘하는 친구들이 오랫동안 문제를 푸는 경향을 가지고 있을 수도 있고, …

4. 프로젝트

기말 프로젝트를 어떤 방식으로 진행할지 고민을 많이 했다. 무엇보다도 학생들이 얻어가는 게 많길 바랐다. 홍보광고 쪽은 소비자의 마음과 행동을 포함한 트렌드를 이해하는 게 중요하다고 생각하였고, 소셜미디어 데이터를 사용한 여론 분석으로 방향을 잡았다. 마음같아선 학생들이 실제로 데이터를 가지고 모델을 돌려보고 결과를 해석해보는 경험을 가지면 어떨까 싶었지만 프로그래밍을 접해본 친구가 거의 없었다.

다음소프트의 소셜메트릭스를 사용하면 소셜미디어(블로그, 트위터)의 데이터를 수집하고 전처리할 필요없이 관심대상의 최근 한 달 연관키워드를 시각화된 결과로 살펴볼 수 있기에 이를 활용하기로 했다. 학생들은 지금까지와 전혀 다른 스타일의 프로젝트이기에 생소해하고 어려워했으나 금방 적응하고 잘 따라왔다. 소셜메트릭스의 장점과 단점을 파악하여 팁을 공유하며 서로 도왔고, 데이터 부족의 한계점을 느껴 직접 데이터를 긁어모았던 조도 여럿 있었다. 데이터 분석을 실제로 경험하면서 배우는 게 많아보였다.

최종발표날 총 6개조의 발표가 있었다. 발표를 다 듣고난 소감이 어떻냐는 질문에 한 학생이 이렇게 답했다.

저희는 저희과 프로젝트만 진행을 해봤기에 홍광(홍보광고학과) 스타일이 너무 익숙한데, 이번 프로젝트 발표를 듣다보니 우리에게 너무 친숙한 홍광 스타일의 발표도 있었지만 그렇지 않은 신선한 발표도 있었어요. 발표 하나하나가 너무 흥미진진했어요.

“촛불은 꺼지지 않는다”는 사실을 증명하기 위해 관련 키워드의 버즈량을 한 달 이상 모니터링하며 국민의 관심이 단발성이 아니라 지속적으로 유지되고 있음을 보인 조, 정알못(정치를 알지 못함)의 현명한 판단에 도움을 주고자 차기 대선후보 big3의 대표 키워드를 추출한 조, 편의점 묶음상품 제안을 위해 키워드 연관규칙분석을 진행한 조. 이 세 조는 기존 홍광 스타일에서 벗어나 실제적인 데이터 분석을 해보고자 많은 고민을 했다는게 고스란히 전해졌고, 결과 또한 재밌었다.

예를 들어, 촛불 조에서는 “길라임” 가명이 알려진 날(2016/11/16)과 “강소라”와의 열애설이 터진 날(2016/12/15)의 “현빈” 버즈량을 비교해보았는데, 각각 26,534와 4,980으로 연예인 스캔들과는 비교도 안될 정도로 네티즌들이 현 시국에 큰 관심을 가지고 있음이 나타났다. (참고로, 강소라와 현빈의 열애설이 터진 날 “박근혜” 버즈량은 73,587이었다..)

편의점 연관분석 조에서도 “라면”의 연관키워드가 “회”가 나와서 처음에 의아해했지만, “낚시”의 연관 검색어가 “라면”임을 확인하고 재밌어했다. 또한 “편의점 도시락”의 연관검색어로 반지하, 고시원, 병원과 같은 키워드가 나와 트위터를 살펴보니 아래의 글이 엄청나게 리트윗이 되었다고 한다.

컵밥먹고 편의점도시락사먹고 병원비 없어서 병원 못가고 반지하 고시원에서 살고 지금 20대 애들 나중에 삼사십대만 가도 아주 골병들고 난리날듯. 지금이야 젊은 기운으로 버틴다지만 당장 오륙년만 지나면 그 나이대 전체가 병들어있을것이다.

애플파이라는 연관키워드는 아래 글의 리트윗 때문이었다.

웰빙에서 헬조선이 되는데 10년밖에 걸리지 않았는데 다시 웰빙의 시대가 오려면 얼마나 걸릴까. 컵라면으로 끼니를 때우고 4천원대 편의점 도시락이 호화스러워졌다며 감동하고, 천원짜리 애플파이가 불티나게 팔리는 현실로 몰아넣은 거, 남탓해도 되는 거였어.

기존의 홍광 스타일의 발표는 학생들끼리 익숙했더라도 나에게는 새로웠다. 공대나 자연대 데이터 분석 수업 프로젝트를 되짚어보면 분석 내용 대비 인사이트 도출이 빈약한 경우가 많았던 것 같다. 이와 반대로 홍보광고전공 학생들은 비록 데이터 분석은 공대생보다 서툴지 몰라도 발표자료 제작이나 인사이트 도출은 훨씬 뛰어났다. 데이터 분석가와 도메인 전문가는 함께 일해야 한다는 사실, 그리고 데이터 분석이 가능한 도메인 전문가의 위력을 다시 한 번 느꼈다.