[220728] 다양한 DBMS에서 데이터 가공하는 방법을 배우다

📌수업 내용

SQL수업! 기다리고 기다리던 데이터 가공 시간이었다. 4가지 도구를 사용해서 가공을 실습했다. 4가지 방법 별로 장점이 다 다르고, 실무 할 때 어떤 DBMS를 사용하게 될지 몰라 다양하게 배웠다.

수업 내용

URL가공을 해보면서 Spark와 Python Pandas의 편리함을 알게되었다. MY SQL과 Postgre SQL에서는 정규표현식으로 하다가, Spark와 Python Pandas에서는 함수를 사용하니 편리했다.
리포팅을 SQL만 가지고 하는 경우는 거의 없고 전처리 작업을 SQL에서 끝낸 뒤에 python으로 가져와서 사용한다고 한다. 데이터가 너무 크면 잘 안 돌아가서, 기간을 지정해주거나 원하는 칼럼만 가져와서 작업한다고 한다.
너무 큰 데이터를 가져오는 경우, 분산처리는 테이블 일일히 다 쪼갠 뒤 넘버링을 정해두고 각각 액세스 할 수 있게 만들어 놓고 각각 처리할 때 작은 컴퓨터가 하나씩 돌려서 좀 더 빨라진다.
하이브나 스파크는 자기들이 가진 함수가 있는데 데이터 추출할때 유용하다.

실무 팁

오늘 정말 많은 것을 배웠는데 이 문제는 이렇게 접근할 수 있겠다 감만 찾으면 된다! 그리고 그것을 스크립트에 주석으로 남겨두는 게 중요! 하다. 실무에서 필요할 때마다 활용하게 될 거다.
자신만의 mysql cheatsheet 만들어주는 게 중요하다. 차곡차곡 쌓아나가서, 실무 할 때 사무실에 붙여 두면 된다!

큰 기업이 아닌 이상 데이터 팀이 잘 갖춰지지 않고, 이제 막 생긴 경우가 많다. 데이터 분석하러 들어왔는데, 개발일을 도맡아 하게 될 수 있다. 그때 지금 겪은 오류 내용이 엄청 도움이 된다. 개인 프로젝트할 때도 마찬가지다.
→ 혼자 오류를 해결해보기도 하고, 다른 분들 오류를 어떻게 강사님이 해결하시는지 보면서 어디서도 배우지 못하는 것을 배울 수 있었다. 정말 감사한 일이다.
기업에서 PYSPARK 이용 안 하는 경우 있는데 실무 할 때 직접 회사 DB 연동해서 사용할 때 필요하다. 분산처리하고 싶은데 PYSPARK를 사용하면 훨씬 효율적으로 일할 수 있다.
→ SPARK를 사용하지 않는 기업에서도 SPARK를 사용해볼 수 있게 되다니! 무기를 얻어 감사하다.
줌 채팅방에서 서로 도움을 주는데, 도움이 되는 팁이 올라올 때마다 "OO님 감사해요^0^"라고 정말 기분 좋은 메시지를 보내는 SE님이 계시다. 그분을 메시지를 보면, 팁을 올린 사람은 뿌듯하고 메시지를 보는 사람은 미소 짓게 된다. 나도 적극적으로 감사해야지! 깨달음을 주신 SE님에게 감사하다!

[220805] Git은 앞으로 30년 동안 쓸 예정이니 복습 또 복습! (0)	2022.08.05
[220804] 혼자 복습하면서 계산할 수 있는 웹사이트 만들어보기 (0)	2022.08.04
[220727] SQL은 도착지로 가는 방법이 엄청 많다! (1)	2022.07.27
[220726] 무언가를 해내야 할 때, 검색을 적극적으로 활용하여 해내면 된다. (이상한 변호사 우영우 소개 페이지 만들어봤다!) (0)	2022.07.26
[220725] 실험 설계 해보기 ("애플이 앞으로도 잘 나갈까?" vs "지금 아이폰을 쓰는 사람은 휴대폰을 바꿀 때도 아이폰을 쓸까?") (0)	2022.07.25