📌수업 내용
SQL수업! 기다리고 기다리던 데이터 가공 시간이었다. 4가지 도구를 사용해서 가공을 실습했다. 4가지 방법 별로 장점이 다 다르고, 실무 할 때 어떤 DBMS를 사용하게 될지 몰라 다양하게 배웠다.
💡보고 느낀 것
수업 내용
- URL가공을 해보면서 Spark와 Python Pandas의 편리함을 알게되었다. MY SQL과 Postgre SQL에서는 정규표현식으로 하다가, Spark와 Python Pandas에서는 함수를 사용하니 편리했다.
- 리포팅을 SQL만 가지고 하는 경우는 거의 없고 전처리 작업을 SQL에서 끝낸 뒤에 python으로 가져와서 사용한다고 한다. 데이터가 너무 크면 잘 안 돌아가서, 기간을 지정해주거나 원하는 칼럼만 가져와서 작업한다고 한다.
- 너무 큰 데이터를 가져오는 경우, 분산처리는 테이블 일일히 다 쪼갠 뒤 넘버링을 정해두고 각각 액세스 할 수 있게 만들어 놓고 각각 처리할 때 작은 컴퓨터가 하나씩 돌려서 좀 더 빨라진다.
- 하이브나 스파크는 자기들이 가진 함수가 있는데 데이터 추출할때 유용하다.
실무 팁
- 오늘 정말 많은 것을 배웠는데 이 문제는 이렇게 접근할 수 있겠다 감만 찾으면 된다! 그리고 그것을 스크립트에 주석으로 남겨두는 게 중요! 하다. 실무에서 필요할 때마다 활용하게 될 거다.
- 자신만의 mysql cheatsheet 만들어주는 게 중요하다. 차곡차곡 쌓아나가서, 실무 할 때 사무실에 붙여 두면 된다!
😄감사한 일
- 큰 기업이 아닌 이상 데이터 팀이 잘 갖춰지지 않고, 이제 막 생긴 경우가 많다. 데이터 분석하러 들어왔는데, 개발일을 도맡아 하게 될 수 있다. 그때 지금 겪은 오류 내용이 엄청 도움이 된다. 개인 프로젝트할 때도 마찬가지다.
→ 혼자 오류를 해결해보기도 하고, 다른 분들 오류를 어떻게 강사님이 해결하시는지 보면서 어디서도 배우지 못하는 것을 배울 수 있었다. 정말 감사한 일이다. - 기업에서 PYSPARK 이용 안 하는 경우 있는데 실무 할 때 직접 회사 DB 연동해서 사용할 때 필요하다. 분산처리하고 싶은데 PYSPARK를 사용하면 훨씬 효율적으로 일할 수 있다.
→ SPARK를 사용하지 않는 기업에서도 SPARK를 사용해볼 수 있게 되다니! 무기를 얻어 감사하다. - 줌 채팅방에서 서로 도움을 주는데, 도움이 되는 팁이 올라올 때마다 "OO님 감사해요^0^"라고 정말 기분 좋은 메시지를 보내는 SE님이 계시다. 그분을 메시지를 보면, 팁을 올린 사람은 뿌듯하고 메시지를 보는 사람은 미소 짓게 된다. 나도 적극적으로 감사해야지! 깨달음을 주신 SE님에게 감사하다!
✨적용할 것
- 복습하면서 나만의 cheatsheet 만들기!
- 미니 프로젝트 아이디어 생각하기!
'👍 회고 기록 > 😎 업무 회고' 카테고리의 다른 글
[220805] Git은 앞으로 30년 동안 쓸 예정이니 복습 또 복습! (0) | 2022.08.05 |
---|---|
[220804] 혼자 복습하면서 계산할 수 있는 웹사이트 만들어보기 (0) | 2022.08.04 |
[220727] SQL은 도착지로 가는 방법이 엄청 많다! (0) | 2022.07.27 |
[220726] 무언가를 해내야 할 때, 검색을 적극적으로 활용하여 해내면 된다. (이상한 변호사 우영우 소개 페이지 만들어봤다!) (0) | 2022.07.26 |
[220725] 실험 설계 해보기 ("애플이 앞으로도 잘 나갈까?" vs "지금 아이폰을 쓰는 사람은 휴대폰을 바꿀 때도 아이폰을 쓸까?") (0) | 2022.07.25 |