본문 바로가기

👍 회고 기록/😎 업무 회고

[220728] 다양한 DBMS에서 데이터 가공하는 방법을 배우다

📌수업 내용

 SQL수업! 기다리고 기다리던 데이터 가공 시간이었다. 4가지 도구를 사용해서 가공을 실습했다. 4가지 방법 별로 장점이 다 다르고, 실무 할 때 어떤 DBMS를 사용하게 될지 몰라 다양하게 배웠다. 

 

💡보고 느낀 것

수업 내용

  • URL가공을 해보면서 Spark와 Python Pandas의 편리함을 알게되었다. MY SQL과 Postgre SQL에서는 정규표현식으로 하다가, Spark와 Python Pandas에서는 함수를 사용하니 편리했다.
  • 리포팅을 SQL만 가지고 하는 경우는 거의 없고  전처리 작업을 SQL에서 끝낸 뒤에 python으로 가져와서 사용한다고 한다. 데이터가 너무 크면 잘 안 돌아가서, 기간을 지정해주거나 원하는 칼럼만 가져와서 작업한다고 한다. 
  • 너무 큰 데이터를  가져오는 경우, 분산처리는 테이블  일일히 다 쪼갠 뒤 넘버링을 정해두고 각각 액세스 할 수 있게 만들어 놓고 각각 처리할 때 작은 컴퓨터가 하나씩 돌려서 좀 더 빨라진다.
  • 하이브나 스파크는 자기들이 가진 함수가 있는데 데이터 추출할때 유용하다.

 

실무 팁

  • 오늘 정말 많은 것을 배웠는데 이 문제는 이렇게 접근할 수 있겠다 감만 찾으면 된다! 그리고 그것을 스크립트에 주석으로 남겨두는 게 중요! 하다. 실무에서 필요할 때마다 활용하게 될 거다.
  • 자신만의 mysql cheatsheet 만들어주는 게 중요하다. 차곡차곡 쌓아나가서, 실무 할 때 사무실에 붙여 두면 된다!

 

😄감사한 일

  • 큰 기업이 아닌 이상 데이터 팀이 잘 갖춰지지 않고, 이제 막 생긴 경우가 많다. 데이터 분석하러 들어왔는데, 개발일을 도맡아 하게 될 수 있다. 그때 지금 겪은 오류 내용이 엄청 도움이 된다. 개인 프로젝트할 때도 마찬가지다. 
    → 혼자 오류를 해결해보기도 하고, 다른 분들 오류를 어떻게 강사님이 해결하시는지 보면서 어디서도 배우지 못하는 것을 배울 수 있었다. 정말 감사한 일이다. 
  • 기업에서 PYSPARK 이용 안 하는 경우 있는데 실무 할 때  직접 회사 DB 연동해서 사용할 때 필요하다. 분산처리하고 싶은데 PYSPARK를 사용하면 훨씬 효율적으로 일할 수 있다.
    → SPARK를 사용하지 않는 기업에서도 SPARK를 사용해볼 수 있게 되다니! 무기를 얻어 감사하다. 
  •  줌 채팅방에서 서로 도움을 주는데, 도움이 되는 팁이 올라올 때마다 "OO님 감사해요^0^"라고 정말 기분 좋은 메시지를 보내는 SE님이 계시다. 그분을 메시지를 보면, 팁을 올린 사람은 뿌듯하고 메시지를 보는 사람은 미소 짓게 된다. 나도 적극적으로 감사해야지! 깨달음을 주신 SE님에게 감사하다!

적용할 것

  • 복습하면서 나만의 cheatsheet 만들기!
  • 미니 프로젝트 아이디어 생각하기!