가장 인상 깊었던 말씀
파이썬에 패키지가 엄청 많다. 우리는 필요한 거 사용하면 되니 편하다고 생각한다.
하지만 패키지를 사용할때도, 원리를 알아야 한다.
원리를 알게되면 작업이 엄청 빨라지고 어려움을 마주칠 때 우회해볼 수 있다.
📌수업 내용
SQL 이정원 강사님이 데이터에 대한 이해에 대해 강의해주셨다.
- 데이터 환경 변화 (접근 분석 도구의 등장, 빅데이터 등장)
- 시스템 설명 (MySQL, PostgreSQL, Apache Hive, Amazon, Redshift, Google Big Query, SparkSQL)
☞ MySQL, PostgreSQL : RDB(Relational Database), 회사에서 사용해도 비용 X, 분석을 할 때는 PostgreSQL가 MySQL보다 편할 때가 있다.
☞ Apache Hive : 분산 병렬 파일 기반 시스템, 문자열처리에 특화 (인공지능 스피커로 축적된 데이터 중에 감정 어휘를 잡으려면, 문자 어휘를 분석해줘야 한다. Python이나 R로 수억 건의 데이터 가져오는 거 힘든데 Hive는 문자열 처리에 특화되어 있다)
☞Amazon, Redshift : 아마존에서 제공하는 분산 병렬 RDB, 클라우드 서비스, PostgreSQL랑 호환성을 가지고 있어서 연결해서 사용 가능, 컬럼 기반 저장 (다른 시스템은 테이블 기반), 사용 시간에 따라 비용 부가, DB기반이지만 분산 처리 가능
☞Google Big Query : 구글에서 제공, 클라우드 서비스, Redshift와 달리 구글에서 알아서 관리해줌, 데이터 양에 따라 비용(쿼리 결과가 계산할 때 몇 개 발생하는지에 따라 비용 발생해서 자주 읽어오는 데이터 분할해서 사용하곤 함), DB기반이지만 분산 처리 가능, 표준 SQL과 래거시 SQL사용
☞SparkSQL : 오픈소스 프레임워크, 무료 사용, 오픈소스 중에 가장 빠름, 머신러닝 등 실시간 프래임워크를 쉽게 분산처리 할 수 있게 해 줘서 사용하는 곳 많음, 다양한 프로그래밍 언어 지원해서 한 번에 이용 가능 - 데이터 종류와 특징 (업무 데이터, 로그 데이터)
☞ 업무 데이터 : 갱신형 데이터 (추출시점에 따라 결과가 변하기 때문에, 보고서 작성할 때 시간 표시 중요)
☞ 로그 데이터 : 누적형 데이터 (전송 방법에 따라 중간에 손실될 수 있다)
ㄴ추출 방법 : 비컨형태, 서버 형태 - 데이터 가치
☞ 목표 관리, 서비스 개선, 미래예측 - 환경 세팅 (MySQL, PostgreSQL, SparkSQL)
💡보고 느낀 것
- 혼자 공부할 때는 쿼리 위주로 했는데, 강사님은 데이터의 의미에 대해 얘기해주셔서 어렵지만 흥미로웠다. SQL에서 중요한 것은 문법이 아니라 언제, 어떻게, 왜, 사용할 수 있는지이다!라는 말씀이 인상 깊었다.
- 업무 데이터와 로그 데이터 연동을 할 때 주의해야 한다. 업무 데이터인 <상품 명 : 오렌지 셰이크>가 <상품 명 : 오렌지 에이드>로 변경됐을 경우, 변경된 <오렌지 에이드>만 가져오면 <오렌지 셰이크>의 로그 데이터는 못 가져온다.
- 데이터, 프로그래밍하는 사람은 수학을 절대 포기하면 안된다. 실무 하다가 울면서 다시 하는 경우 많이 본다. 예를 들어 캐릭터 레어템 뽑을 확률 1%라고 하자. 1%를 보고 100번 뽑으면 1번은 나오겠지라고 생각하는데, 이는 1개 뽑으면 99개 남은 상황에 해당되는 말이다. 1% 뜻은 뽑을 때마다 1%라는 거다. 100번을 뽑아도 1번도 당첨되지 않는 사람이 36.5% 정도가 된다. 수학적인 지식이 있어야한다. 문제가 발생한 뒤 오류를 발생하는 것은 늦다.
- 파이썬에 패키지가 엄청 많다. 우리는 필요한거 사용하면 된다고 편하다고 생각한다. 하지만 이렇게 하면 남들이 하는 것만큼 밖에 못한다. 조금만 달라지면 오류 난다. 원리를 알아야한다. 원리를 알게 되면 작업이 엄청 빨라지고 어려움을 마주칠 때 우회해볼 수 있다.
😄감사한 일
와... 환경세팅 너무 오래 걸린다. MySQL은 사용하고 있어서 설치 안 했는데, PostgreSQL, SparkSQL 설치하는데 2시간 정도 쓴 것 같다. 특히 SparkSQL......... 진짜 너무 오래 걸린다..
- 40명 정도 되는 교육생들의 질문에도 언제나 차근차근 알려주시던 강사님의 모습을 보며, 존경스러웠다.
- 컴퓨터에 설치가 느려서, 모두 설치하기 전에 수업이 끝나버렸다. 줌 수업의 대화 저장 기능을 이용해서, 대화를 다운로드하였다. 그리고 내가 직면한 오류를 검색해서, 해결하는데 참고했다. 데이터의 중요성과 기록의 중요성을 다시 한번 느낀다.
✨적용할 것
- 미리 프로젝트 주제 생각해보기
수업 커리큘럼에 프로젝트가 2번 있었는데, 2번 다 팀플이었다. 첫 번째는 랜덤으로 팀을 꾸려서 진행하고, 직접 관심 있는 데이터를 수집해서 분석해 본다. 두 번째는 관심 분야가 비슷한 사람들끼리 팀을 꾸려서 진행한다. - SparkSQL 설치 방법 글쓰기 (완료)
'👍 회고 기록 > 😎 업무 회고' 카테고리의 다른 글
[220723] 파이썬 톺아보기 (0) | 2022.07.23 |
---|---|
[220721] 블로그에 쓸게 많구만! (0) | 2022.07.21 |
[220719] 태도와 마음가짐을 많이 배운 날 (0) | 2022.07.19 |
[220718] 지나간 일 보단, 시작하는 일에 집중하자 (0) | 2022.07.18 |
[210728] 레슨런(lessons learned)보다 중요한 것은 팔로업(follow-up) (0) | 2021.07.28 |