데이터분석/PostgreSQL

빅데이터 시대에 요구되는 분석력?

환성 2023. 7. 3. 22:09
728x90

 

언어 소개

  • 분산 처리 담당 미들웨어 : Apache Hadoop
  • 클라우드 서비스 : Amazon Redshift, Google Bigquery
  • 미들웨어 부속 도구 : Hadoop - Hue, Amazon Redshift - Aginity

 

분석 담당자의 과제

  • 스스로 지표 결정해야 함
  • SQL을 배우지 않은 상태에서는 무엇을 집계하는 지 자체를 생각할 수 없음
  • 데이터 추출 시 SQL 사용해야 함
  • SQL 사용시 겪는 시행착오에 시간이 더 오래 걸려서 리포트 품질을 담보할 수 없게 됨

=> Tableau, Kibana, Power BI 등 시각화 도구가 잘 되어있어서, SQL을 잘 못 써도되더라도 시각화하는데 문제는 없다.

 

하지만?

SQL에 서툰 마케팅 담당자를 고려해서 BI 도구를 도입하더라도 문제 발생

  • 복잡한 집계 분석을 해도 BI 도구로는 만족할 수준 X
  • 회사 DB에 저장된 여러 테이블 또는 관계 파악이 늦어짐
  • BI 도구에서 사용할 초기 데이터 준비에 SQL이 필요한 경우가 있음

 

엔지니어의 과제

  • 리포트 방법과 분석 노하우가 없어 단순한 집계 밖에 제공하지 못함
  • 경영층이 어떤 리포트를 원하는지, 어떤 과제를 원하는지 잘 모름
  • SQL을 몰라서 데이터 추출에 고생하는 경우
  • 분석 담당자가 요구한 데이터 추출하더라도 비슷한 의뢰를 할 떄 마다 계속 비슷한 SQL을 만듬

 

결국, 엔지니어, 데이터 분석가 둘 다 도메인에 관하 지식과 SQL을 알아야 한다고 책의 저자는 말하고 있다. 본인 또한 그렇게 생각하고 sql언어를 하나라도 더 배움으로써 얻는 이득이 더 많기에 본인 또한 이 책으로 공부하게 되었다.