본문 바로가기
Certification/ADP필기

5과목 - 데이터 시각화

by mansoorrr 2023. 9. 26.

1. 시각화 인사이트 프로세스

  • 인사이트 발전과 확장
    • 처음으로 무언가를 살펴볼 때는 보텀업 방식이 적절
    • 데이터가 많아질수록 실시간으로 처리할 수 있는 탐색과 분석의 수준은 낮아진다
    • 몇 가지의 지표에만 집중해도 관계들을 통해 나타나는 전체적인 흐름을 알 수 있다
    • 다양한 시각화의 오류와 문제점을 피하기 위해서는 최대한 여러 관점에서 신중하게 고려해야 함
  • 1단계: 탐색
    • 계층 관계를 갖는 데이터나, 어떤 기준으로 묶인 데이터의 대부분은 형태를 변환해 연결고리를 찾아낼 수 있다.
    • 여러 개의 데이터 명세를 보유한 경우, 연결고리를 확인함으로써 명세들을 포괄해 탐색할 수 있는 차원과 측정값의 조합을 정리해야 한다.
    • 척도 문제가 발생하는 경우 실제 값을 변형해 같은 공간에 표기해도 각각의 패턴이 명확하게 보이게끔 조정해야 함
    • 워들(워드클라우드): 비정형데이터(텍스트)의 관계를 탐색하기 위해 사용하는 시각화
  • 2단계: 분석
    • 지표를 시각화 도구에 적용할 때에도 역시 지표의 단위가 시각화 도구의 표현 공간상에 다른 데이터들과 함께 표적절하게 표현될 수 있는지 체크해야 한다.
  • 3단계: 활용

2. 빅데이터 시각화 프로세스

  • 구조화: 빅데이터에서 제공하는 데이터를 활용해 사전 작업을 하면서 시각화의 목표가 될만한 것들을 발견 하고 설정
  • 시각화: 시각화 툴에서 제공하는 다양한 그래프를 어떤 이유로, 왜 쓰는지, 어떻게 표현해야 하는지에 대해 설명함
  • 시각표현: 시각화 툴로 선택한 그래프를 시각적으로 다듬거나 시각 표현을 극대화 하는 방안 모색

3. 벤프라이 7단계 방법론

  • 데이터 수집/마이닝: 분석, 선별, 마이닝
  • 그래프가공/시각적표현: 상호작용

4. ~cut 사용할 경우 종류(범례)는 위에 나타남

5. 시각화 및 빅데이터 시각화

  • 전문가로써 첫 번째 단계: 개인의 능력을 통해 최신 기술과 도구를 사용하여 정보를 제시하고 분석하는 것
  • 전문가로써 두 번째 단계: 데이터 시각화 기술이 아니라 비주얼 인식의 심리적인 부분을 아는 것으로 특정 시각화 기술이 줄 수 있는 한계에 대해서 아는것
  • 데이터 시각화
    • 시각화의 아름다움에서 정보성이 결여되면 효율성과 참신성이 떨어지는 문제가 발생할 수 있다.
    • 정보형메세지(데이터를 직접적으로 전달하는 기능)를 전달하기 위한 시각화가 주를 이룸
  • 빅데이터 시각화
    • 빅데이터 시각화에서 중요한 것은 정보 디자인의 의도와 방향이 목적과 어긋나지 않도록 하는 것
    • 설득형메세지(데이터를 기초로 해석된 의미)를 전달하기 위한 경우에는 인포그래픽에 해당하는 결과물이 도출될 수 있음(인포시각화)
    • 데이터를 기반으로 객관적 표현에 더 초점을 맞추는 경우가 많음: 정보형 메세지를 전달하는 경향이 많다

6. 시각화 명령어

  • <aa>.layout.bar(): bar 그래프
  • <aa>.layout.plot(): 다양한 목적의 그래프 구현 가능
  • <aa>.layout.map(): 지도그래프
  • <aa>.layout.pie(): 파이그래프

7. 터프티의 디자인 7원칙

  • 정보를 디자인할때는 원인과 결과를 명쾌하게 제시해야 한다
  • 트랜드를 나타내기 위해 정량적 자료를 그래프나 도표로 제시하는 것이 좋다
  • 연관된 변수와 트랜드를 비교할 수 있는 도구를 제공하는 것이 좋다
  • 시간보다 공간에 따라 나열하는 것이 사용자의 쉬운 이해를 돕는다
  • 정량적 지표의 정당성은 제시하지 않는 것이 좋다
  • 다중 변수를 표시하여 관련된 변수의 정보를 표현한다
  • 시간적 비교를 강화하여 정보의 가치를 높인다

8. 시각화를 위한 그래픽 디자인 기본 원리

  • 타이포그래피에서 가장 어려운 일이 서체를 선택하는 것
  • 색상에서 두 가지 색상을 쓰는 경우 보색을 이용하고 명도와 채도를 같게 하면 된다
  • 그리드에서 3등분 법칙에 따라 요소를 배치하면 디자인에 비해 간격을 끌어들여 미학적으로 만족스러운 균형이 잡힘
  • 아이소타이프: 정보, 자료, 개념 의미 등을 나타내기 위해 문자와 숫자 대신 상징적 도형이나 정해진 기호를 조합해 시각적이고 직접적으로 나타내는 방식

9. 시각적 위계요소

  • 데이터: 불완전하고 비연속적이며, 완전한 메시지가 아니므로 정보 전달 측면에서의 가치는 없음
  • 정보: 서로 다른 데이터간의 관계와 일정을 패턴화 및 가시화 시킴으로써 데이터가 가지는 의미를 전달
  • 지식: 경험을 통해 형성된 지식은 다양한 상황에서 적용할 수 있도록 일반화 한 것
  • 지혜: 개인적 이해의 수준에 따라 결정되는 것으로 도달하기 어려운 단계, 자기 내면화한 지식이기 대문에 명시적인 언어로 상대방에게 전달하기 어려움

10. 데이터 분류

  • 데이터 분류를 진행하기 위해서는 약간의 프로그래밍 기술을 알아야 함
  • json은 자바스크립트에 의해 쉽게 인터프리팅 됨
  • csv파일은 쉼표로 구분되고, tsv파일은 탭으로 구분된다
  • xml형식은 사람과 기계가 모두 읽을 수 있는 형식으로 부호화 하는 규칙의 집합
  • 배열(LATCH): 정보를 정리하고 조직화 하는 기준
    • LOCATION(위치)
      • 정보를 공간적인 위치에 배열
      • 다양한 출처나 장소에 기반을 둔 정보를 조사하고 비교할 때 사용
    • ALPHABET(알파벳)
      • 사전, 전화번호부 등 방대한 정보를조직화 할때 사용
    • TIME(시간)
      • 일정 기간에 일어난 사건을 조직화 하기 위한 최적의 방법
    • CATEGORY(카테고리)
      • 정보의 속성에 따라 분류할 때 적합
      • 중요도나 주제가 서로 유사한 정보에 적합
      • 상점, 슈퍼, 상품, 서적 분류 등에 해당
    • HIERARCHY(위계)
      • 가중치에 따라 분류
      • 정보의 변화에 따라 데이터의 값이나 중요도의 순서로 조직화
      • 가중치는 단위나 수치로 표현 가능

11. 시각화 라이브러리

  • Polymaps
  • D3.js
    • 대부분 SVG객체를 기반으로 동작하지만, 간혹 Canvas 객체를 활용함
    • var group = svg.append() / .attr()
    • tick(): 축의 눈금 단위 지정
    • domain(): scale 입력 값의 범위 지정
    • range(): scale 출력 값의 범위 지정
    • extend(): 배열의 최솟값과 최댓값을 찾아 반환
  • Google Charts

12. 인포그래픽스

  • Visual.ly

13. 데이터 구성 원리

  • 객체지향 관점에서의 접근
    • 데이터의 대략적인 범위가 주어진다면, 데이터를 만들어낼 수 있는 데이터의 구조 자체를 설계, 생성하여 통찰을 얻을 수 있음
    • 구조의 행위를 통해 구조 전체를 파악할 수 있어야 함
    • 데이터의 구성과 생성 배경에 대해 고민함으로써 어떤 식으로 시각화 할지에 대한 답을 찾아야 함
  • 이벤트기록으로서의 접근
    • 로그 데이터와 로그 데이터를 한 번 더 정제한 데이터는 구분할 수 있어야 함

14. 시각화 종류 및 방법

  • 시각화에 사용되는 패키지는 ggplot2
  • 내부 색상을 변경하고 싶을 경우 fill사용
  • 모자이크플롯: 다수의 categorical variable 분포를 파악할 때 사용
  • 관계시각화
    • 히스토그램: 데이터 분류 유형이 많을 경우
    • 버블차트
    • 스캐터플랏: 두 변수의 연관 관계를 보여줄때 사용, 면적을 표시할 필요가 없어 적은 공간에 그릴 수 있음
  • 시간시각화
    • 누적막대그래프: 한 구간이 몇 개의 세부 항목으로 나뉘면서 전체의 합이 의미가 있을 때 사용
    • 막대그래프
    • 점그래프
    • 라인그래프
  • 분포시각화
    • 파이차트
    • 도넛차트
    • 트리맵
    • 누적연속그래프
      • 분포 시각화의 한 종류
      • 몇 개의 시계열 그래프를 차곡차곡 쌓아올려 빈 공간을 채워 만듬
      • 가로축은 시간 세로축은 데이터 값
      • 한 시점의 세로 단면을 가져오면 그 시점의 분포를 볼 수 있음
  • 비교시각화
    • 히트맵
    • 스타차트
    • 평행좌표계
    • 다차원척도법

15. 그래픽 디자인 기본 원리

  • 타이포그래피
    • 타이포그래피에서 가장 어려운 일이 서체를 선택하는 것
    • 글자가 놓이는 바탕색에 크게 영향을 받는다
    • 빛으로 글자를 표현하는 경우 청색은 후퇴되어 보인다
    • 읽어야 할 다음 글자가 다른 글자보다 근접해 있어야 한다
    • 글자사이보다 낱말 사이가 넓어야 하고 낱말보다 글줄 사이가 넓어야 함
    • 시각적 정보표현 에서는 심리적 무게감에 따라 정보의 위계 표현이 가능

16. 정보디자인

  • 데이터 시각화의 주요 목적은 그래픽 의미를 이용해 명확하고 효과적으로 커뮤니케이션하기 위함
  • 사람이 사용할 수 있는 효과적인 정보와 복잡하고 구조적이지 않은 기술 데이터를 시각적으로 표현하는 방법을 의미
  • 인포그래픽은 원데이터를 취급하지 않음
  • 보는 사람들이 좀 더 명확하게 의미를 이해할 수 있도록 도움
  • 개념
    • 맥락만들기
    • 형태만들기
    • 의미만들기

17. 시각화 플랫폼

  • 사용자가 다양한 관점에서 인사이트를 얻을 수 있도록 '지식 시각화' 관점에서 데이터 시각화 기능을 지원
  • 기존의 BI플랫폼은 주로 데이터 분석, 마이닝 등의 기법을 통해 일정한 방식의 결과 리포트를 생성하기 위해 시각화 기술을 활용
  • 주로 BI분야에서 사용되기 때문에 다차원적 데이터 분석 결과를 시각화 하고, 보고서 생성 등의 기능을 지원
  • 플랫폼에서 제공하는 기능과 명령어를 실행해 시각화 가능

18. 시각화 라이브러리: 제공하는 api를 활용해 코드를 작성하여 시각화

19. 정보의 조직화 과정

  • 데이터수집
  • 분류
  • 배열
  • 관계맺기

20. Gephi

  • 네트워크 형태의 데이터를 시각화 할 때 유용
  • 많은 엣지와 노드로 이루어져 복잡한 네트워크 그래프나 시각화 결과물을 만들어 냄
  • 오픈소스 그래프 소프트웨어
  • 사용자가 인터랙티브하게 네트워크나 구조를 탐색할 수 있도록 해줌

21. R에서 제공하는 시각화 방식

  • 히스토그램
  • 별그림
  • 얼굴그림

'Certification > ADP필기' 카테고리의 다른 글

4과목 - 데이터분석  (0) 2023.09.26
3과목 - 데이터 분석 기획  (0) 2023.09.25
2과목 - 데이터 처리 기술의 이해  (0) 2023.09.25
1과목- 데이터 이해  (0) 2023.09.25