1. 시각화 인사이트 프로세스
- 인사이트 발전과 확장
- 처음으로 무언가를 살펴볼 때는 보텀업 방식이 적절
- 데이터가 많아질수록 실시간으로 처리할 수 있는 탐색과 분석의 수준은 낮아진다
- 몇 가지의 지표에만 집중해도 관계들을 통해 나타나는 전체적인 흐름을 알 수 있다
- 다양한 시각화의 오류와 문제점을 피하기 위해서는 최대한 여러 관점에서 신중하게 고려해야 함
- 1단계: 탐색
- 계층 관계를 갖는 데이터나, 어떤 기준으로 묶인 데이터의 대부분은 형태를 변환해 연결고리를 찾아낼 수 있다.
- 여러 개의 데이터 명세를 보유한 경우, 연결고리를 확인함으로써 명세들을 포괄해 탐색할 수 있는 차원과 측정값의 조합을 정리해야 한다.
- 척도 문제가 발생하는 경우 실제 값을 변형해 같은 공간에 표기해도 각각의 패턴이 명확하게 보이게끔 조정해야 함
- 워들(워드클라우드): 비정형데이터(텍스트)의 관계를 탐색하기 위해 사용하는 시각화
- 2단계: 분석
- 지표를 시각화 도구에 적용할 때에도 역시 지표의 단위가 시각화 도구의 표현 공간상에 다른 데이터들과 함께 표적절하게 표현될 수 있는지 체크해야 한다.
- 3단계: 활용
2. 빅데이터 시각화 프로세스
- 구조화: 빅데이터에서 제공하는 데이터를 활용해 사전 작업을 하면서 시각화의 목표가 될만한 것들을 발견 하고 설정
- 시각화: 시각화 툴에서 제공하는 다양한 그래프를 어떤 이유로, 왜 쓰는지, 어떻게 표현해야 하는지에 대해 설명함
- 시각표현: 시각화 툴로 선택한 그래프를 시각적으로 다듬거나 시각 표현을 극대화 하는 방안 모색
3. 벤프라이 7단계 방법론
- 데이터 수집/마이닝: 분석, 선별, 마이닝
- 그래프가공/시각적표현: 상호작용
4. ~cut 사용할 경우 종류(범례)는 위에 나타남
5. 시각화 및 빅데이터 시각화
- 전문가로써 첫 번째 단계: 개인의 능력을 통해 최신 기술과 도구를 사용하여 정보를 제시하고 분석하는 것
- 전문가로써 두 번째 단계: 데이터 시각화 기술이 아니라 비주얼 인식의 심리적인 부분을 아는 것으로 특정 시각화 기술이 줄 수 있는 한계에 대해서 아는것
- 데이터 시각화
- 시각화의 아름다움에서 정보성이 결여되면 효율성과 참신성이 떨어지는 문제가 발생할 수 있다.
- 정보형메세지(데이터를 직접적으로 전달하는 기능)를 전달하기 위한 시각화가 주를 이룸
- 빅데이터 시각화
- 빅데이터 시각화에서 중요한 것은 정보 디자인의 의도와 방향이 목적과 어긋나지 않도록 하는 것
- 설득형메세지(데이터를 기초로 해석된 의미)를 전달하기 위한 경우에는 인포그래픽에 해당하는 결과물이 도출될 수 있음(인포시각화)
- 데이터를 기반으로 객관적 표현에 더 초점을 맞추는 경우가 많음: 정보형 메세지를 전달하는 경향이 많다
6. 시각화 명령어
- <aa>.layout.bar(): bar 그래프
- <aa>.layout.plot(): 다양한 목적의 그래프 구현 가능
- <aa>.layout.map(): 지도그래프
- <aa>.layout.pie(): 파이그래프
7. 터프티의 디자인 7원칙
- 정보를 디자인할때는 원인과 결과를 명쾌하게 제시해야 한다
- 트랜드를 나타내기 위해 정량적 자료를 그래프나 도표로 제시하는 것이 좋다
- 연관된 변수와 트랜드를 비교할 수 있는 도구를 제공하는 것이 좋다
- 시간보다 공간에 따라 나열하는 것이 사용자의 쉬운 이해를 돕는다
- 정량적 지표의 정당성은 제시하지 않는 것이 좋다
- 다중 변수를 표시하여 관련된 변수의 정보를 표현한다
- 시간적 비교를 강화하여 정보의 가치를 높인다
8. 시각화를 위한 그래픽 디자인 기본 원리
- 타이포그래피에서 가장 어려운 일이 서체를 선택하는 것
- 색상에서 두 가지 색상을 쓰는 경우 보색을 이용하고 명도와 채도를 같게 하면 된다
- 그리드에서 3등분 법칙에 따라 요소를 배치하면 디자인에 비해 간격을 끌어들여 미학적으로 만족스러운 균형이 잡힘
- 아이소타이프: 정보, 자료, 개념 의미 등을 나타내기 위해 문자와 숫자 대신 상징적 도형이나 정해진 기호를 조합해 시각적이고 직접적으로 나타내는 방식
9. 시각적 위계요소
- 데이터: 불완전하고 비연속적이며, 완전한 메시지가 아니므로 정보 전달 측면에서의 가치는 없음
- 정보: 서로 다른 데이터간의 관계와 일정을 패턴화 및 가시화 시킴으로써 데이터가 가지는 의미를 전달
- 지식: 경험을 통해 형성된 지식은 다양한 상황에서 적용할 수 있도록 일반화 한 것
- 지혜: 개인적 이해의 수준에 따라 결정되는 것으로 도달하기 어려운 단계, 자기 내면화한 지식이기 대문에 명시적인 언어로 상대방에게 전달하기 어려움
10. 데이터 분류
- 데이터 분류를 진행하기 위해서는 약간의 프로그래밍 기술을 알아야 함
- json은 자바스크립트에 의해 쉽게 인터프리팅 됨
- csv파일은 쉼표로 구분되고, tsv파일은 탭으로 구분된다
- xml형식은 사람과 기계가 모두 읽을 수 있는 형식으로 부호화 하는 규칙의 집합
- 배열(LATCH): 정보를 정리하고 조직화 하는 기준
- LOCATION(위치)
- 정보를 공간적인 위치에 배열
- 다양한 출처나 장소에 기반을 둔 정보를 조사하고 비교할 때 사용
- ALPHABET(알파벳)
- 사전, 전화번호부 등 방대한 정보를조직화 할때 사용
- TIME(시간)
- 일정 기간에 일어난 사건을 조직화 하기 위한 최적의 방법
- CATEGORY(카테고리)
- 정보의 속성에 따라 분류할 때 적합
- 중요도나 주제가 서로 유사한 정보에 적합
- 상점, 슈퍼, 상품, 서적 분류 등에 해당
- HIERARCHY(위계)
- 가중치에 따라 분류
- 정보의 변화에 따라 데이터의 값이나 중요도의 순서로 조직화
- 가중치는 단위나 수치로 표현 가능
- LOCATION(위치)
11. 시각화 라이브러리
- Polymaps
- D3.js
- 대부분 SVG객체를 기반으로 동작하지만, 간혹 Canvas 객체를 활용함
- var group = svg.append() / .attr()
- tick(): 축의 눈금 단위 지정
- domain(): scale 입력 값의 범위 지정
- range(): scale 출력 값의 범위 지정
- extend(): 배열의 최솟값과 최댓값을 찾아 반환
- Google Charts
12. 인포그래픽스
- Visual.ly
13. 데이터 구성 원리
- 객체지향 관점에서의 접근
- 데이터의 대략적인 범위가 주어진다면, 데이터를 만들어낼 수 있는 데이터의 구조 자체를 설계, 생성하여 통찰을 얻을 수 있음
- 구조의 행위를 통해 구조 전체를 파악할 수 있어야 함
- 데이터의 구성과 생성 배경에 대해 고민함으로써 어떤 식으로 시각화 할지에 대한 답을 찾아야 함
- 이벤트기록으로서의 접근
- 로그 데이터와 로그 데이터를 한 번 더 정제한 데이터는 구분할 수 있어야 함
14. 시각화 종류 및 방법
- 시각화에 사용되는 패키지는 ggplot2
- 내부 색상을 변경하고 싶을 경우 fill사용
- 모자이크플롯: 다수의 categorical variable 분포를 파악할 때 사용
- 관계시각화
- 히스토그램: 데이터 분류 유형이 많을 경우
- 버블차트
- 스캐터플랏: 두 변수의 연관 관계를 보여줄때 사용, 면적을 표시할 필요가 없어 적은 공간에 그릴 수 있음
- 시간시각화
- 누적막대그래프: 한 구간이 몇 개의 세부 항목으로 나뉘면서 전체의 합이 의미가 있을 때 사용
- 막대그래프
- 점그래프
- 라인그래프
- 분포시각화
- 파이차트
- 도넛차트
- 트리맵
- 누적연속그래프
- 분포 시각화의 한 종류
- 몇 개의 시계열 그래프를 차곡차곡 쌓아올려 빈 공간을 채워 만듬
- 가로축은 시간 세로축은 데이터 값
- 한 시점의 세로 단면을 가져오면 그 시점의 분포를 볼 수 있음
- 비교시각화
- 히트맵
- 스타차트
- 평행좌표계
- 다차원척도법
15. 그래픽 디자인 기본 원리
- 타이포그래피
- 타이포그래피에서 가장 어려운 일이 서체를 선택하는 것
- 글자가 놓이는 바탕색에 크게 영향을 받는다
- 빛으로 글자를 표현하는 경우 청색은 후퇴되어 보인다
- 읽어야 할 다음 글자가 다른 글자보다 근접해 있어야 한다
- 글자사이보다 낱말 사이가 넓어야 하고 낱말보다 글줄 사이가 넓어야 함
- 시각적 정보표현 에서는 심리적 무게감에 따라 정보의 위계 표현이 가능
16. 정보디자인
- 데이터 시각화의 주요 목적은 그래픽 의미를 이용해 명확하고 효과적으로 커뮤니케이션하기 위함
- 사람이 사용할 수 있는 효과적인 정보와 복잡하고 구조적이지 않은 기술 데이터를 시각적으로 표현하는 방법을 의미
- 인포그래픽은 원데이터를 취급하지 않음
- 보는 사람들이 좀 더 명확하게 의미를 이해할 수 있도록 도움
- 개념
- 맥락만들기
- 형태만들기
- 의미만들기
17. 시각화 플랫폼
- 사용자가 다양한 관점에서 인사이트를 얻을 수 있도록 '지식 시각화' 관점에서 데이터 시각화 기능을 지원
- 기존의 BI플랫폼은 주로 데이터 분석, 마이닝 등의 기법을 통해 일정한 방식의 결과 리포트를 생성하기 위해 시각화 기술을 활용
- 주로 BI분야에서 사용되기 때문에 다차원적 데이터 분석 결과를 시각화 하고, 보고서 생성 등의 기능을 지원
- 플랫폼에서 제공하는 기능과 명령어를 실행해 시각화 가능
18. 시각화 라이브러리: 제공하는 api를 활용해 코드를 작성하여 시각화
19. 정보의 조직화 과정
- 데이터수집
- 분류
- 배열
- 관계맺기
20. Gephi
- 네트워크 형태의 데이터를 시각화 할 때 유용
- 많은 엣지와 노드로 이루어져 복잡한 네트워크 그래프나 시각화 결과물을 만들어 냄
- 오픈소스 그래프 소프트웨어
- 사용자가 인터랙티브하게 네트워크나 구조를 탐색할 수 있도록 해줌
21. R에서 제공하는 시각화 방식
- 히스토그램
- 별그림
- 얼굴그림
'Certification > ADP필기' 카테고리의 다른 글
4과목 - 데이터분석 (0) | 2023.09.26 |
---|---|
3과목 - 데이터 분석 기획 (0) | 2023.09.25 |
2과목 - 데이터 처리 기술의 이해 (0) | 2023.09.25 |
1과목- 데이터 이해 (0) | 2023.09.25 |