1. 데이터베이스의 일반적 특징
- 통합된 데이터(integrated): 데이터중복 없음(관리상의 복잡한 부작용이 오지 않도록)
- 저장된 데이터(stored): 컴퓨터가 접근가능한 저장매체에 저장됨
- 공용데이터(shared): 여러사용자가 다른목적으로 공동으로 이용(대용량이고 구조 복잡함)
- 변화되는 데이터(changed): 저장된 내용은 현시점의 상태(CRUD되더라도 항상 현재의 정확한 상태 유지해야함)
- 특정 조직의 임무를 수행하는데 있어 필요한 상호 관련된 데이터의 집합
- 다수 사용자들이 공동으로 이용하고 유지하는 공용 데이터
- DBMS는 데이터 베이스를 조작하는 별도의 소프트웨어
- 데이터 처리에는 최적화 되어 있지 않음
2. DIKW 피라미드 계층
- 데이터(Data):
- 객관적인 사실 ex) 연필이 A마트는 100원, B마트는 200원 이네
- 형태에 따라 정성 데이터와 정량 데이터로 나뉨
- 사전적으로 추론과 추정의 근거를 이루는 사실
- 암묵지와 형식지의 상호작용에 중요한 역할을 함
- 정보(Information): 데이터 가공, 처리하다가 의미 도출된거 ex) A마트 연필이 더 싸군
- 지식(Knowledge): 다양한 정보 구조화해서 유의미한 정보 도출하고 경험 결합해서 내재화한것 ex) A마트에서 사야지
- 지혜(Wisdom): 지식의 축적과 아이디어가 결합된 창의적 산물 ex) 그럼 다른 물품들도 A마트가 더 싸지 않을까?
3. 소프트스킬 & 하드스킬
- 소프트스킬: 통찰력, 설득력, 협력, 스토리텔링, 창의력, 열정 등 인문학적 요소
- 하드스킬: 지식, 기술숙련도
4. 빅데이터가 만든 변화
- 사전처리 -> 사후처리: 전에는 필요하지 않은 정보는 버렸지만 이제는 가능한 데이터 많이 모아서 숨은 정보 찾아냄
- 표본조사 -> 전수조사: 데이터 수집비용 감소와 클라우드 컴퓨팅의 발전으로 데이터 처리비용 감소함. 따라서 표본조사 했던 것에서 전수조사로 변경되어 숨은 정보나 패턴 찾아냄
- 질 -> 양: 데이터가 많아지면 좋은 정보가 안좋은 정보보다 많아져서 좋은 결과 산출에 도움이 될 것임
- 인과관계 ->. 상관관계: 상관관계를 통해 특정 현상의 발생 가능성이 포착, 이에 상응하는 행동 하도록 추천되는 일이 늘어나고 있음
5. 빅데이터 시대 위기 요인
가. 위기요인
- 사생활침해: 개인정보 포함된 데이터를 목적 외에 사용할 경우 -> 익명화 기술 발전 필요
- 책임원칙 훼손: 예측기술 발전으로 인한 알고리즘의 희생양이 될 가능성 존재 -> 명확하게 행동한 결과에 대한 책임 물어야함
- 데이터오용: 과거의 데이터에 의존하여 미래를 예측하기 때문에 항상 맞을 수 없음 -> 잘못된 지표 사용하지 않도록 해야함
나. 통제방안
- 동의에서 책임으로: 사생활 침해 문제를 해결하기 위해 개인정보 동의에서 개인정보 사용자의 책임으로 변경
- 결과기반 책임원칙 고수: 기존 원칙 좀 더 보강 및 강화 필요, 예측자료에 대한 불이익 당할 가능성을 최소화 할 수 있는 장치 마련 필요
- 알고리즘 접근 허용: 데이터 오용 위기요소에 대한 대응책으로 알고리즘에 대한 접근권을 허용하여 예측 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문
6. 빅데이터 관점에서 사물인터넷
빅데이터 관점에서 사물인터넷은 사물에서 나오는 데이터로 더 똑똑한 기기활용을 할 수 있게 해야 하므로 데이터 수집이 필요하다. 따라서 모든 사물에서 데이터를 추출할 수 있어야 함
7. 인문학 열풍의 원인
- 컨버전스 -> 디버전스: 단순세계화 -> 복잡한 세계화: 세계가 복잡하다, 세계가 다양하다, 연결되어 있다.
- 생산 -> 서비스: 비지니스가 제품생산에서 서비스로 이동
- 생산 -> 시장창조: 공급자 중심의 기술경쟁에서 무형자산의 경쟁으로: 현재 패러다임에 따른 시장창조를 눈여겨본다
- 기존 사고의 틀을 벗어나 문제를 바라보고 창의적으로 문제를 해결하는 능력이 요구되고 있음
8. 개인정보 비식별화
- 데이터마스킹:데이터길이, 유형, 형식 유지하고 새로운 데이터를 생성 ex) 홍길동, 35세 -> 홍**, **세
- 가명처리: 개인정보 주체 이름을 다른 이름으로 변경 및 대체(규칙 노출되지 않게하기) ex) 홍길동, 35세 -> 임꺽정, 30대
- 총계처리: 데이터의 총합으로 나타내어 개별데이터 안보이게 ex) 홍길동 180cm, 이콩쥐 160cm, 임꺽정 170cm -> 키 합: 510cm
- 데이터값 삭제: 개인 식별에 중요한 값 삭제
- 데이터 범주화: 데이터 값을 범주 값으로 변환하여 값 숨김 ex) 홍길동, 35세 -> 홍씨, 30~40세
9. 빅데이터에 거는 기대를 비유하는 말
- 렌즈: 우리가 보지 못했던 것을 보게 해준다.
10. 빅데이터 가치산정 어려운 이유
- 데이터 활용방식: 데이터가 재사용됨, 재조합됨, 다목적으로 사용됨
- 새로운 가치를 창출해냄
- 분석기술이 발전함
11. 분석기반 경영이 도입되지 못하는 이유
- 기존 관행을 따를 뿐 시도하지 않음
- 경영진의 직관적 의사 결정으로 인한 성과가 경영진의 재능이라고 생각함
- 분석적 실험을 능숙하게 해내는 사람이 많지 않고 적절한 방법조차 제대로 익히지 못한 사람이 분석 업무를 수행
- 아이디어 자체에 관심을 갖는 것이 아니라 아이디어를 낸 사람이 누군지에 관심을 많이 가짐
12. 빅데이터 시대 가치 패러다임 변화
- 디지털화(Digitalization) > 연결(Connection) > 에이전시(Agency)
13. sql 명령
- DDL(Data Definition Language): 테이블이나 관계의 구조 생성
- Create, Drop, Alter, Truncate
- DML(Data Manipulation Language): 테이블에 데이터 검색, 삽입, 수정, 삭제
- Insert, Select, Update, Delete
14. 빅데이터
- 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석 등 범위를 초과하는 규모의 데이터
- 대규모 데이터로 부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
- 데이터의 양(Volume), 다양성(Variety), 처리속도(Velocity)가 급격하게 증가하면서 나타남
15. OLAP
- 정보위주의 처리
- 다양한 비지니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근
- 의사결정에 활용할 수 있는 정보를 얻게 해 주는 기술
- 데이터기반 의사결정을 지원하기 위한 리포트 중심의 도구
- 다차원의 데이터를 대화식으로 분석하기 위한 소프트웨어
16. OLTP
- 호스트 컴퓨터와 온라인으로 접속된 여러 단말 간의 처리형태중 하나
17. 빅데이터 분석 테크닉
- 연관규칙
- 최다 구매 패턴을 보이는 상품 진열
- 유형분석
- 유전알고리즘
- 응급실 의사 배치 최적화
- 협업필터링
- 사용자 기호 분석 기반 추적
- 회귀분석
18. CRM
- 고객별 구매이력 데이터베이스를 분석하고 고객에 대한 이해를 진행
- 이를 바탕으로 마케팅 전략을 펼침
19. 데이터 형태
- 정량적(모양, 값, 틀 딱딱 맞아 떨어지는것)
- 수치, 도형, 기호
- 정성적(비정형 데이터들)
- 언어, 문자 등
20. 데이터사이언스와 통계학의 차이
- 데이터사이언스
- 총체적 접근법을 사용
- 정형 및 비정형을 포함한 다양한 유형의 데이터를 분석 대상으로 함
- 분석 뿐만 아니라 이를 효과적으로 구현하고 전달하는 과정 까지 포함
21. 빅데이터 활용에 필요한 기본적인 3요소
- 데이터
- 기술
- 인력
22. NEIS
- 사회기반 구조로써 데이터베이스가 구축되어 활용되고 있는 응용 시스템
- 나이스(대국민 전환 서비스)
'Certification > ADP필기' 카테고리의 다른 글
4과목 - 데이터분석 (0) | 2023.09.26 |
---|---|
5과목 - 데이터 시각화 (0) | 2023.09.26 |
3과목 - 데이터 분석 기획 (0) | 2023.09.25 |
2과목 - 데이터 처리 기술의 이해 (0) | 2023.09.25 |