데이터마이닝 기법과 응용

1 개요[ | ]

데이터마이닝 기법과 응용

저자: 전치혁
ISBN 9788955661392

2 책소개 (출판사)[ | ]

데이터마이닝의 주요 기법을 쉽게 다룬 ‘데이터마이닝 교과서’

데이터마이닝이란 주제는 최근에 매우 보편화되어 많은 입문서가 출판되고 다양한 기법들이 논문을 통해 발표되고 있다. 하지만 이공계 대학생이나 대학원생을 위한 입문서는 찾아보기 어렵다. 이 책은 데이터마이닝을 접하는 독자들이 데이터마이닝의 주요 기법에 대한 이론을 쉽게 이해할 수 있도록, 단순한 소프트웨어 사용법을 싣는 대신에 대표적인 데이터마이닝 기법의 기본 개념 및 원리 등을 설명하는 데 주력했다. 따라서 대학에서는 이 책을 데이터마이닝 관련 과목의 교과서로 활용할 수 있으며, 기업 및 연구소의 연구자들은 지침서로 이용할 수 있다. 이 책에서는 여러 기법의 소개와 함께 예제를 가능한 많이 수록하여, 예제를 통해 기법을 쉽게 이해할 수 있도록 돕는다. 또한, 장마다 연습문제를 실어 복습할 수 있도록 하였다. 일부 연습문제를 풀기 위해서는 소프트웨어의 도움이 필요하지만 이 책에서는 기법에 중심을 두고자 소프트웨어의 어떤 기능을 어떻게 사용할 수 있다는 것은 언급하지 않고 있다. 최근에는 인터넷 등에서도 데이터마이닝 관련 무료 소프트웨어를 구하여 사용할 수 있으므로 기법을 이해한다면 소프트웨어의 사용은 무난할 것이다.

주요 내용

데이터마이닝 기법을 목적에 따라 크게 예측, 분류분석, 군집분석, 연관규칙으로 나눌 수 있는데, 이 책에서는 이와 같은 구분에 따라 4부로 구성하였다. 1부의 예측 기법에서는 회귀분석, 주성분분석 및 부분최소자승 회귀분석을 다루고 있다. 2부의 분류분석에서는 로지스틱 회귀분석, 판별분석, 트리기반 기법, 그리고 서포트 벡터 머신을 설명하고 있다. 3부에서는 군집분석을 다루고 있는데, 크게 계층적 군집분석과 비계층 군집분석으로 우선 구분하여 계층적 군집분석에서는 주로 연결법을 설명하고 비계층 군집분석에서는 K-means, K-medoids, 퍼지 K-means, 모형기반 군집방법 등을 소개하고 있다. 마지막 4부에서는 연관규칙과 추천시스템을 포함하고 있다. 연관규칙은 많은 데이터마이닝 서적에서 구체적인 알고리즘을 소개하지 않고 있지만 데이터로부터 유용한 패턴을 찾는다는 데이터마이닝의 주목적에 부합하는 주제이므로 이 책에서는 다루고 있다.

3 목차[ | ]

1장 데이터마이닝 개요

1.1 데이터마이닝의 기능과 기법
1.2 데이터마이닝의 활용 분야
1.3 참고사항

1부 / 예측

2장 회귀분석

2.1 다중회귀모형
2.2 회귀계수의 추정
2.3 모형에 따른 추론
2.4 변수선택 방법
2.5 회귀모형의 진단
2.6 반응치에 대한 추정 및 예측
2.7 다중공선성
2.8 지시변수와 회귀모형
2.9 참고사항

3장 주성분분석

3.1 변수의 변동과 제곱합
3.2 주성분의 이해
3.3 행렬의 분해
3.4 주성분 스코어
3.5 제곱합 분해
3.6 NIPALS 알고리즘
3.7 주성분 회귀분석
3.8 참고사항

4장 부분최소자승 회귀분석

4.1 하나의 종속변수에 대한 PLS 회귀분석
4.2 다수의 종속변수에 대한 PLS 회귀분석
4.3 예측성능 평가
4.4 참고사항

2부 / 분류분석

5장 분류분석 개요

5.1 분류문제 및 분류기법
5.2 기본적인 분류기법
5.3 참고사항

6장 로지스틱 회귀분석

6.1 이분 로지스틱 회귀모형
6.2 명목 로지스틱 회귀모형
6.3 서열 로지스틱 회귀모형
6.4 참고사항

7장 판별분석

7.1 피셔 방법
7.2 의사결정론에 의한 분류규칙
7.3 오분류비용을 고려한 분류규칙
7.4 이차판별분석
7.5 세 범주 이상의 분류
7.6 참고사항

8장 트리기반 기법

8.1 CART 개요
8.2 트리의 형성
8.3 가지치기 및 최종 트리 선정
8.4 기타 트리 기법
8.5 참고사항

9장 서포트 벡터 머신

9.1 선형 SVM-분리 가능 경우
9.2 선형 SVM-분리 불가능 경우
9.3 비선형 SVM
9.4 참고사항

10장 분류규칙의 성능 평가

10.1 분류오류율
10.2 정확도, 민감도 및 특이도
10.3 ROC 곡선
10.4 이익도표
10.5 참고사항

3부 / 군집분석

11장 군집분석 개요

11.1 군집분석 기법
11.2 객체 간의 유사성 척도
11.3 범주형 객체의 유사성 척도
11.4 참고사항

12장 계층적 군집방법

12.1 군집 간 거리척도 및 연결법
12.2 연결법의 군집 알고리즘
12.3 워드 방법
12.4 분리적 방법-다이아나
12.5 군집수의 결정
12.6 참고사항

13장 비계층적 군집방법

13.1 K-means 알고리즘
13.2 K-medoids 군집방법
13.3 퍼지 K-means 알고리즘
13.4 모형기반 군집방법
13.5 참고사항

14장 군집해의 평가 및 해석

14.1 군집해의 평가
14.2 군집해의 해석
14.3 참고사항

4부 / 연관규칙

15장 연관규칙

15.1 연관규칙의 정의 및 성능척도
15.2 연관규칙의 탐사
15.3 순차적 패턴의 탐사
15.4 항목의 선정
15.5 참고사항

16장 추천시스템

16.1 내용기반 추천시스템
16.2 협업 필터링
16.3 시장바구니 데이터를 이용한 협업 필터링
16.4 참고사항