[DATABASE] 인덱스란? 트리기반 인덱스, 클러스터형 인덱스, 테이블 스캔, 인덱스 스캔이란?

Database/개념

꽁담 2018. 11. 2. 12:20

인덱스 특징과 종류

인덱스는 원하는 데이터를 쉽게 찾을 수 있도록 돕는 책의 찾아보기와 유사한 개념입니다.

인덱스는 테이블을 기반으로 선택적으로 생성할 수 있는 구조입니다.

그렇지만 DML 작업은 테이블과 인덱스를 함께 변경해야 하기 때문에 오히려 느려질 수 있다는 단점이 존재합니다.

트리 기반 인덱스

데이터베이스에서 가장 일반적인 인덱스는 B-트리 인덱스 입니다.

B-트리 인덱스는 브랜치 블록과 리프 블록으로 구성됩니다.

브랜치 블록 중에서 가장 상위에 있는 블록을 루트 블록이라고 합니다.

브랜치 블록은 분기를 목적으로 하는 블록이며, 다음 단계의 블록을 가르키는 포인터를 가지고 있습니다.

리프 블록은 트리의 가장 아래 단계에 존재합니다.

리프 블록은 인덱스를 구성하는 컬럼의 데이터와 해당 데이터를 가지고 있는 행의 위치를 가르키는 레코드식별자로 구성되어 있습니다.

인덱스 데이터는 인덱스를 구성하는 컬럼의 값으로 정렬됩니다. 만약 인덱스 데이터 값이 동일하면 레코드 식별자의 순서로 저장됩니다.

인덱스에서 원하는 값을 찾는 과정

1단계. 브랜치 블록의 가장 왼쪽 값이 찾고자 하는 값보다 작거나 같으면 왼쪽 포인터로 이동한다.

2단계. 찾고자 하는 값이 브랜치 블록의 값 사이에 존재하면 가운데 포인터로 이동한다.

3단계. 오른쪽에 있는 값보다 크면 오른쪽 포인터로 이동한다.

이 과정을 리프 블록을 찾을 때까지 반복합니다.

리프 블록에서 찾고자 하는 값이 존재하면 해당 값을 찾은 것이고, 없으면 해당 값은 존재하지 않아 검색에 실패합니다.

인덱스를 생성할 때 동일 컬럼으로 구성된 인덱스를 중복해서 생성할 수 없습니다.

하지만 인덱스 구성 컬럼은 동일하지만 순서가 다르면 서로 다른 인덱스로 생성할 수 있습니다.

이 외에도 비트맵 인덱스, 리버스 키 인덱스, 함수기반 인덱스 등이 존재합니다.

클러스터형 인덱스

인덱스의 리프 페이지가 곧 데이터 페이지입니다.

따라서 테이블 탐색에 필요한 레코드 식별자가 리프페이지에 없습니다.

리프 페이지의 모든 데이터는 인덱스 키 컬럼 순으로 물리적으로 정렬되어 저장됩니다.

테이블 스캔과 인덱스 스캔

테이블 스캔

테이블 스캔이란 테이블에 존재하는 모든 데이터를 읽어 가면서 조건에 맞으면 결과로 추출하고 그렇지 않으면 버리는 방식으로 검색합니다.

전체 데이터 검색이기 떄문에 느림에도 테이블 스캔을 선택하는 이유는 보통 다음과 같습니다.

1. SQL 문에 조건이 존재하지 않는 경우

2. SQL 문의 주어진 조건에 사용 가능한 인덱스가 존재하지 않는 경우

3. 옵티마이저의 취사 선택 (예 : 인덱스 접근 비용이 테이블 접근 비용보다 더 큰 경우)

4. 강제로 테이블 스캔의 힌트를 주는 경우

인덱스 스캔

인덱스는 인덱스 구성 컬럼의 순서로 정렬되어 있습니다.

인덱스에 접근 한 뒤 추가 조건을 위한 인덱스 컬럼이 없는 경우 테이블에 접근하여 데이터를 가져옵니다.

인덱스 스캔에서 자주 사용되는 3가지 방식입니다.

1. 인덱스 유일 스캔 : 유일 인덱스를 사용하여 단 하나의 데이터를 추출하는 방식입니다.

2. 인덱스 범위 스캔 : 인덱스를 이용하여 한 건 이상의 데이터를 추출하는 방식입니다.

3. 인덱스 역순 범위 스캔 : 인ㄷ넥스의 리프 블록의 양방향 링크를 이용하여 내림차순으로 데이터를 읽는 방식입니다.

이 내용은 'SQL 전문가 가이드, 한국데이터베이스 진흥원' 에서 공부한 내용입니다.