UTL_MATCH

UTL_MATCH 패키지의 기본 개념과 패키지 내의 함수를 사용하는 방법을 설명합니다.

개요

UTL_MATCH는 두 문자열의 유사도를 계산하는 함수들을 제공하는 패키지입니다.

본 패키지는 두 문자열의 유사도를 계산하는 방법들 중, Levenshtein 알고리즘을 사용하여 Edit Distance 를 산출하는 방법과 Jaro-Winkler 알고리즘을 사용하여 Match Score를 산출하는 방법을 사용하는 함수들 을 제공합니다.

함수

본 절에서는 UTL_MATCH 패키지에서 제공하는 함수를 알파벳 순으로 설명합니다.

EDIT_DISTANCE

주어진 두 문자열의 Edit Distance를 Levenshtein 알고리즘을 이용하여 산출하여 반환하는 함수입니다.

EDIT_DISTANCE 함수의 세부 내용은 다음과 같습니다.

  • 프로토타입

UTL_MATCH.EDIT_DISTANCE
(
        S1    IN      VARCHAR2,
        S2    IN      VARCHAR2
)
RETURN PLS_INTEGER;
  • 파라미터

파라미터
설명

S1

피연산자

S2

피연산자

  • 반환값

반환값
설명

PLS_INTEGER

  • str1과 str2의 Edit Distance 산출 결과를 반환

  • str1과 str2 중 하나라도 NULL인 경우는 -1을 반환

  • 예제

EDIT_DISTANCE_SIMILARITY

Levenshtein 알고리즘을 이용하여 산출한 주어진 두 문자열의 Edit Distance를 두 문자열 중 긴 문자열의 길이로 Normalize후 백분율 값으로 반환하는 함수입니다.

EDIT_DISTANCE_SIMILARITY 함수의 세부 내용은 다음과 같습니다.

  • 프로토타입

  • 파라미터

파라미터
설명

S1

피연산자

S2

피연산자

  • 반환값

반환값
설명

PLS_INTEGER

  • str1과 str2의 Edit Distance 산출 결과를 Length가 긴 피연산자의 Length로 Normalize한 값을 백분율 값으로 반환

  • str1과 str2가 모두 NULL인 경우는 100을 반환하고, 둘 중 하나만 NULL인 경 우는 0을 반환

  • 예제

JARO_WINKLER

주어진 두 문자열의 Match Score를 Jaro-Winkler 알고리즘을 사용하여 산출한 후 반환하는 함수입니다.

JARO_WINKLER 함수의 세부 내용은 다음과 같습니다.

  • 프로토타입

  • 파라미터

파라미터
설명

S1

피연산자

S2

피연산자

SCALING_FACTOR

  • 최대 4자까지의 공통 prefix에 부여되는 가중치(scaling factor)

  • 이 값은 prefix 보너스가 과도해지는 것을 막기 위해 일반적으로 0.25(=1/4)를 넘기지 않으며, 0.1이 표준값처럼 널리 사용되어 기본값이 0.1

  • 반환값

반환값
설명

BINARY_DOUBLE

  • str1과 str2의 Match Score 산출 결과를 반환

  • str1과 str2 중 하나라도 NULL인 경우는 0을 반환

  • 예제

JARO_WINKLER_SIMILARITY

Jaro-Winkler 알고리즘을 이용하여 산출한 주어진 두 문자열의 Match Score를 백분율 값으로 반환하는 함수입니다.

JARO_WINKLER_SIMILARITY 함수의 세부 내용은 다음과 같습니다.

  • 프로토타입

  • 파라미터

파라미터
설명

S1

피연산자

S2

피연산자

SCALING_FACTOR

  • 최대 4자까지의 공통 prefix에 부여되는 가중치(scaling factor)

  • 이 값은 prefix 보너스가 과도해지는 것을 막기 위해 일반적으로 0.25(=1/4)를 넘기지 않으며, 0.1이 표준값처럼 널리 사용되어 기본값이 0.1

  • 반환값

반환값
설명

PLS_INTEGER

  • str1과 str2의 Match Score 산출 결과를 백분율값으로 반환

  • str1과 str2 중 하나라도 NULL인 경우는 0을 반환

  • 예제

Last updated