Chapter 5 OMOP 표준 용어

Chapter leads: Christian Reich & Anna Ostropolets

흔히 “용어 Vocabulary”라고 불리는 OMOP 표준 용어 Standardized Vocabularies는 OHDSI 연구 네트워크의 기초적인 부분이자, 공통 데이터 모델(CDM)의 핵심 부분이다. OMOP 표준 용어는 데이터의 내용을 정의함으로써 분석 방법, 정의, 결과를 표준화하여 진정한 원격 (방화벽 안에서) 네트워크 연구와 분석을 가능하게 한다. 일반적으로, 코딩 체계를 사용한 구조화된 데이터이든 혹은 자유 진술 문으로 구성된 데이터이든, 관찰 의료 데이터의 내용을 찾아 해석하는 것은 임상 사건을 설명하는 수많은 방법을 고민하는 연구 실무자에게까지 전달되기 마련이다. OHDSI는 표준화된 형식뿐 아니라 엄격한 표준 콘텐츠와의 조화가 필요하다.

이 장에서는 먼저 기초적인 부분을 이해하고 활용하기 위해, 표준 용어의 주요 원칙, 구성 요소 및 관련 규칙, 규약 및 일반적인 상황에 관해 설명하고자 한다. 또한 이를 지속해서 개선하기 위해 커뮤니티의 지원이 필요한 부분을 언급할 것이다.

5.1 왜 용어 Vocabulary인가, 그리고 왜 표준화인가?

의학 용어의 역사는 흑사병 plague 및 기타 질병을 관리하기 위해 사용했던, 중세 런던의 사망 증명서 Bills of Mortality까지 거슬러 올라간다. (그림 5.1 참조)

1660 London Bill of Mortality, 당시 알려진 62가지 질병의 분류 체계를 사용하여 사망한 거주자의 사망 원인을 보여준다.

Figure 5.1: 1660 London Bill of Mortality, 당시 알려진 62가지 질병의 분류 체계를 사용하여 사망한 거주자의 사망 원인을 보여준다.

그 후, 의학 용어 분류는 규모와 복잡성이 크게 확대되면서 시술, 서비스, 약물, 의료기기 등, 의료의 다른 측면으로 널리 전파되었다. 의학 용어 분류의 주요 원칙은 동일하게 유지된다. 즉, 일부 의료 커뮤니티가 환자 데이터를 획득, 분류 및 분석하기 위한 목적으로 동의한 통제 어휘, 전문용어, 계층 hierarchy 및 언어 개념 ontology이다. 이러한 용어집의 상당수는 공공기관과 정부 기관에서 장기적으로 의무 관리하고 있다. 예를 들면, 세계보건기구(WHO)는 최근 국제 질병분류(ICD)에 11차 개정판(ICD11)을 추가하였다. 지역 정부는 KCD7(한국), ICD10CM(미국), ICD10GM(독일) 등과 같은 국가별 버전을 만들고 있다. 정부는 또한 의약품의 마케팅과 판매를 통제하고 인증된 의약품의 목록을 운영하고 있다. 용어집은 상업용 제품 또는 내부용으로 민간 부문에서도 사용된다. 예를 들면, 전자 의무 기록 Electronic Health Records(EHR) 시스템과 의료보험청구용이 있다.

그 결과, 각 국가, 지역, 의료시스템과 의료기관은 그 용어가 사용되는 지역에서만 쓰이는 자체 질병분류체계를 갖고 있을 가능성이 크다. 이렇게 무수히 많은 용어집은 사용 중인 시스템의 상호운용성을 방해한다. 표준화는 환자 데이터 교환을 가능하게 하고, 전 세계적 수준의 의료 데이터 분석의 길을 열어주고, 성능 특성 분석 및 품질 평가를 포함한 체계적이고 표준화된 연구를 가능하게 하는 핵심 요소이다. 이러한 문제를 해결하기 위해, 위에서 언급된 WHO와 the Standard Nomenclature of Medicine(SNOMED) 또는 Logical Observation Identifiers Names and Codes(LOINC) 같은 다국적 기관이 생겨나고 광범위한 표준을 만들기 시작했다. 미국의 보건 IT 표준 위원회 Health IT Standards Committee(HITAC)는 다양한 단체 간의 건강 정보 교환을 위한 공통 플랫폼에서 사용하기 위해 ONC(National Coordinator for Health IT)의 표준으로 SNOMED, LOINC 및 약물 용어인 RxNorm을 사용할 것을 권장하고 있다.

OHDSI는 관찰 연구를 위한 국제 표준인 OMOP CDM을 개발했다. CDM의 일부로, OMOP 표준 용어는 다음 두 가지 목적으로 사용 할 수 있다:

  • 커뮤니티에서 사용되는 모든 용어의 공통 저장 자료
  • 연구에 사용하기 위한 표준화와 매핑

표준화된 용어는 커뮤니티에 무료로 제공되며, OMOP CDM 실제 사용 시마다 필수 참조 테이블로 사용되어야 한다.

5.1.1 표준화된 용어 구축

표준 용어의 모든 용어는 같은 공통 형식으로 통합된다. 이를 통해 연구자가 기존 용어의 여러 가지 형식과 수명 주기 규칙을 이해하거나 처리할 필요가 없다. 모든 용어는 Pallas 시스템21을 사용하여 정기적으로 업데이트되고, 통합된다. 용어는 OMOP CDM 워크그룹의 일부인 OHDSI Vocabulary 팀이 만들어 운영하고 있다. 오류가 발견되면 OHDSI Forums22 또는 CDM Github 페이지23에 게시하여 오류를 보고하고 리소스를 개선할 수 있도록 도와주길 바란다.

5.1.2 표준 용어 이용하기

표준 용어 정보를 얻기 위해, Pallas를 직접 실행할 필요는 없다. 대신, ATHENA24에서 최신 버전을 다운로드하여 로컬 데이터베이스에 적재하면 된다. ATHENA는 강력한 용어 검색 기능도 가지고 있다.

모든 표준 용어 테이블에 포함된 zip 파일을 다운로드하려면, OMOP CDM에 필요한 모든 용어집을 선택해야 한다. 표준 개념 standard concept을 가진 용어집은 (5.2.6절 참조) 미리 선택되어 있다. 원천 데이터에 사용되는 용어를 추가한다. 저작권이 있는 용어집은 선택할 수 없다. 해당 용어집을 리스트에 포함하려면 “License required” 버튼을 클릭해야 한다. 용어팀이 당신에게 연락할 것이고, 당신이 라이센스를 제출하도록 요청하거나, 해당 라이센스를 얻는데 적절한 사람과 연결해줄 것이다.

5.1.3 용어의 원천: 도입 vs 구축

OHDSI는 일반적으로 용어집을 새로 구축하기보다는 기존에 사용되는 용어집을 채택하는 것을 선호한다. 왜냐하면 (i) 많은 용어집이 이미 공동체의 관찰 데이터에 사용되어 왔으며 (ii) 용어집의 구성 및 유지 관리가 복잡하여 오랜 기간 동안 많은 이해관계자의 의견을 수렴해야 하기 때문이다. 이러한 이유로, 전담 조직은 생성, 사용 중단, 병합 및 분할의 수명 주기에 따라 용어집을 제공하고 있다. (5.2.10절 참조) 현재 OHDSI는 Type Concept (예를 들어, condition type concept)와 같은 내부 관리 용어만 생성하고 있다. 유일한 예외는 RxNorm Extension인데, RxNorm Extension은 미국 내부에서 사용되지 않는 약물들에 대한 용어집이다. (5.6.9절 참조)

5.2 개념 Concept

OMOP CDM의 모든 임상 기록은 개념 concept으로 표현되며, 이는 각 기록의 의미를 나타낸다. CDM에서 concept은 데이터 기록의 기본적인 구성 요소로써, 모든 테이블을 거의 예외 없이 완전 정규화한다. CONCEPT 테이블은 CDM 내의 사전과 같으며, CDM 내부의 모든 concept 은 이 사전 안에 정의되어 있다. 달리 말해 CONCEPT 테이블에 없다면, 해당 용어는 CDM 내의 concept ID를 갖지 못하고, 데이터를 정규화하여 기록하기 힘들어진다. (그림 5.2 참조)

OMOP CDM에서 vocabulary의 표준 표현. 위의 예는 심방세동의 SNOMED 코드에 대한 CONCEPT 테이블 레코드이다.

Figure 5.2: OMOP CDM에서 vocabulary의 표준 표현. 위의 예는 심방세동의 SNOMED 코드에 대한 CONCEPT 테이블 레코드이다.

그러므로 이 시스템은 포괄적이지 않으면 안 된다. 즉, 환자의 의료 경험 (예를 들어, 진단명, 시술, 약물 노출 등) 및 의료시스템의 일부 관리 정보 (예를 들어, 병원 방문, 관리 부위 등)과 관련된 모든 이벤트를 포괄할 만큼 충분히 많은 concept이 있어야 한다.

5.2.1 개념 ID

각각의 concept은 concept ID를 기본 키 primary key로 가진다. 무의미한 정수로 이루어진 이 ID는, 해당 원본 코드를 대신하여 CDM 테이블에 데이터를 기록하는 데 사용된다.

5.2.2 개념 이름 Concept name

각 concept에는 하나의 이름이 있다. 그 이름은 항상 영어로 되어있고, 원천 source으로부터 가져온다. 원천 용어에 둘 이상의 이름을 가지고 있으면, 가장 표현력이 높은 이름이 선택되고, 나머지 이름은 동일한 CONCEPT_KEY로 CONCEPT_SYNONYM 테이블에 저장된다. 영어 이외의 이름은 CONCEPT_SYNONYM에 기록되며, 적합한 language concept ID가 LANGUAGE_CONCEPT_ID 필드에 기록된다. 이름은 255자까지의 길이를 가지는데, 너무 긴 이름은 잘라내고 최대 1,000자까지 저장 가능한 다른 이름의 동의어로 기록된다.

5.2.3 도메인

각 concept에는 DOMAIN_ID 필드에 도메인이 할당되는데, 정수로 되어 있는 CONCEPT_ID와 달리 도메인의 경우 대소문자를 구분하면서 길이가 짧은 고유한 문자 ID이다. 이러한 각 도메인의 예로는 “Condition”, “Drug”, “Procedure”, “Visit”, “Device”, “Specimen” 등이 있다. 모호하거나 조합된 개념 pre-coordinated (combination) concept의 경우 combination 도메인에 속할 수 있으나, standard concept에는 (5.2.6절 참조) 항상 단일 도메인이 할당된다. 도메인은 또한 어떤 임상 사건 또는 임상 속성 등이 어떤 CDM 테이블과 필드에 기록되어야 하는지 알려준다. 도메인 할당은 Pallas 내에 경험적 지식을 이용한 용어 수집 중에 수행되는 OMOP 고유의 특징이다. 원천 용어는 서로 다른 도메인이 함께 혼재된 경우가 많으나, 그 정도는 각기 다르다 (그림 5.3 참조).

시술 용어인 CPT4와 HCPCS의 도메인 할당 비율. 직관적으론, 이러한 용어집은 한 도메인의 코드와 개념을 포함하고 있어야 하지만, 실제로는 여러 도메인이 혼재되어있다.

Figure 5.3: 시술 용어인 CPT4와 HCPCS의 도메인 할당 비율. 직관적으론, 이러한 용어집은 한 도메인의 코드와 개념을 포함하고 있어야 하지만, 실제로는 여러 도메인이 혼재되어있다.

경험적 지식을 이용한 도메인 할당 방법은 도메인의 정의를 따라 진행한다. 이러한 정의는 CDM의 테이블 및 필드 정의에서 파생된다 (4장 참조). 경험적 지식은 완벽하지 않으며, 불분명하다 (5.6절의 “Special Situations” 참조). 만일, 도메인이 잘못 지정된 concept을 발견한다면, Forums 또는 CDM issue 게시판을 통하여, 문제점을 보고하고 개선하도록 도와주기 바란다.

5.2.4 용어집 Vocabularies

각 용어집에는 대소문자를 구분하는 고유한 문자 ID가 있으며, 일반적으로 용어집의 약어 이름을 쓰고, 대시는 생략한다. 예를 들자면, ICD-9-CM의 용어 ID(vocabulary ID)는 “ICD9CM”, KCD-7의 용어 ID 는 “KCD7”이다. 현재 OHDSI가 지원하는 용어집은 111개로, 그중 78개가 외부 source에서 채택되었고, 나머지는 OMOP 내부 용어집이다. 이러한 용어는 일반적으로 분기별 일정에 따라 갱신된다. 용어집의 버전은 VOCABULARY reference file에 따라 정의되어 있다.

5.2.5 개념 계층 Concept Classes

일부 용어집은 대소문자를 구분하는 고유한 문자 ID를 통해 내부의 코드나 concept을 분류한다. 예를 들어, SNOMED에는 “semantic tag”라고 불리는 33가지 concept class을 가지고 있다. “clinical finding”, “social context”, “body structure” 등과 같은 concept class 은 concept의 수직적 구분을 의미한다. MedDRA 또는 RxNorm과 같은 다른 concept은 계층 내에 수평적인 수준을 분류하는 concept class 개념 계층를 가지고 있다. 다시 말해 concept class 는 각 용어 vocabulary 내의 세부 분류로 이해할 수 있다. HCPCS와 같이 concept class가 없는 용어는 vocabulary ID (‘HCPCS’)가 그대로 concept class ID로 사용된다.

Table 5.1: 개념 계층에서 수평 및 수직 하위분류 원칙에 따른 용어집
Concept class subdivision principle Vocabulary
Horizontal all drug vocabularies, ATC, CDТ, Episode, HCPCS, HemOnc, ICDs, MedDRA, OSM, Census
Vertical CIEL, HES Specialty, ICDO3, MeSH, NAACCR, NDFRT, OPCS4, PCORNET, Plan, PPI, Provider, SNOMED, SPL, UCUM
Mixed CPT4, ISBT, LOINC
None APC, all Type Concepts, Ethnicity, OXMIS, Race, Revenue Code, Sponsor, Supplier, UB04s, Visit

수평적 개념 계층을 사용하면 특정 계층 수준을 지정할 수 있게 해준다. 예를 들어, 약물 용어의 RxNorm에서 “성분 Ingredient” 개념 계층은 약물의 최상위층 계급 레벨을 정의한다 (역자 주: RxNorm 에서는 Ingredient 보다 상위의 class가 없다). 수직적 모델에서 concept class 요소는 최상위에서 맨 아래까지 모든 class 중의 하나일 수 있다.

5.2.6 표준 개념

각 임상 사건의 의미를 나타내는 하나의 개념을 표준 개념 Standard concept이라고 부른다. 예를 들면, MESH 코드 D001281, CIEL 코드 148203, SNOMED 코드 49436004, KCD7 코드 I48, ICD9CM 코드 427.31 및 Read 코드 G573000은 모두 condition 도메인에서 “심방세동 atrial fibrillation”을 정의하지만, condition 데이터에서는 SNOMED concept만이 표준이고 질환을 의미할 수 있다. 나머지는 non-standard concept 또는 원천 개념 source concept으로, standard concept에 매핑 되어야 한다. Standard concept은 STANDARD_CONCEPT 필드에 “S”라고 표시한다. 그리고 이러한 standard concept만이 “_CONCEPT_ID“로 끝나는 CDM 필드에 데이터를 기록하는 데 사용된다. CONCEPT 테이블의 INVALID_REASON 은 NULL이어야 한다. (역자 주: CONCEPT 테이블에서 standard concept의 INVALID_REASON 필드를 NULL이 아니라 공란(”“)으로 놔둘 경우, 표준 CDM 분석 파이프라인에서 오류가 발생하며, 이것은 가장 흔하게 발생하는 문제 중 하나이다.)

5.2.7 비표준 개념

비표준 개념 Non-Standard concept은 임상 사건을 나타내는 데 사용되지 않으나, 여전히 표준 용어집의 일부를 구성하고 원천 데이터에서 주로 발견된다. 이런 이유로, 이것을 “원천 개념 source concepts”이라고 부른다. source concept을 standard concept으로 변환하는 과정을 “매핑 mapping”이라고 부른다 (5.3.1절 참조). Non-standard concept 또는 source concept 들은 각 테이블의 _SOURCE_CONCEPT_ID 필드에 저장될 수 있다. CONCEPT 테이블에서 Non-standard concept은 STANDARD_CONCEPT 필드에 값이 없다(NULL).

5.2.8 분류 개념

분류 개념 Classification concept은 표준이 아니므로 데이터를 나타내는 데 사용할 수 없다. 하지만 standard concept과 어우러져 계층 구조를 나타냄으로써, 계층 쿼리 hierarchical queries를 수행하는데 사용할 수 있다. 예를 들어, MedDRA 코드 10037908의 모든 하위 항목에 대한 쿼리를 사용하면 (MedDRA license를 받지 않는 사용자에게는 보이지 않음, 5.1.2절 액세스 제한 참조) 심방세동 atrial Fibrillation에 대한 표준 SNOMED concept이 검색된다. (CONCEPT_ANCESTOR 테이블을 사용한 계층 쿼리는 5.4절 참조) - 그림 5.4 참조.

표준, 비표준 원천 및 분류 개념과 condition 도메인에서의 계층적 관계. SNOMED는 대부분 standard condition concept (일부 ICDO3에서 파생된 종양학 관련 concept)에 사용되고, MedDRA concept은 계층 분류 concept에 사용되며, 그 외 다른 모든 용어집은 non-standard concept이나 혹은 계층 구조에 포함되지 않는 source concept을 가지고 있다.

Figure 5.4: 표준, 비표준 원천 및 분류 개념과 condition 도메인에서의 계층적 관계. SNOMED는 대부분 standard condition concept (일부 ICDO3에서 파생된 종양학 관련 concept)에 사용되고, MedDRA concept은 계층 분류 concept에 사용되며, 그 외 다른 모든 용어집은 non-standard concept이나 혹은 계층 구조에 포함되지 않는 source concept을 가지고 있다.

Concept을 standard, non-standard, classification 으로 분류하는 작업은 각 도메인별로 용어 레벨로 결정된다. 이는 concept의 질, 내장된 계층구조 및 그 용어가 선언된 목적에 따라 행해진다. 또한, 한 용어의 모든 concept이 standard concept으로 사용되는 것은 아니다. 표준 용어의 지정 방식은 도메인마다 분리되어 있고, 각 concept은 유효 valid해야 하며 (5.2.10절 참조), 같은 의미에 대해 서로 다른 용어집에서 하나 이상의 concept이 경쟁하는 경우 우선순위에 따라 결정할 수 있다. 즉, 하나의 표준 용어 standard vocabulary는 존재하지 않는다. SNOMED vocabulary는 광범위한 도메인에서 표준으로 채택하고 있지만, 그렇다고 SNOMED의 concept 모두가 standard concept인 것은 아니다. 도메인별 표준 용어의 예는 표 5.2를 참고하기 바란다.

Table 5.2: 표준, 비표준 및 분류 개념 할당에 활용되는 용어 목록
도메인 for standard concepts for source concepts for classification concepts
Condition SNOMED, ICDO3 SNOMED Veterinary MedDRA
Procedure SNOMED, CPT4, HCPCS, ICD10PCS, ICD9Proc, OPCS4 SNOMED Veterinary, HemOnc, NAACCR 현재까지 없음
Measurement SNOMED, LOINC SNOMED Veterinary, NAACCR, CPT4, HCPCS, OPCS4, PPI 현재까지 없음
Drug RxNorm, RxNorm Extension, CVX HCPCS, CPT4, HemOnc, NAAACCR ATC
Device SNOMED Others, currently not normalized 현재까지 없음
Observation SNOMED Others 현재까지 없음
Visit CMS Place of Service, ABMT, NUCC SNOMED, HCPCS, CPT4, UB04 현재까지 없음

5.2.9 개념 코드

개념 코드 Concept code 는 원천 용어 내에서 사용하는 식별자이다. 예를 들어, ICD9CM 또는 NDC 코드 자체는 해당 필드 (concept code)에 저장되고, OMOP 테이블은 CONCEPT 테이블의 concept ID를 외래 키로 사용을 한다. 그 이유는, concept code의 네임 스페이스가 용어집에 걸쳐 겹치기 때문이고, 동일한 코드가 완전히 다른 의미로 다른 용어에 존재할 수 있기 때문이다. (역자 주: 개념 코드는 한 용어집 내에서 유일한 코드로 사용되지만, 같은 코드가 다른 용어집에서 나타날 수 있으나 다른 의미로 사용될 수 있다) (표 5.3 참조)

Table 5.3: 같은 개념 코드 1001이 다른 용어집에서 다른 도메인, 다른 개념 클래스로 사용된다.
Concept ID Concept Code Concept Name Domain ID Vocabulary ID Concept Class
35803438 1001 Granulocyte colony-stimulating factors Drug HemOnc Component Class
35942070 1001 AJCC TNM Clin T Measurement NAACCR NAACCR Variable
1036059 1001 Antipyrine Drug RxNorm Ingredient
38003544 1001 Residential Treatment - Psychiatric Revenue Code Revenue Code Revenue Code
43228317 1001 Aceprometazine maleate Drug BDPM Ingredient
45417187 1001 Brompheniramine Maleate, 10mg/mL injectable solution Drug Multum Multum
45912144 1001 Serum Specimen CIEL Specimen

5.2.10 수명 주기

하나의 용어집이 영원불변으로 고정되어 있는 경우는 드물다. 오히려, 코드와 concept이 더해지며 꾸준히 수정된다. OMOP CDM은 장기에 걸친 환자 데이터를 지원하기 위한 모델이므로, 과거에 사용되었지만, 지금은 더 이상 사용되지 않는 concept을 지원해야 할 뿐 아니라, 신설된 concept을 더하여 상황에 맞게 지원해야 한다. CONCEPT 테이블에는 사용 가능한 수명 주기 상태를 설명하는 세 개의 필드가 있다: VALID_START_DATE, VALID_END_DATE, INVALID_REASON 그 값은 각 개념의 수명 주기 상태에 따라 달라진다.

  • 유효한 concept 및 새로운 concept
    • 설명: 사용 중인 concept.
    • VALID_START_DATE: concept이 사용되기 시작한 날, 용어집에 concept을 통합한 날을 알지 못하거나, 알려지지 않은 경우 1970-1-1.
    • VALID_END_DATE: “지금은 활성화되어 있으나, 다음에는 무효가 될 수가 있음.”을 나타내는 규칙으로 2099-12-31을 설정.
    • INVALID_REASON: NULL
  • 후속 코드 없이 더 이상 사용되지 않는 concept
    • 설명: concept이 비활성화 상태여서 표준으로 사용할 수 없다. (5.2.6절 참조)
    • VALID_START_DATE: concept이 사용되기 시작한 날, 용어집에 concept을 통합한 날을 알지 못하거나, 알려지지 않은 경우 1970-1-1.
    • VALID_END_DATE: 사용 중단을 나타내는 과거의 날짜, 또는 해당 날짜를 알 수 없는 경우, concept이 누락되거나 비활성화된 용어집 갱신일
    • INVALID_REASON: “D”
  • 후속 코드가 있는 업그레이드 된 concept
    • 설명: 비활성이지만, 후속 코드가 정의된 concept. 이는 일반적으로 중복 제거를 통해 제거된 concept.
    • VALID_START_DATE: concept이 사용되기 시작한 날, 용어집에 concept을 통합한 날을 알지 못하거나, 알려지지 않은 경우 1970-1-1.
    • VALID_END_DATE: 업그레이드를 나타내는 과거의 날짜, 또는 해당 날짜를 알 수 없는 경우, 업그레이드가 추가된 용어집 갱신일
    • INVALID_REASON: “U”
  • 다른 새로운 concept에 대한 재사용 코드
    • 설명: 용어집은 새로운 개념을 위해 없어진 concept의 concept 코드를 재사용했다.
    • VALID_START_DATE: concept이 사용되기 시작한 날, 용어집에 concept을 통합한 날을 알지 못하거나, 알려지지 않은 경우 1970-1-1.
    • VALID_END_DATE: 사용 중단을 나타내는 과거의 날짜, 또는 해당 날짜를 알 수 없는 경우, concept이 누락되거나 비활성화로 설정된 용어집 갱신일
    • INVALID_REASON: “R”

일반적으로 concept 코드는 재사용하지 않는다. 하지만 이 규칙에서 벗어나는 몇몇 용어집으로 HCPCS, NDC, DRG가 있다. 이 용어집에서는 동일한 concept 코드가 같은 용어집 내에서 하나 이상의 concept에 사용된다. 하지만 CONCEPT_ID 값은 고유값을 유지한다. 재사용된 concept 코드는 INVALID_REASON 필드에 “R”로 표시되며 VALID_START_DATE부터 VALID_END_DATE까지의 기간을 이용하여 concept 코드는 같지만 서로 다른 concept을 구별하는 데 사용해야 한다.

5.3 관계 Relationships

두 개념이 동일한 도메인 또는 vocabulary에 속하는지 여부와 관계없이 두 개념은 특정 관계를 맺을 수 있다. 관계의 특성은 CONCEPT_RELATIONSHIP 테이블의 RELATIONSHIP_ID 필드에서 대소문자를 구분하는 고유한 짧은 문자 ID로 표시한다. 각 관계에 대해서 상호가 바뀐 대칭 관계가 존재하여, CONCEPT_ID_1, CONCEPT_ID_2 필드의 내용이 교환되고, RELATIONSHIP_ID는 반대로 바뀌게 된다. 예를 들어, “Maps to” 관계는 “Mapped from”과 반대의 관계를 갖는다.

CONCEPT_RELATIONSHIP 테이블 레코드에는 수명 주기 필드인 RELATIONSHIP_START_DATE, RELATIONSHIP_END_DATE, INVALID_REASON이 있다. 그러나, INVALID_REASON = NULL인 유효한 기록만 ATHENA에서 이용할 수 있다. 비활성화된 관계는 Pallas 시스템 내에서 내부처리 용도로만 사용되도록 보관된다. RELATIONSHIP 테이블은 전체 relationship IDs 목록 및 그 반대의 목록과 함께 참조로 사용된다.

5.3.1 매핑 관계 Mapping Relationships

이러한 관계는 두 개의 relationship ID 쌍을 이용하여 Non-standard concept를 standard concept으로 변환하게 해준다. (표 5.4 참조).

Table 5.4: 매핑 관계의 유형.
Relationship ID 쌍 목적
“Maps to” and “Mapped from” 표준 개념에 매핑. standard concept은 자기 자신에게 매핑되고, non-standard concept은 standard concept으로 매핑된다. 대부분의 non-standard concept과 모든 standard concept은 한 standard concept과 이러한 관계를 맺는다. non-standard concept은 *_SOURCE_CONCEPT_ID에 저장되고 standard concept은* _CONCEPT_ID 필드에 저장된다. 분류 개념은 매핑되지 않는다.
“Maps to value” and “Value mapped from” MEASUREMENT와 OBSERVATION 테이블의 VALUE_AS_CONCEPT_ID 필드에 배치할 값을 나타내는 개념에 매핑.

이러한 매핑 관계를 사용하는 목적은 같은 concept 간의 교차를 통해 OMOP CDM에서 임상 사건이 표현되는 방식을 조화롭게 해주는 것이다. 이는 표준화된 용어가 이루어 낸 주요 성과이다.

“동등 개념 Equivalent concept”은 동일한 의미가 있으며, 중요한 것은 계층적으로 하위 개념 descendant concept이 동일한 의미론적 공간을 가진다는 것이다. 다시 말해, 두 개의 concept의 의미와 그 범위가 정확히 일치한다는 것이다. Equivalent concept을 사용할 수 없고, 그 concept이 표준이 아닌 경우, 그 concept은 약간 더 넓은 의미를 가진 개념으로 매핑 (소위, “uphill-mappings”)된다. 예를 들어, ICD10CM W61.51 “Bitten by goose” 에 해당하는 concept은 SNOMED의 standard condition concept에는 없다. 대신 SNOMED concept ID 217716004 “Peck by bird”에 매핑되지만, 그 새가 거위라는 의미는 잃게 된다. Up-hill 매핑은 정보의 구체성이 유실돼도 표준 연구 사례를 진행하는 데 문제없다고 간주할 때만 사용해야 한다.

일부 매핑은 source concept을 둘 이상의 standard concept에 연결한다. 예를 들어, ICD9CM의 070.43 “Hepatitis E with hepatic coma”는 SNOMED의 235867002 “Acute hepatitis E”뿐 아니라 SNOMED의 72836002 “Hepatic Coma” 에도 매핑되어 있다. 그 이유는 기존의 source concept이 간염 hepatitis와 혼수 coma라는 두 가지 조건의 선 조합 pre-coordinated이기 때문이다. SNOMED에는 해당 조합이 없음으로, ICD9CM 레코드에 기록된 두 개의 레코드 (각각 매핑된 standard concept이 있는 레코드)가 생성된다.

“Maps to value” 관계는 Entity-Attribute-Value(EAV) 모델에 따라 OMOP CDM 테이블의 값을 나누기 위한 목적이 있다. 일반적으로 다음과 같은 경우이다:

  • 테스트와 결과값으로 구성된 측정값
  • 개인 또는 가족의 질병력
  • 물질에 대한 알레르기
  • 예방접종 필요

이런 상황에서 source concept은 속성(test or history)과 값(test result or disease)의 조합이다. “Maps to” 관계는 원천을 속성 concept에 매핑하고, “Maps to value” 관계는 값 concept을 매핑한다. (예로 그림 5.5 참조)

원천 개념 source concept과 표준 개념 standard concept 사이의 일-대-다 매핑. 선 조합 pre-coordinated 개념은 두 가지 개념으로 나뉘는데, 하나는 속성(여기서는 임상 소견의 과거력)과 다른 하나는 값(소화성 궤양 peptic ulcer)이다. "Maps to" 관계는 measurement 또는 observation 도메인에 매핑되는 반면, "Maps to value" 개념에는 도메인 제한이 없다.

Figure 5.5: 원천 개념 source concept과 표준 개념 standard concept 사이의 일-대-다 매핑. 선 조합 pre-coordinated 개념은 두 가지 개념으로 나뉘는데, 하나는 속성(여기서는 임상 소견의 과거력)과 다른 하나는 값(소화성 궤양 peptic ulcer)이다. “Maps to” 관계는 measurement 또는 observation 도메인에 매핑되는 반면, “Maps to value” 개념에는 도메인 제한이 없다.

용어 매핑은 네트워크 연구를 수행하는 구성원의 노력을 도와주는 지원과, 무료로 제공되는 OMOP 표준 용어집의 또 다른 핵심 기능이다. 현재 KCD-7 source concept과 SNOMED standard concept 간의 매핑 관계 역시 ATHENA에 공개되어 있다. 매핑 관계는 외부 원천에서 파생되거나 용어팀에 의해 수작업으로 유지 관리된다. 사람이 하는 일이기에 매핑 관계는 완벽하지 않을 수 있다. 잘못되거나 이의가 있는 매핑 관계를 발견한 경우 Forums 또는 CDM issue 게시판을 통해 알려줘서 프로세스를 개선하도록 돕는 것이 중요하다.

매핑 규칙에 대한 자세한 설명은 OHDSI Wiki에서 확인할 수 있다.25

5.3.2 계층적 관계

계층을 나타내는 관계는 “Is a” – “Subsumes” 관계를 통해 정의된다. 계층적 관계는 자식 개념 child concept이 하나 이상의 추가 속성이나 더욱 정밀하게 정의된 속성에 더하여, 부모 개념 parent concept의 모든 속성을 갖도록 정의된다. 예를 들어, SNOMED의 49436004 “심방세동 atrial fibrillation”은 “Is a” 관계를 통해 SNOMED의 17366009 “심방 부정맥 atrial arrhythmia”에 연결된다. 두 concept 모두 부정맥 arrhythmia 형태를 제외하고 다른 속성은 동일하다, 즉, 한 concept에는 세동 fibrillation으로 정의되고, 다른 concept에서는 세동으로 정의되지 않는다. Concept에는 둘 이상의 부모와 둘 이상의 자식 개념이 있을 수 있다. 이 예에서 SNOMED의 49436004 “심방세동 atrial fibrillation”은 SNOMED의 40593004 “세동 fibrillation”과도 “Is-a” 관계를 맺는다.

5.3.3 서로 다른 용어집에서 온 개념 간의 관계

이 관계는 일반적으로 “Vocabulary A – Vocabulary B equivalent”의 유형으로, 기존 용어집 원천에서 제공되거나, OHDSI 용어팀에 의해 구축된다. 그것은 대략적인 매핑 역할을 할 수 있지만, 종종 잘 정리된 매핑보다는 관계의 정확도가 떨어진다. High-quality equivalence 관계 (예를 들어 Source – RxNorm equivalent)는 항상 “Maps to” 관계에 의해 복제된다.

5.3.4 동일 용어집 내 개념 간의 관계

한 용어집 내부의 관계는 일반적으로 용어집 제공자가 보급한다. 전체적인 설명은 OHDSI Wiki의 개별 용어집 아래의 용어집 설명서에서 찾을 수 있다. 이 중 다수는 임상 사건 간의 관계를 정의하여 정보 검색에 이용될 수 있다. 예를 들어, 요도 장애 disorders of the urethra는 “finding site of” 관계를 따라가면 찾을 수 있다. (표 5.5 참조)

Table 5.5: “요도 urethra”의 “Finding site of” 관계는 해부학적 구조에 있는 모든 조건을 나타낸다.
CONCEPT_ID_1 CONCEPT_ID_2
4000504 “Urethra part” 36713433 “Partial duplication of urethra”
4000504 “Urethra part” 433583 “Epispadias”
4000504 “Urethra part” 443533 “Epispadias, male”
4000504 “Urethra part” 4005956 “Epispadias, female”

이러한 관계의 품질과 포괄성은 기존 용어집의 질에 따라 다르다. 일반적으로, SNOMED와 같은 standard concept을 도출하는데 사용되는 용어집은 자료 분류와 구조화를 더 잘해주기 때문에, 내부 관계의 품질을 높여주는 데 도움이 된다.

5.4 계층 Hierarchy

도메인 내에서 표준 및 분류 체계는 계층 구조로 구성되며, CONCEPT_ANCESTOR 테이블에 저장된다. 이를 통해 개념과 모든 계층적 하위 항목을 쿼리로 검색할 수 있게 된다. 이 하위 항목은 상위 항목과 같은 속성을 가지고 있지만, 추가로 정의된 것도 있다.

계층적 관계를 통해 연결된 모든 가능한 개념을 내포한 CONCEPT_RELATIONSHIP 테이블로부터 자동으로 CONCEPT_ANCESTOR 테이블이 생성된다. 이는 “Is a” – “Subsumes” (그림 5.6 참조), 또는 다른 관계를 서로 다른 용어집 간에 계층화하여 연결한다. 한 관계가 계층 구조 생성자에 참여할 것 인가, 말 것인가의 선택은 RELATIONSHIP 참조 테이블의 DEFINIES_ANCESTRY라는 표시를 달아서 정의해준다.

“심방세동 atrial fibrillation” condition의 계층. First degree ancestry는 “Is a”와 “Subsumes” 관계를 통해 정의되며, 모든 higher degree 관계는 추론되고, CONCEPT_ANCESTOR 표에 저장된다. 각 개념은 분리 수준이 0인 자기 자신의 하위 개념이다.

Figure 5.6: “심방세동 atrial fibrillation” condition의 계층. First degree ancestry는 “Is a”와 “Subsumes” 관계를 통해 정의되며, 모든 higher degree 관계는 추론되고, CONCEPT_ANCESTOR 표에 저장된다. 각 개념은 분리 수준이 0인 자기 자신의 하위 개념이다.

상위와 하위 항목 사이의 단계 step 개수를 의미하는 ancestor degree는 MIN_LEVELS_OF_ SEPARATION과 MAX_LEVELS_OF_SEPARATION으로 표현되고, 최단 또는 최장의 가능한 연결 정도를 정의해준다. 모든 계층적 관계가 분리 수준 계산에 동일하게 기여하는 것은 아니다. Degree를 구하기 위한 단계는 각 relationship ID에 대한 RELATIONSHIP 참조 테이블의 IS_HIERARCHICAL 표시 flag로 결정된다.

현재, 고품질의 포괄적인 계층구조는 약물 drug과 상태 condition 두 개의 도메인에만 존재한다. Procedure, measurement, observation 도메인은 부분적으로만 적용되며 현재 구축 중이다. 조상 개념 ancestry concept은 출처, 상품명 또는 다른 속성과 무관하게 특정 성분이나 약물 등급의 구성원을 가지는 모든 약물을 탐색할 수 있어서 특히 약물 도메인에서 유용하다.

5.5 내부 참조 테이블

DOMAIN_ID, VOCABULARY_ID, CONCEPT_CLASS_ID (셋 모두 CONCEPT 레코드 안에 있는) 및 CONCEPT_RELATIONSHIP_ID(CONCEPT_RELATIONSHIP 안에 있는)는 모두 그들 자체 용어집에 의해 제어된다. 이는 4개의 참조 테이블인 DOMAIN, VOCABULARY, CONCEPT_CLASS 및 RELATIONSHIP에 정의되어 있으며, *_ID 필드를 기본 키 primary keys로 하여 더욱 자세한 *_NAME 필드 및 *_CONCEPT_ID 필드를 포함하는 CONCEPT 테이블에 대한 참조가 포함된 4개의 참조 테이블에 정의되어 있다. 이 중복 레코드의 목적은 정보 모델이 자동 탐색 엔진을 허용하도록 지원하기 위한 것이다.

VOCABULARY 테이블에는 기존 vocabulary의 source와 버전을 참조하는 VOCABULARY_REFERENCE 및 VOCABULARY_VERSION 필드가 포함되어 있다. RELATIONSHIP 테이블에는 추가 필드인 DEFINES_ANCESTRY, IS_HIERARCHICAL 및 REVERSE_RELATIONSHIP 필드가 있다. 후자는 한 쌍의 관계에 대해 반대의 counter relationship ID를 정의한다.

5.6 특수 상황

5.6.1 성별

OMOP CDM 및 표준 용어집의 성별은 출생 시의 생물학적 성별 (남성 및 여성)을 나타내지만, 종종 이외의 성별을 어떻게 정의하는지 의문이 제기된다. 이러한 사례는 OBSERVATION 테이블을 이용해야 하는데, 여기에 개인이 자체적으로 정의한 성별이 저장된다 (원천 데이터에 그런 정보가 포함된 경우).

5.6.2 인종과 민족

인종 race과 민족 ethnicity은 미국 정부가 지정한 정의를 따른다. 민족은 인종과 상관없이, Hispanic 또는 non-Hispanic 인구에서 분화된 세부 항목으로 구분한다. 인종은 공통적인 상위 5개 인종으로 나뉘며, 계층적 후손으로서 민족성을 가지고 있다. 혼혈 인종은 포함되지 않는다.

5.6.3 진단 코딩 체계 및 OMOP Conditions

ICD-9 또는 ICD-10, KCD-7과 같은 일반적으로 사용되는 코딩 체계는 적절한 진단 작업에 기반하여, 다소 잘 정의된 진단을 명시한다. KCD7 의 모든 코드에 condition 도메인이 할당되지는 않으며, Condition이 즉 KCD-7 또는 ICD-10은 아니다(즉, 의미론적 공간이 동일하지 않고 KCD-7과 Condition 이 부분적으로 겹친다고 봐야한다). 예를 들어, conditions에는 진단이 도출되기 전에 기록된 징후와 증상도 포함되어있으며, ICD 코드에는 다른 도메인에 속하는 개념 (예를 들어, procedures)이 포함되어 있다.

5.6.4 시술 Procedure 코드 시스템

마찬가지로, HCPCS 및 CTP4와 같은 코딩 체계는 의료 시술의 목록으로 간주한다. 실제로, 이 체계는 의료비 청구 타당성을 선택하는 메뉴에 가깝다. 청구 코드의 많은 부분이 procedure 도메인 하에 포함되어 있지만, 또한 많은 concept 이 도메인 밖에 벗어나 있다.

5.6.5 기기 Device

기기 개념 Device concept은 원천 표준 개념에 사용될 수 있는 표준화된 코드 체계를 가지고 있지 않다. 많은 원천 데이터에서 기기는 코드화되어 있지 않고, 외부 코딩 체계에도 포함되지 않는다. 이러한 이유로 device에는 현재 사용 가능한 계층 시스템이 없다.

5.6.6 방문 및 서비스

방문 개념 visit concept은 의료 서비스의 성격을 정의한다. 많은 보건 시스템에서 병원과 같은 일부 기관과 같이, 물리적 구조를 나타내는 장소를 의미하며 ’서비스 공간 Place of Service’이라고 명명한다. 다른 곳에서는 서비스 service라고 한다. Visit concept은 또한 국가마다 다르며, 정의하기 쉽지 않다. 진료 장소 care sites는 일반적으로 주로 방문하는 병원으로 정의할 수 있으나(예를 들어, XYZ 병원), 이를 이용하여 visit concept을 정의해서는 안 된다(예를 들어, XYZ 병원에서조차 환자는 진료 목적이 아닌 방문을 할 수도 있기 때문이다).

5.6.7 제공자 및 전문의

모든 보건의료 제공자는 provider 도메인에 정의되어 있다. 이 제공자는 의사 및 간호사와 같은 의료 전문가일 수도 있지만, 검안사나, 신발 제조업자와 같은 비의료 서비스 제공자non-medical provider일 수도 있다. 전문의는 제공자인 “의사 Physician”의 하위 개념이다. 진료 장소는 전문성 specialty을 보유할 수 없고, 주요 직원의 전문성에 의해 정의되는 경우가 많다 (“외과 Surgical department”).

5.6.8 특별한 요구사항이 있는 치료 영역

표준 용어는 포괄적인 방식으로 의료의 모든 측면을 다루고 있다. 하지만, 일부 치료영역에서는 특별한 요구를 가지고 있으며, 특별한 용어집이 필요하다. 예로, 종양학, 방사선학, 유전체학 같은 것이다. Special OHDSI 워크 그룹은 이러한 확장 기능을 개발한다. 결과적으로, OMOP 표준 용어집은 통합 시스템을 구성하여 서로 다른 기원과 목적으로 생긴 concept이 모두 동일한 도메인 특화 계층 domain-specific hierarchy 내에 존재하게 된다.

5.6.9 약물 도메인 내의 표준 개념

Drug 도메인의 많은 개념은 미국 국립 의학 도서관 National Library of Medicine이 제공하는 용어집인 RxNorm에서 제공하고 있다. 하지만, 미국 외 지역의 의약품은 미국에서 시판되는 성분, 형태, 강도의 조합 인지에 따라 RxNorm에 존재하지 않을 수도 있다. 미국 시장에 없는 약물은 OHDSI 용어팀에 의해 RxNorm 확장판, RxNorm Extension이라는 용어집으로 추가되며, 이것은 OHDSI에 의해 유일하게 생성된 거대한 용어집이다.

5.6.10 NULL의 특색

많은 용어집에는 정보가 없는 코드를 포함하고 있다. 예를 들어, 5개의 성별 개념인 8507 “Male”, 8532 “Female”, 8570 “Ambiguous”, 8551 “Unknown”, 8521 “기타” 중 앞의 2개인 8507 “Male”, 8532 “Female”만 표준이며, 나머지 3개는 매핑이 되어있지 않은 원천 개념이다. 표준 용어집에서는 왜 정보가 없는지에 대한 구분은 없다. 환자가 정보를 철회하거나, 결측값, 정의되지 않거나 표준화되지 않은 값 때문일 수도 있으며 COCEPT_RELATIONSHIP에 매핑 레코드가 없는 경우 일 수도 있다. 이러한 개념은 매핑되지 않으며, 이들의 standard concept으로의 기본 매핑은 concept ID=0 이다.

5.7 요약

  • 모든 이벤트 및 관리되는 사건은 OMOP 표준 용어집에 개념 concept, 개념 관계 concept relationship 및 개념 상위 계층 concept ancestor hierarchy으로 표현된다.
  • 이 중 대부분은 기존의 코딩 체계나 용어집에서 채택했지만, 일부는 OHDSI 용어팀에서 새롭게 조직했다.
  • 모든 concept은 한 개의 도메인을 가지는데, 그런데 그 도메인은 concept으로 표현되는 그 사건이 CDM의 어떤 테이블에 저장될지를 결정한다.
  • 다른 용어집에서 동등한 의미가 있는 개념은 그중 하나에 매칭되는데, 그것이 standard concept으로 지정된 개념이다. 다른 개념은 원천 개념이다.
  • 매핑은 “Maps to”와 “Maps to value” 개념 관계 concept relationship를 통해 수행된다.
  • 분류 개념 classification concept 이라 불리는 추가 개념 계층이 있는데, 이는 비표준이지만, 원천 개념 source concept과 달리 계층 구조에 포함된다.
  • 개념은 시간이 지남에 따라 수명 주기life-cycle를 갖는다.
  • 도메인 내의 개념은 계층으로 구성된다. 계층구조의 품질은 도메인마다 상이하며, 계층 구조 시스템의 완성을 위해 아직 진행 중이다.
  • 실수나, 오류를 발견한 경우 커뮤니티에 참여할 것을 적극적으로 권장한다.

5.8 예제

전제조건

첫 연습에서는, ATHENA26 또는 ATLAS27를 이용해서 표준용어집 내에서 개념을 찾아볼 필요가 있다.

Exercise 5.1 “위장관 출혈 gastrointestinal hemorrhage”에 대한 standard concept ID는 무엇인가?

Exercise 5.2 “위장관 출혈 gastrointestinal hemorrhage”에 대한 standard concept에 어떤 ICD-10CM 코드가 매핑되는가? 이 standard concept에 어떤 ICD-9CM 코드가 매핑되는가?

Exercise 5.3 “위장관 출혈 gastrointestinal hemorrhage”에 대한 standard concept에 해당하는 MedDRA 선호 용어는 무엇인가?

제시된 답변은 부록 E.2에서 찾을 수 있다.