Health Information/Common Data Model

CDM이란? (개요 및 관련 용어 정리)

 

 

 

안녕하세요. 씨앤텍 시스템즈 입니다.

 

 

 

이번 글은 CDM 개요와 관련용어에 에 대해서 정리해 보았습니다.

 

내용 출처는 'The Book Of OHDSI' 입니다.

 

 


 

 

<데이터의 종류>

 

*관찰 데이터(observational data): 환자가 치료를 받는 동안 환자에게 일어난 이벤트에 대한 기록

*의료 빅데이터(Big Health Data): 전 세계 증가하는 다수 환자에 대해서 수집되고 저장된 데이터

 

 


<의료 빅데이터 수집의 목적>

1) 연구활동 촉진
2) 치료 활동 지원 (HER)
3) 치료에 대한 지불 관리 (claims data; 보험청구자료)

 

 위 세가지는 임상 연구에 통상적으로 사용되며 데이터 내용은 각각 특별한 형식에 맞추어 구성됨

 



<치료용 관찰 데이터에 대한 CDM의 필요성>

1) 연구가의 편견 배제
관찰 데이터는 임상치료에서 일어난 이벤트의 상세한 부분까지 고루 담을 수 없기에, 
각기 흩어져 있는 데이터 소스로부터 데이터를 가져와서 비교/대조하는 작업이 반드시 필요함

2) 통계에 기반한 분석
통계 분석이 가능하기 위해서 많은 양의 환자 관찰데이터가 필요 

→ 즉 분산된 환경에서의 많은 양의 데이터를 한데 모아서 연구하려면 필수적  (+ 높은 수준의 환자 데이터 보호)  

 


<CDM 설계 원리>

CDM은 다음과 같은 특정 관찰연구 목적에 최적화


1) 건강관리조정(healthcare interventions)에 들어간 환자군과 그 결과 특정
2) 다양한 파라미터로 위 환자군에 대한 특징을 정함
3) 개별환자에 대한 결과 예측
4) 조정 받은 환자들이 얼마나 효과를 봤는지 그 수를 예측

 

*1)~4)번 목표 달성을 위해 CDM 개발은 다음과 같은 개발 요소를 따라야 함

  • 목표에 부합: CDM은 최적화된 분석을 하기 위해 데이터를 구성하는 것을 목표로 함
  • 데이터 보호: 연구가 명확히 환자 상세 정보를 요구할 때를 제외하고는 환자 보호는 보호되어야 함
  • 도메인 설계: 도메인은 환자 중심 관계적 데이터 모델로 모델링 → relational이란 즉 프라이머리/포린키로 연관된 데이터가 함께 보여질 수 있음을 뜻함
  • 도메인에 대한 근거: 도메인은 엔티티 관계모델로 정의되며 특정 어트리뷰트(속성)을 갖고 있음
  • 모든 데이터는 엔티티-속성-값 구조로 되어 있음
  • 표준화된 용어: 환자 기록에 대한 표준화를 위해 CDM은 표준화 용어에 어느정도 의존, standard healthcare concept 포함 (표준 의료 컨셉)
  • 존재하는 단어의 재사용: 기존 사용되고 있는 용어를 가능하면 재사용함
  • 소스코드 유지: 표준화 용어로 통합되더라도 기존 소스코드 역시 저장됨
  • 기술 중립성: CDM은 특정 IT 기술을 요구하지 않음
  • 확장성: CDM은 수많은 임상환자의 관찰 데이터를 수집하여 데이터 처리 및 컴퓨터 계산 분석에 최적화
  • 이전 버전과의 호환성: 모든 변경사항은 깃허브에 저장되므로 이전버전과 최신버전이 양립 가능

 

 

<데이터 모델링 기본 룰> 

 

 1) 모델링 룰 

  • CDM은 환자 중심의 모델로 이는 모든 임상 이벤트 테이블은 PERSON table로 연결됨을 의미 
  • date / start date 는 임상 이벤트가 장기적으로 각 사람에게 어떤 변화를 가져왔는지 관찰 가능 (longitudinal) 

 2) 스키마 룰 

  • 스키마는 기본적으로 read-only와 read-write 스키마로 나뉨 
  • read-only: CDM Schema (임상이벤트/단어 테이블) 
  • read-write: Result Schema (웹 기반 툴 또는 최종 사용자로부터 조작 되는 테이블) 
     → Result Schema에는 COHORT와 COHORT DEFINITION 두 개의 테이블이 존재 

3) 데이터 테이블 룰 

  • 데이터 타입은 일반적으로 ANSI SQL 데이터 타입을 사용 – VARCHAR, INTEGER, FLOAT, DATE, DATETIME, CLOB  
  • CDM은 date/datetime 포맷은 규정하고 있지 않음 

 4) 도메인 룰 

  • 이벤트의 각각 다른 특성이 도메인으로 구조화됨 → Domain ID = Event 
  • 엄격한 도메인-테이블-필드 일치 rule (domain-table-field correspondence rule): 불명확한 코드나 컨셉이 없도록 함
  • Drug, Device, Procedure, Condition, Observation, Measurement, Spec Anatomic Site, Meas Value, Specimen, Provider Specialty, Unit, Metadata, Revenue Code, Type Concept, Relationship, Route, Currency, Payer, Visit, Cost, Race, Plan Stop Reason, Plan, Episode, Sponsor, Meas Value Operator, Spec Disease Status, Gender, ethnicity, Observation Type  


***COHORT란? 

  • 관찰 데이터를 연구목적으로 사용하기 위해서는 ‘데이터로부터 얻을 수 있는 것이 무엇인가’가 명확해야 함 
  • 이 때 COHORT를 특정하여 연구목적과 주제를 명시 
  • Cohort란 일정 기간 동안 한 개 또는 그 이상의 포함 기준(inclusion criteria)을 만족하는 사람들의 집합 
  • OHDSI에서의 Cohort: 연구 시 의문점(question)을 해결해주는 가장 기본적인 주춧돌로 통용됨 
  • 핵심: 연구마다 다른 Cohort에서 각각의 독립적 결과가 나오기 때문에 Cohort는 재사용이 가능 
  • 예: 고지혈증 Cohort 생성 시 → A약을 사용한 고지혈증 Cohort, B약을 사용한 고지혈증 Cohort, C 환경에 노출된 고지혈증 Cohort 등으로 Re-Use 가능 
  • 규칙:  
  • 한 사람은 다양한 cohort에 포함될 수 있다. 
  • 한 사람은 각 다른 기간이라면 같은 cohort에 포함될 수 있다. 
  • 한 사람이 같은 기간 동안의 같은 cohort에는 포함될 수 없다. 
  • cohort는 0 또는 그 이상의 수를 갖는다. 

***CDM 표준 테이블: 자궁내막증을 앓았던 Lauren의 사례  

  • PERSON table: 로렌에 대한 정보 (나이, 생년월일, 인종, 성별 등)  
  • OBSERVATION_PERIOD table: 관찰 기간 (병원 방문한 총 기록 통합)  
  • VISIT_OCCURRENCE table: 방문 관련 (병원 방문 총 기록 통합 / 외래환자인지 내원환자인지 등)  
  • CONDITION_OCCURRENCE table: 진단, 징후 등 환자 또는 의사로부터 관찰된 환자 상태  
  • DRUG_EXPOSURE table: 환자 몸에 실질적으로 투여된 약물에 대한 기록  
  • PROCEDURE_OCCURRENCE table: 치료 목적으로 의사가 환자에게 실질적으로 치료행위를 수행한 내용에 대한 기록 

 

 


 

 

 

 

감사합니다.

 

 

728x90