Chapter 20 OHDSI 네트워크 리서치

Chapter leads: Kristin Kostka, Greg Klebanov & Sara Dempster

OHDSI의 사명은 관찰 연구를 통해 높은 수준의 근거를 도출하는 것이다. 이것은 공동 연구를 통해 달성할 수 있는데, 이전 장에서 후향적 데이터베이스 연구를 수행하기 위해, OHDSI 커뮤니티가 OMOP 표준화 용어, 공통 데이터 모델(CDM), 분석 방법 패키지, ATLAS 및 연구 단계 19장을 포함하여 높은 수준의 재현 가능한 연구를 용이하게 하는 표준과 도구를 어떻게 작성했는지 확인할 수 있었다. OHDSI 네트워크 연구는 공간적으로 분산된 여러 데이터에서 연구를 수행하는 투명하고 일관되며 재현 가능한 최상의 방법을 보여준다. 이 장에서는 OHDSI 네트워크 연구를 구성하는 요소, 네트워크 연구를 실행하는 방법 및 ARACHNE 연구 네트워크와 같은 기술에 대해 알아보고자 한다.

20.1 연구 네트워크로서의 OHDSI

OHDSI 연구 네트워크는 의료 분야에서 관찰 데이터 연구를 발전시키려는 연구자의 국제적인 모임이다. 현재 네트워크는 OMOP 공통 데이터 모델로 표준화된 150개가 넘는 데이터베이스로 구성되어있고, 20억 건 이상의 환자 기록이 포함되어 있다. OHDSI는 전 세계 의료기관이 데이터를 OMOP 공통 데이터 모델로 변환하고 다기관 네트워크 연구에 참여하도록 유도하고, 누구나 참여할 수 있는 개방형 네트워크로 운영되고 있다. 기관의 데이터 변환이 완료되면 OHDSI 프로그램 관리자 (mailto : contact@ohdsi.org)는 데이터 네트워크 인구 조사 현황에 기관의 정보를 게시하도록 알려준다. 각 OHDSI 네트워크 기관은 자발적으로 참여하고, 의무는 없다. 각 기관은 각각의 네트워크 연구를 선택할 수 있고, 각 연구에서 데이터는 기관의 방화벽 안에 위치하며, 네트워크 기관에서 환자 수준 데이터는 수집되지 않는다. 단지, 연구 최종 결과만 공유할 수 있다.

OHDSI 네트워크에 참여하는 기관의 이점

  • 무료 도구 이용 : OHDSI는 데이터 특성 분석 및 표준화된 분석 (OMOP concept 탐색, 코호트 정의 및 특성 분석, 인구 수준 추정 및 환자 수준 예측 연구 실행)을 위한 오픈 소스 도구를 무료로 제공한다.
  • 최고의 연구 커뮤니티 참여 : 네트워크 연구를 작성 및 게시하고 다양한 분야 및 관계자 그룹의 리더와 협력할 수 있다.
  • 벤치마크 관리 기회 : 네트워크 연구를 통해 데이터 파트너 간에 임상 특성 및 품질 개선 벤치마크를 할 수 있다.

20.2 OHDSI 네트워크 연구

이전 19장에서 CDM을 사용하여 연구를 수행하기 위한 일반적인 고려 사항에 대해 알아보았다. 일반적으로 한 개의 CDM 또는 여러 CDM에서 연구를 수행할 수 있고, 단일 기관의 CDM 데이터뿐만 아니라 여러 기관에서도 실행할 수 있다. 이번 장에서는 여러 기관의 분석을 네트워크 연구로 확장하려는 이유를 알아보고자 한다.

20.2.1 OHDSI 네트워크 연구가 필요한 이유

관찰 연구의 전형적인 사용 사례는 “실세계”에서 치료의 비교 효과 또는 안전성을 조사하는 것이다. 구체적으로 이야기하면, 임상 시험에서 얻어지는 일반적 결과에 대한 확인을 위해 약물이 시판된 후 시행되는 임상 시험을 복제해서 동일하게 시행하는 연구를 해야 하는 경우, 임상 시험이 이루어지지 않은 상태에서는 약물의 사용 시 적응증외 사용 off label이 되는데, 이러한 상황에서 허용된 약물과의 효과 비교연구를 시행해야 하는 경우, 임상 시험에서 관찰하기 어려운 매우 희귀한 부작용에 대한 시판 후 안전성 결과를 연구가 필요할 수 있는 경우를 들 수 있다. 만약 이러한 연구에서 하나 또는 두 개의 데이터베이스에서 단일 관측 연구를 시행하면 특정 환자그룹에 제한된 상황에서만 결과를 얻기 때문에 정확한 결과를 얻는데 충분하지 않을 수 있다.

관찰 연구의 결과는 순응도, 유전적 다양성 또는 환경적 요인, 전반적인 건강 상태와 같이 데이터 원천의 위치에 따라 달라지는 많은 요인에 의해 영향을 받을 수 있다. 따라서 네트워크에서 관측 연구를 실행하려는 일반적인 이유는 데이터 원천의 다양성을 늘리고 잠재적으로 연구를 통해 일반화된 결과를 얻기 위함이다. 바꿔 말하면, 연구 결과가 여러 기관에서도 같은 결과를 보이는지 여부와 만약 다른 결과를 보이는 경우 원인을 확인할 수 있는지를 알아보기 위함이다.

따라서 네트워크 연구를 통해 광범위한 설정과 데이터 원천을 조사하여 관측 연구 결과에 “실제” 요인의 영향을 조사할 수 있다.

20.2.2 OHDSI 네트워크 연구의 정의

어떤 연구를 네트워크 연구라고 할 수 있는가? OHDSI 연구는 다른 기관의 여러 CDM에서 실행될 때 OHDSI 네트워크 연구라고 할 수 있다.

네트워크 연구에 대한 OHDSI 접근 방식은 OMOP CDM과 표준화된 도구 및 연구 실행을 위해 모든 매개 변수를 지정할 수 있는 연구 패키지를 사용하여 시행된다. OHDSI 표준화 분석은 불필요한 혼란 변수를 줄이고 네트워크 연구의 효율성과 확장성을 향상하도록 설계되었다.

네트워크 연구는 OHDSI 연구 커뮤니티의 중요한 부분이다. 그러나 OHDSI 연구를 전체 OHDSI 네트워크에 패키지를 반드시 공유할 의무는 없다. 단일 기관 내에서 OMOP CDM 및 OHDSI 분석법 라이브러리를 사용하여 연구를 수행하거나 선택된 기관에서만 시행하도록 제한할 수 있다. 연구가 단일 데이터베이스에서 실행되도록 설계되었는지, 제한된 파트너 집합을 대상으로 연구를 수행하거나, OHDSI 네트워크에 완전히 참여하기 위해 연구를 시작하는지 여부는 각 연구자의 재량에 달려있다. 이 장에서는 OHDSI 커뮤니티가 수행하는 개방형 네트워크 연구에 대해 다루도록 하겠다.

개방형 OHDSI 네트워크 연구 요소 개방형 OHDSI 네트워크 연구를 수행할 때는 완전히 투명한 연구를 수행하는 것이다. OHDSI 연구에서 다음과 같은 특징적인 몇 가지 구성요소가 있다.

  • 모든 문서, 연구 코드 및 후속 결과는 OHDSI GitHub에서 공개적으로 제공된다.
  • 연구자는 수행할 분석의 범위와 의도를 자세히 설명하는 공개 학습 프로토콜을 작성하고 게시해야 한다.
  • 연구자는 CDM을 준수하는 코드로 연구 패키지 (일반적으로 R 또는 SQL) 를 작성해야한다.
  • 연구자는 OHDSI 네트워크 연구를 위해 공동 작업자를 홍보하고 모집하기 위해 OHDSI 커뮤니티 콜에 참석하도록 권장된다.
  • 분석이 끝나면 OHDSI GitHub에서 종합 연구 결과를 제공한다.
  • 가능하면 연구자는 연구 R Shiny Applications를 data.ohdsi.org에 게시하도록 권장된다.

다음 장에서는 네트워크 연구를 구현하기 위한 고유한 설계 및 논리적 고려 사항뿐만 아니라 자체 네트워크 연구를 만드는 방법에 관해 설명한다.

20.2.3 OHDSI 네트워크 연구 설계를 위한 고려 사항

OHDSI 네트워크에서 실행할 연구를 설계하려면 연구 코드를 설계하고 조립하는 방법에 대한 패러다임 전환이 필요하다. 일반적으로 목표 데이터 모음을 염두에 두고 연구를 설계하게 되는데, 연구 분석에 이용되는 데이터 중에서 자신의 연구에 유리한 결과가 나오도록 코드를 작성할 가능성이 있다. 예를 들어, 혈관 부종 코호트를 구성하는 경우 보통 개별 연구자들은 자신의 CDM 데이터 상의 혈관 부종에 대한 concept 1 가지만 선택할 수 있는데, 그렇게 하는 경우 연구용 데이터가 특정 의료 환경 (1차 의료, 외래 환경) 또는 특정 지역 (미국 중부)에만 있는 경우 문제가 될 수 있다. 결국 이렇게 선택된 연구 코드는 코호트 정의에 있어서 선택비뚤림 selection bias이 발생하게 된다. (역자 주: OHDSI 연구를 설계할 때는, 반드시 다른 의료 용어 체계 (예를 들어 ICD-9) 상에서도 나의 phenotype이 잘 작동할 수 있을지 면밀히 고민하면서 설계해야 한다.)

OHDSI 네트워크 연구에서는 본인의 데이터만을 위한 연구 패키지를 설계 및 구축하지 않고, 전 세계 여러 기관에서 실행할 연구 패키지를 구축한다. 기관 외부의 참여 기관에 대한 기본 데이터를 검색하거나 공유하는 것은 불가능하고, 결과 파일만 공유한다. 연구 패키지는 CDM의 도메인에서 사용 가능한 데이터만 수집할 수 있다. 관찰 의료 연구 데이터가 확인되는 기관은 매우 다양하기 때문에 연구자는 이런 다양한 연구 기관에서 concept set을 적용할 수 있도록 포괄적인 접근법이 필요하다. OHDSI 연구 패키지는 보통 모든 기관에서 동일한 코호트 정의를 사용한다. 다시 말하면, 적격한 데이터 (보험 청구 자료 또는 전자 의무 기록(EHR) 자료)의 하부 구조에서만 적용되는 코호트 정의를 함으로써 편중이 발생하지 않도록 주의해야 한다. 따라서, 코호트 정의를 작성할 때는 여러 CDM에서 적용 가능한 코호트 정의를 작성하도록 신경 써야 한다. OHDSI 연구 패키지에서는 데이터베이스 연결이나 저장 위치와 같은 일부 부분만 각 기관에서 변경하고, 연구에 관련된 변수는 모두 같은 매개 변수를 사용하고 있다. 나중에 다양한 데이터 모음에서 임상적 소견을 해석하는 데 미치는 영향에 대해 알아보도록 한다.

임상 용어 코딩 변형 외에도 로컬 기술 인프라에서 변형을 예상하여 설계해야 한다. 연구자가 작성한 학습 코드는 단일 기술 환경에서 실행되지 않을 것이다. 각 OHDSI 네트워크 기관은 데이터베이스를 독립적으로 선택할 수 있다. 이는 연구 패키지를 특정 데이터베이스 용어로만 하드 코딩할 수 없음을 의미한다. 연구 코드는 해당 데이터베이스의 운영자가 쉽게 수정할 수 있는 SQL 유형으로 매개 변수화되어있어야 한다. 다행히 OHDSI 커뮤니티에는 ATLAS, DatabaseConnector (https://ohdsi.github.io/DatabaseConnector/) 및 SqlRender (https://ohdsi.github.io/SqlRender/) 와 같은 솔루션이 있어, 각자의 데이터베이스 용어로 변환하여 연구자의 연구 패키지를 실행시킬 수 있다. OHDSI 연구자는 여러 환경에서 연구 패키지를 테스트하고 검증할 수 있도록 다른 네트워크 연구 기관의 도움을 요청하는 것이 필요하다. 코딩 오류가 발생하면 연구자는 OHDSI 포럼 (http://forums.ohdsi.org) 을 사용하여 패키지를 다른 연구자와 논의하고 디버깅할 수 있다.

많은 방법론적인 혁신이 있었지만, 그럼에도 불구하고 OHDSI 연구를 진행하는 것은 결코 쉽지 않다. 만약, 당신이 적절한 연구 주제를 가지고 있고, 공개 ATLAS 등을 통해 연구 패키지를 만들어보았음에도 불구하고 OHDSI 네트워크 연구 진행에 어려움을 겪는다면, OHDSI 연구 육성 커뮤니티 study nurture committee 에 문의하여 도움을 청하기 바란다.

20.2.4 OHDSI 네트워크 연구를 위한 물류적 관점의 고려사항

OHDSI는 개방형 연구 커뮤니티이며 OHDSI 중앙 조정 센터 는 공동 연구자가 커뮤니티 연구를 이끌고 참여할 수 있도록 커뮤니티 인프라를 제공하는 역할을 한다. 모든 OHDSI 네트워크 연구에는 연구 책임자가 필요하며 OHDSI 커뮤니티의 참여자의 누구라도 될 수 있다. OHDSI 네트워크 연구는 연구 책임자, 공동 연구자 및 참여 네트워크 데이터 파트너 간의 긴밀한 협업이 필요하다. 기관마다 각자의 CDM에서 연구가 실행될 수 있도록 필요시 자체 승인 절차를 수행해야 한다. 데이터 분석가는 연구를 수행할 수 있는 적절한 권한을 부여하기 위해 현지 IT 팀의 지원을 받아야 할 수도 있다. 각 기관에서 연구팀의 규모와 범위는 OMOP CDM과 OHDSI 패키지의 숙련도뿐만 아니라 제안된 네트워크 연구의 크기와 복잡성에 따라 결정되어야 한다. 또한, OHDSI 네트워크 연구를 수행하는 기관의 숙련도에 따라 필요한 인력이 결정될 수 있다.

각각의 연구에 따라 초기 준비 절차는 다음과 같을 수 있다 (기관별 상이).

  • 연구에 대해 기관생명윤리위원회 (또는 동등한 기관)에 신청한다
  • 기관생명윤리위원회의 승인을 얻은 후 연구를 시행한다.
  • 승인된 CDM의 스키마를 읽고 쓸 수 있는 권한을 획득한다.
  • 연구 패키지를 실행할 수 있도록 RStudio 환경을 조정한다.
  • 기술적인 문제가 없는지 연구 패키지 코드를 검토한다.
  • 연구 패키지 실행을 위한 연관된 R 패키지를 설치와 실행을 승인받도록 각 기관의 IT 팀에 업무 협조를 구한다.

데이터 품질 및 네트워크 연구: 6장에서 논의한 것처럼 품질 관리는 ETL 프로세스의 기본적이고 반복적인 부분이다. 이는 네트워크 연구 프로세스와 관계없이 정기적으로 수행해야 한다. 네트워크 연구의 경우, 연구 책임자는 참여 기관의 데이터 품질 보고서를 검토하거나 사용자 지정 SQL 쿼리를 작성 및 배포하여 데이터 원천 간의 차이점을 확인할 수 있다. OHDSI 내에서 진행되는 데이터 품질 노력에 대한 자세한 내용은 15장을 참조한다.

각 기관에는 연구 패키지를 실행하는 데이터 분석가가 있을 것이다. 이 인원은 환자의 민감한 정보가 전송되지 않는지 연구 패키지의 결과를 검토해야 한다. 인구 수준 추정 Population-Level Effect Estimation(PLE) 및 환자 수준 예측 Patient Level Prediction(PLP)과 같은 사전 구축된 OHDSI 패키지를 사용하는 경우 지정된 분석에 대한 최소 환자 수를 정할 수 있는 설정이 있다. 데이터 분석가는 이러한 임계값을 검토하고 각 기관의 정책을 준수하는지 확인해야 한다.

연구 결과를 공유할 때 데이터 분석가는 결과 전송 방법을 포함하여 모든 사항에 대해 각 기관의 정책을 준수해야 하며 결과의 외부 반출을 위한 승인 프로세스를 준수해야 한다. OHDSI 네트워크 연구는 환자 수준 데이터를 공유하지 않는다. 즉, 각 기관의 환자 수준 데이터는 중앙에 저장되지 않는다. 연구 패키지는 집계 결과 (통계 결과 요약, 포인트 추정치, 진단 플롯 등)로 설계된 결과 파일을 작성하며 환자 수준 정보는 공유되지 않는다. 따라서, 많은 기관에서는 참여 연구팀 구성원 간에 데이터 공유 계약을 실행할 필요가 없다. 그러나 관련 기관 및 데이터 원천에 따라 특정 연구팀원이 확인하고 보다 공식적인 데이터 공유 계약을 체결해야 할 수도 있다. 네트워크 연구에 관심이 있는 CDM 데이터 소유 연구기관 연구자인 경우 각 기관의 관련 팀과 협의하여 OHDSI 커뮤니티 연구에 참여하기 위해 충족해야 하는 정책을 확인하는 것이 필요하다.

20.3 OHDSI 네트워크 연구 수행하기

OHDSI 네트워크 연구를 수행하기 위한 세 가지 단계는 다음과 같다.

  • 연구 설계와 타당성
  • 연구 수행
  • 결과 배포 및 출판

20.3.1 연구 설계와 타당성

연구 타당성 단계 (또는 사전 학습 단계)는 연구 주제를 정의하고 연구 프로토콜에 따른 주제의 결과를 도출하는 프로세스를 의미한다. 이 단계는 참여 기관에서 연구 프로토콜을 실행할 수 있는 가능성을 평가하는 데 중점을 둔다.

타당성 단계의 결과는 네트워크 실행 준비가 완료된 최종 프로토콜 및 연구 패키지를 생성하는 것이다. 공식 프로토콜은 지정된 연구 책임자 (논문에서는 책임저자) 및 연구 일정에 대한 정보를 포함한 내용으로 연구팀을 자세히 설명한다. 이 프로토콜은 추가로 연구에 참여하는 네트워크 기관이 CDM 데이터에서 전체 연구 패키지를 검토, 승인 및 실행하는 데 중요한 구성 요소가 되고 있다. 임상 시험 계획서에는 연구 모집단, 사용되는 방법, 결과 저장 및 분석 방법, 완료 후 연구 결과 배포 방법 (논문, 프레젠테이션 등)이 포함되어야 한다.

타당성 검증 단계는 정립된 절차는 없다. 이 과정은 연구의 종류에 따라 달라진다. 최소한 연구 책임자는 필요로 하는 약물 노출, 처치 정보, 진단명 또는 환자의 인구학적 정보가 있는 네트워크 기관을 알아보는 데 시간을 할애한다. 가능한 경우, 연구 책임자는 자신의 CDM을 이용하여 연구 대상을 설계해야 한다. 그러나, 연구 책임자는 네트워크 연구를 실행하기 위해 실제 환자 데이터가 있는 OMOP CDM에 접속할 필요는 없다. 책임자는 가상의 데이터 (CMS sybthetic Public Use Files, Mitre 또는 Synthea의 syntheticMass)를 사용하여 대상 코호트 정의를 설계하고, OHDSI 네트워크 기관 공동 연구자에게 코호트의 타당성을 검증하도록 요청하는 방식으로도 할 수 있다. 타당성 조사 단계는 공동 연구자에게 ATLAS에서 만들어진 코호트 정의 JSON file을 이용하여 코호트를 생성하도록 요청하거나, 19장에서 설명한 것처럼 R 패키지를 실행하여 초기 진단을 실행해 보도록 요청하는 방식으로 할 수 있다. 동시에 연구 책임자는 기관생명윤리위원회와 같은 조직에서 OHDSI 연구를 승인받기 위한 절차를 진행한다. 타당성 조사 단계에서는 이러한 조직별 절차를 완료하는 작업은 연구 책임자의 역할로 진행되어야 한다.

20.3.2 연구 실행

타당성 연구를 완료한 후에는 실행의 단계로 진행한다. 이 단계는 OHDSI 네트워크 기관이 분석에 참여하는 시기이다. 이 단계는 우리가 이전에 논의하였던 연구 설계와 논리적 고려 사항이 가장 중요한 시기이다.

연구의 실행은 연구 책임자가 새로운 OHDSI 네트워크 연구에 대해 공식적으로 소개하고 참여 기관을 공식적으로 모집하는 것으로부터 시작한다. 연구 책임자는 연구 프로토콜을 OHDSI GitHub에 공개하고, 매주 열리는 OHDSI 커뮤니티 원격 회의나 OHDSI 포럼에 연구에 대해 소개하고, 참여하는 센터와 공동 연구자를 모집하도록 한다. 연구에 기관이 참여하려고 하면, 연구 책임자는 각 기관에 직접 연락하여 연구 프로토콜과 코드뿐만 아니라 연구 패키지를 실행하는 방법 안내서를 저장하고 있는 GitHub 저장소를 알려주도록 한다. 모든 기관에서 동시에 진행하여 각 기관의 결과가 동시에 공유되어 다른 기관의 결과값에 의해 자신의 기관 결과에 영향을 주지 않도록 하는 것 이상적이다.

각 기관 연구팀은 각자의 기관에서 패키지를 실행하고 외부로 결과를 공유할 수 있는 절차를 확인해서 진행해야 한다. 어떤 부분에서는 기관생명윤리위원회의 승인을 받거나 동등한 승인을 받는 것과 같은 절차일 것이다. 연구 실행이 승인되면 각자 기관의 연구자나 통계학자가 연구 책임자의 안내서대로 패키지를 실행하고, OHDSI 가이드라인에 따라서 표준화된 형태의 결과를 생성한다. 각자의 기관은 기관생명윤리위원회의 절차에 따라 데이터를 공유하도록 한다. 만약, 기관생명윤리위원회의 승인을 얻지 못한 상태에서는 결과를 공유해서는 안 된다.

연구 책임자는 연구 결과를 받을 방법 (예를 들어, SFTP나 Amazon S3 bucket)을 결정해야 하고 결과를 전환하는 시간표를 결정해야 한다. 각 기관에서는 전송 방법이 내부 규약에 맞지 않는 경우에는 새로운 해결방법을 개발해야 할 수도 있다.

실행 단계에서는 통합된 연구팀 (연구 책임자와 참여 기관 구성원 포함)은 합당한 조정이 필요한 경우, 실행을 반복해야 할 수 있다. 만약 이러한 과정에서 수정된 연구 프로토콜이 승인된 연구 내용을 벗어난 경우 각 참여 기관에서는 업데이트된 프로토콜을 받아서 각자의 기관생명윤리위원회의 검토 및 재승인 절차를 진행해야 한다.

연구 책임자와 데이터 사이언티스트나 통계학자는 여러 기관에서 공유된 데이터를 모으고, 적절하게 메타분석을 시행하는 최종적인 역할을 한다. OHDSI 커뮤니티에는 단일 결과를 얻기 위해 여러 네트워크 기관에서 생성된 결과를 모으고 분석하는 검증된 방법이 있다. EvidenceSynthesis는 여러 기관에서 생성된 결과로 증거를 통합하고 진단을 실행할 수 있는 공개된 R 패키지이다. 이것은 메타 분석과 포레스트 플롯을 작성할 수 있는 함수를 포함하고 있다.

연구 책임자는 참여 기관의 상황을 모니터하고 정기적으로 확인함으로써 패키지 실행 시 문제점을 해결할 수 있도록 도와줘야 한다. 연구 패키지가 각 기관에서 일괄적으로 실행되지 않을 수 있다. 데이터베이스 측면 (권한 설정/스키마 승인)과 연관된 문제점과 각자의 환경이 달라서 생기는 (필요한 패키지가 설치되지 않거나, R에서 데이터베이스에 접속이 되지 않는 등) 분석 도구 실행에 관계된 문제점이 생긴다. 참여 기관은 여러 상황을 직접적으로 처리하게 되고, 결국 연구를 실행할 때 발생하는 문제점을 해결하는 방법에 대해 의견을 나눌 것이다. 궁극적으로는 각자 CDM에서 발생하는 문제점을 해결하는 적절한 리소스를 찾는 절차는 참여하는 기관에서 고려해야 하는 사항이다.

OHDSI 연구의 실행이 신속하게 진행될 수 있더라도, 모든 참여 기관이 연구를 실행하고, 결과를 배포할 때 적절한 승인을 얻을 수 있는 충분한 시간을 주는 것이 바람직하다. 처음으로 OHDSI 네트워크에 참여하는 기관은 다양한 환경적인 요인, 예를 들어 데이터베이스 권한이나 분석 라이브러리 업데이트 문제와 같은 요인에 의해 처음 시행하는 연구에 참여하는 데 많은 시간이 소요된다. OHDSI 커뮤니티를 통해 여러 문제에 대한 지원을 받을 수 있다. OHDSI 포럼에 이슈를 게재할 수 있다.

연구 책임자는 연구 마일스톤을 프로토콜에 정하고 전반적인 연구 일정을 원활하게 하기 예상되는 마감일에 대해 의견을 나눠야 한다. 만약 연구 일정을 준수하지 않을 경우, 연구 책임자는 참여기관에 연구 일정 업데이트를 알려주고 연구 실행의 전반적인 상황을 관리하도록 한다.

20.3.3 결과의 보급과 출판

결과의 보급과 출판 단계에서는 연구 책임자는 보고서 작성과 데이터 시각화와 같은 다양한 업무에 대해 다른 참여자와 협력한다. 일단 연구가 시행되면, 연구 결과는 중앙에 저장되고 연구 책임자는 추가적인 분석을 할 수 있다. 연구 책임자는 참여기관의 연구 결과 검토를 위해 전체 연구 결과 (Shiny 앱)를 작성하고 배포하도록 한다. 연구 책임자가 Atlas에서 생성된 코드 또는 GitHub code를 수동으로 수정한 OHDSI study skeleton를 사용하고 있으면, Shiny 앱이 자동으로 생성된다. 연구 책임자가 임의로 코드를 작성한 경우, 자신의 연구 패키지에 대한 shiny 앱을 생성하는데 문의하거나 도움을 얻기 위해 OHDSI 포럼에 문의할 수 있다.

자신의 OHDSI 네트워크 연구를 어디에 게재할지 결정하기 어렵다면, 초록과 출판물을 검색해서 가장 적절한 저널을 추천해주는 JANE(Journal/Author Name Estimator)을 사용하라.60

일단 논문이 작성되면, 모든 연구 참여자가 내용을 검토하고 외부 출판 과정에 이르는 결과를 확인하도록 한다. 최소한 개별 참여한 기관에서는 출판 책임자를 결정해야 한다(이 인원은 논문의 준비와 투고 과정에 내부적인 조정을 담당하게 된다). 어느 저널에 투고할지는 시작 단계에서 연구 참여자와 논의하는 것이 바람직하지만 연구자의 재량에 달려있다. OHDSI 연구에서 모든 공저자는 ICMJE 저자 가이드라인에 충족해야 한다.61 결과의 발표는 OHDSI 심포지엄, 다른 학술 심포지엄이나 논문 게재 등의 다양한 방법을 사용할 수 있다. 연구자는 OHDSI 네트워크 연구를 매주 열리는 OHDSI 커뮤니티 회의나 국제 OHDSI 심포지엄에서 발표하기 바란다.

20.4 미래의 모습: 네트워크 연구의 자동화

현재 네트워크 연구 방식은 수동이다. 즉, 연구팀 구성원이 다양한 방법 (wiki, GitHub, email)을 이용하여 연구 디자인, 코드와 결과 공유를 시행하고 있다. 이러한 방법은 일관적이지 못하고 확장성이 낮아, OHDSI 커뮤니티에서는 연구 프로세스를 체계화하기 위해 노력하고 있다.

ARACHNE 네트워크 연구 과정.

Figure 20.1: ARACHNE 네트워크 연구 과정.

ARACHNE는 네트워크 연구 과정을 간소화하고 자동화할 수 있도록 고안된 플랫폼이다. ARACHNE는 OHDSI 표준을 사용하여 여러 조직에서 일관되고, 투명하고, 안전하며, 준수하는 관찰 연구 프로세스를 설정한다. ARACHNE는 데이터 접근과 분석 결과 교환을 위한 통신 규약을 표준화하고 제한된 컨텐츠에 대한 인증 및 권한 부여를 가능하게 한다. 이것은 데이터 제공자, 연구자, 지원업체, 데이터 사이언티스트는 모든 참여 조직을 하나의 협동 연구 조직으로 만들 수 있고, 관찰 연구의 모든 단계에서 조정하는 역할을 하게 된다. 이 도구를 사용하면 데이터 관리자가 제어하는 작업을 포함하여 R, Python, SQL 기반 실행 환경을 만들 수 있다.

ARACHNE는 ACHILLES 보고서 및 ATLAS 디자인 인공물 artifact 가져오기, 자체 포함된 패키지 작성 및 여러 기관에서 자동으로 실행하는 기능을 포함하여 다른 OHDSI 도구와 완벽하게 통합되도록 설계되었다. 미래 비전은 단일 네트워크 내의 조직뿐만 아니라 여러 네트워크의 조직 간에도 연구를 수행할 목적으로 여러 네트워크를 서로 연결하는 것이다.

ARACHNE 네트워크의 네트워크.

Figure 20.2: ARACHNE 네트워크의 네트워크.

20.5 OHDSI 네트워크 연구의 정석

네트워크 연구를 계획하고 있으며, 연구자가 OHDSI 네트워크 연구를 잘 진행할 수 있도록 OHDSI 커뮤니티는 도움을 줄 수 있다.

연구 설계와 타당도 네트워크 연구를 시행할 때, 자신의 연구가 한 형태의 데이터에 편향되어 있지 않은지 확인해야 한다. 모든 기관에서 동일한 대상을 표현할 수 있는 코호트 정의를 조율하는 과정은 데이터 형태의 이질성의 정도와 연구 기관에서 데이터를 OMOP CDM으로 변환할 때, 표준규약을 얼마나 잘 따랐는지에 따라 그 난이도가 결정될 것이다. 이 작업이 중요한 이유는 각 네트워크 기관과 실제 임상적으로 의미 있는 데이터 선택, 표현, 변환 간의 차이를 조정해야 하기 때문이다. 특히, 효과를 비교하는 연구에서는 각 데이터 기관 간에 일치된 노출 코호트와 결과 코호트 정의가 문제 될 수 있다. 예를 들어, 약물 노출 정도는 분류가 잘못되었을 가능성이 존재하는 데이터 원천에서 수집될 수 있다. 약국에서 수집된 약물 처방전의 경우, 약물에 대한 청구가 있을 때 환자가 처방을 받았을 가능성이 높다는 것을 의미한다. 그러나, EHR에 입력된 처방전은 약물의 실제 소비 여부를 확인하는 데이터와 연결이 되지 않는다. 또한, 의사가 처방전을 발급한 시간, 약사가 처방전에 따라 약을 조제한 시간, 약국에서 환자가 약을 수령한 시간, 실제로 약의 첫 복용이 일어난 시간 간의 차이가 존재한다. 이러한 측정 오류는 어떠한 연구를 하더라도 편향될 수 있다. 따라서, 연구 계획서를 개발할 때에는 데이터 참여 적절성을 고려하여 타당성 연구를 시행하는 것이 중요하다.

연구 실행 가능하면 연구 책임자가 ATLAS나 OHDSI 연구방법론 라이브러리 Method Library, OHDSI Study Skeleton을 이용하여 표준화된 분석 패키지를 사용하여 연구 코드를 작성하는 것을 권장한다. 연구 코드는 OHDSI 패키지를 이용하여 CDM에 호환성을 유지하고, 데이터베이스 레이어 규약에 따라 작성되어야 한다. 모든 기능과 변수는 매개 변수화해야 한다 (데이터베이스 연결 정보, 로컬 드라이브 경로, 운영체제를 지정하지 않는다). 참여 기관을 모집할 때는 연구 책임자는 각 참여 기관이 CDM 규약에 맞는지, 최신 OMOP 표준 용어집에 따라 업데이트되어 있는지 확인해야 한다. 연구 책임자는 각 네트워크 기관에서 CDM에 대해 데이터 품질 검사를 수행하고 문서화하도록 하고 이에 대한 점검을 해야 한다 (ETL 수행이 THEMIS 규약과 규칙에 따라서 올바른 CDM 테이블과 필드로 데이터가 배치되었는지 확인). 각 데이터 분석가는 연구 패키지는 실행하기 전에 R 패키지를 최신 OHDSI 패키지 버전으로 업데이트하도록 한다.

결과와 배포 연구 책임자는 결과를 공유하기 전에 각 기관이 각 기관의 규칙을 준수하도록 해야 한다. 연구가 개방적이고 재현 가능하다는 의미는 설계되고 실행되는 모든 것이 가능하다는 의미이다. OHDSI 네트워크 연구는 모든 문서와 결과가 OHDSI GitHub 저장소나 data.ohdsi.org R Shiny server에 게시되어 투명하게 관리된다. 논문을 준비할 때는 연구 책임자는 저널에서 OHDSI 네트워크 기관 간에 데이터가 어떻게 달라질 수 있는지 이해시킬 수 있도록 OMOP CDM과 표준화된 용어 원칙에 대해 언급을 해야 한다. 예를 들어, Claim 데이터베이스와 EHR을 이용한 네트워크 연구를 진행할 때에 저널 리뷰어는 다양한 데이터 형태에서 코호트 정의의 일관성을 유지할 수 있는지 설명을 요청할 수 있다. 리뷰어는 OMOP 관찰 기간 4장에서 언급된 바와 같이 자격 파일 (환자가 보험 자격 유지 기간에 있거나 있지 않은 상황에서 보험청구 데이터베이스에 존재하는 파일)과 비교하는 방법에 대해 궁금해할 수 있다. 이것은 본질적으로 데이터베이스 자체의 인위적인 요소에 중점을 두고 CDM이 자료를 관찰로 변환하는 방법의 ETL에 중점을 둔다. 이러한 경우 네트워크 연구 책임자는 OMOP CDM OBSERVATION PERIOD 작성 방법을 참조하고 원천 시스템에서 확인되는 상황을 이용하여 관찰기록이 작성되는 방법을 설명하는 것이 도움이 될 수 있다. 논문의 고찰 부분에서는 보험 기간에 모든 청구 내용을 반영하는 보험청구 데이터와는 달리 EHR 데이터의 경우는 환자가 다른 EHR을 사용하는 병원의 기록은 기록되지 않아서 관찰 기간의 중단이 발생할 수 있는 제한점에 관해 기술해야 한다. 이것은 데이터가 수집된 시스템에서 데이터가 존재하는 방식의 결과이다. 이것은 임상적으로 의미 있는 차이를 보이지는 않지만 OMOP에서 observation period table을 추출하는 방식에 익숙하지 않으면 혼동될 수 있다. 이러한 생소한 분야에 대해서 고찰 부분에서 언급하는 것이 필요하다. 비슷하게, 연구 책임자는 OMOP 표준 용어에서 제공되는 용어를 기술하는 것이 유용하며, 수집되는 모든 부분이 동일할 수 있다. 원천 코드를 표준 개념으로 매핑할 때 항상 결정이 이루어지지만 THEMIS 규칙과 CDM 품질 검사로서 정보 위치와 데이터베이스가 해당 원칙을 얼마나 잘 준수하는지에 대한 정보를 제공하는 것이 도움이 될 수 있다.

20.6 요약

  • OHDSI 연구는 서로 다른 기관의 여러 CDM에서 실행될 때 OHDSI 네트워크 연구가 된다.
  • OHDSI 네트워크 연구는 개방되어 있다. 누구나 네트워크 연구를 주도할 수 있다. OMOP 호환 데이터베이스를 소유한 사람은 누구나 참여하고 결과를 제공할 수 있다.
  • 네트워크 연구를 하는 데 도움이 필요하면 연구를 디자인하고 실행하는 데 도움을 줄 수 있는 OHDSI 연구 육성 커뮤니티 study nurture committee 와 상의한다.
  • 공유는 조심스럽게 시행한다. 모든 연구 문서, 코드 및 결과는 OHDSI GitHub 또는 R Shiny 앱에 게시된다. 연구 책임자는 OHDSI 행사에 자신의 연구를 발표할 수 있도록 한다.