Chapter 3 오픈 사이언스

Chapter lead: Kees van Bochove

OHDSI 창립 당시로부터 지금까지 OHDSI 커뮤니티의 목표는 오픈 소스 소프트웨어의 사용이나, 모든 컨퍼런스의 절차 및 자료의 공공적 가용성 그리고 생산된 의학적 근거의 투명한 공개와 같이 오픈 사이언스의 가치를 구축함으로써 국제적 협력체계를 구축하는 것이었다. 그러나, 오픈 소스 소프트웨어란 정확히 무엇을 말하는가? 통상적으로 의료데이터는 매우 민감한 개인 정보로 인식되며 선한 의도에 대해서도 개방되기 어려운데, OHDSI는 어떻게 의료 데이터 사이언스 분야에 개방형 데이터 전략이나 오픈 사이언스 전략을 견지할 수 있었을까? 분석의 재현성 reproducibility 이 왜 그렇게 중요할까? 그리고 OHDSI 커뮤니티는 어떻게 이 목표를 달성하고자 하는가? 이는 우리가 이 장에서 다룰 중요한 문제 중 몇 가지이다.

3.1 오픈 사이언스

‘오픈 사이언스 Open Science’ 용어 자체는 90년대부터 사용되어 왔지만, 이는 OHDSI가 생겨난 2010년대부터 실제 견인력을 얻기 시작했다. 위키피디아 (Wikipedia 2019a) 에는 “만들어진 과학 연구의 결과 및 부산물(논문, 데이터, 실제 샘플 및 소프트웨어 포함)에 대해, 아마추어 또는 전문가 모두가 접근할 수 있도록 하는 운동”이라 정의하고 있으며 더 나아가 일반적으로 공동 네트워크를 통해 개발된다고 써있다. OHDSI 커뮤니티는 자체적으로 ‘오픈 사이언스’ 집단 혹은 네트워크라고 정의하지 않았으나 이 용어는 OHDSI의 개념과 원칙을 사용하는 데 자주 사용된다. 예를 들어 2015년 Jon Duke는 OHDSI를 “의료 근거 생성에 관한 오픈 사이언스 접근법”7 이라 말하였으며 2019년에는 EHDEN 컨소시엄의 입문용 웹 세미나에서는 OHDSI 네트워크 접근 방식을 “21세기 실세계 오픈 사이언스”8 라고 극찬하였다. 이번 장에서 보게 되겠으나 OHDSI 커뮤니티의 곳곳에서 오픈 사이언스의 정신을 발견할 수 있다. 어떤 이들은 OHDSI 커뮤니티는 의료 근거 생성의 투명성과 신뢰성을 개선하기 위한 공동의 욕구에 의해 시작된 풀뿌리 오픈 사이언스 집단이라고 주장하기도 한다.

오픈 사이언스 또는 “사이언스 2.0” (Wikipedia 2019b) 접근법은 현재 의학 연구계의 알려져 있는 여러 가지 문제를 해결하기 위해 고안되었다. 정보 기술은 데이터 생성 및 분석 방법의 폭발적인 성장으로 이어졌으며 개별 연구원의 경우 전문 분야에 발표된 모든 문헌을 따라잡기가 매우 어렵다. 특히 평소 진료일을 하면서도 최신 의학에 뒤처지지 않아야 하는 임상 의사의 경우는 훨씬 더 그렇다. 게다가, 많은 수의 실험들이 열악한 통계 설계, 출판 비뚤림 publication bias, p-hacking 및 유사한 통계적 문제로 영향을 받고 있으며 재현하기 어렵다는 우려가 커지고 있다. 동료 심사 peer review를 통한 논문 출판과 같은 전통적인 방식은 종종 이러한 문제를 인식하거나 해결하는데 실패하곤 한다. 2018년 Nature의 특집호에서 “재현할 수 없는 연구의 어려움 Challenges in irreproducible research”9은 몇 가지 예를 보여주었다. 한 저자 그룹은 자신들이 속한 분야의 논문들을 대상으로 체계적 문헌 고찰을 적용하려 하였으나, 여러 가지 이유로 식별된 논문 오류를 수정하기 어렵다는 것을 발견하였다. 특히 결함이 있는 디자인으로 시작한 실험은 특히 수정하기 어렵다. Ronald Fisher에 의하면 “실험을 마친 후 통계학자와 상담하는 것은 마치 그에게 사체 부검을 해달라는 것과 같다. 아마 무엇 때문에 그 실험이 사망했는지는 말해줄 수 있겠지요.” (Wikiquote 2019) 연구자들은 잘못된 통계적 유의성을 야기하는 부적절한 무작위 설계, 메타분석 상의 잘못된 계산, 부적절한 과거력 비교와 같은 통계적 문제들을 흔히 만난다. (Allison et al. 2016) 같은 호의 다른 논문에서는 물리학의 경험을 예로 들어서, 기본 데이터 뿐 아니라 데이터 처리 및 분석 코드에 대한 상세한 문서를 다른 연구자들이 사용할 수 있도록 제공하여 연구 재현성을 높여야 한다고 주장한다. (Chen et al. 2018)

OHDSI 커뮤니티는 이러한 어려움을 스스로 해결하기 위해 노력하고, 대규모로 의학 근거를 만드는 것에 역점을 두고 있다. Schuemie, Ryan, et al. (2018) 에서 언급하였듯이 현 패러다임은 “특정 연구 설계를 이용해서 한 번에 신뢰성이 떨어지는 하나의 결과치만을 추정하여 하나의 논문에 출판” 하고 있으나 OHDSI 커뮤니티는 일관되고 표준화된 방법에 기반한 대규모 분석을 통한 관찰 연구를 지지하며, 평가, 교정 및 편견 없는 결과발표를 통해 더욱 안정적이고 완전한 근거 기반을 만들 수 있다. 이는 OMOP CDM로 변환된 의료 데이터 네트워크와 모든 사람이 사용할 수 있고 증명할 수 있는 오픈 소스 분석 코드, 그리고, howoften.org에서 발표한 것과 같이 질환 발생과 관련된 대규모 과거력 데이터들을 조합하여 이룰 수 있다. 다음에는 구체적인 예시 함께, 공개 표준 open standards, 오픈 소스 open source, 공개 데이터 open data, 열린 담론 open discourse 의 4가지 원칙을 이용하여 OHDSI의 오픈 사이언스 접근 방식을 더욱 자세히 설명할 것이다. 이번 장은 오픈 사이언스의 관점에서 OHDSI 의 전망과 FAIR 원칙에 대해 간략히 참고하며 마무리할 예정이다.

3.2 실천의 오픈 사이언스: 스터디톤

커뮤니티 내부의 최근 동향은 ‘스터디톤 Study-a-thons’의 출현이다. 스터디톤이란 OMOP CDM과 OHDSI 툴을 사용하여, 중요하고 임상적으로 관련이 있는 연구 질문에 대답하기 위해 여러 학문 분야에 걸친 과학자들이 모여서 짧고 집중된 대면회의 face-to-face meeting를 하는 모임이다. 이에 관한 좋은 예는 EHDEN 웨비나에서 설명한 2018 Oxford 스터디톤인데, 행사 과정을 단계별로 나눠 제공하고 공개적으로 사용할 수 있는 결과를 강조하고 있다. 스터디톤이 이어지는 기간 동안, 참가자는 의학적으로 관련이 있는 연구 주제를 제안하고 하나 이상의 연구 주제를 스터디톤 기간 동안 진행할 수 있도록 선정한다. 스터디톤 동안 참가자들은 OMOP CDM 형태의 환자 레벨 데이터에 접근할 수 있고, 쿼리를 이용해 데이터를 추출할 수 있다. 실제 스터디톤 시간의 대부분은 통계적 접근법 (2장 참조), 데이터 소스의 적합성, 상호작용으로 만들어진 결과와 이러한 결과에 의해 필연적으로 제기되는 후속 질문에 대해 논의하는 데 사용된다. Oxford 스터디톤의 경우 다양한 무릎 관절 대체 수술 후 발생하는 부작용에 대한 연구를 중심으로 질문이 이루어졌으며 OHDSI 포럼 및 도구를 이용하여 study-a-thon이 진행하는 동안 대화식으로 결과를 발표하였다. (8장 참조) ATLAS와 같은 OHDSI 도구는 코호트 정의의 신속한 생성, 교환, 토론 및 평가를 용이하게 하여, 문제 정의와 방법론 선택에 대한 합의에 도달하는 초기 프로세스를 아주 빠르게 가속화 해준다. 관련 데이터 소스와 OHDSI 오픈소스 환자 수준 예측 patient level prediction 패키지 (13장 참조)의 사용성 덕분에, 하루 만에 수술 후 90일 내 사망률에 대한 예측 모델을 만들고, 다음 날 여러 대규모 데이터 소스에서 이 모델에 대한 외부 검증이 가능했다. 또한 study-a-thon은 전통적인 학술 논문 (무릎 관절 전체 성형술 부작용에 대한 patient-level 예측 모델 개발 및 검증, Ross Williams, Daniel Prieto-Alhambra et al., 논문 작성 중) 을 만들어 냈는데, Peer review를 통해서 진행되었다면 몇 달 걸렸을 작업이다. 다수의 의료 데이터베이스를 이용하여 수억 명의 환자 기록을 이용한 연구가 스터디톤을 통하여 낙서 같은 초안으로 시작하여 연구 설계, 근거 생산 및 논문 작성까지 1주일 안에 가능했다는 사실은 OHDSI 가 근거를 만드는데 필요한 처리 기간을 몇 달에서 단 몇 일로 감소시켜 의학 연구의 근본적인 혁신을 이루어냈다는 것을 증명한다. - (역자 주: Burn et al. (2019) 가 Oxford 스터디톤 당시 연구하였던 무릎 관절 치환 수술 관련 연구는 2019년 11월 Lancet Rheumatology에 출판되었다)

3.3 공개 표준 Open Standards

OHDSI 커뮤니티에서 유지 관리하는 매우 중요한 커뮤니티 리소스는 OMOP 공통 데이터 모델 (4장 참조)와 관련 표준용어 (5장 참조)이다. 모델 자체는 관찰 의료 데이터를 수집하기 위해 범위가 정해졌으며 원래는 약물, 시술, 의료기기 등에 노출되는 것과 진단 및 검사와 같은 결과 간의 연관성을 분석하기 위한 것이었으나 이제는 다양한 분석 사용 사례로 확장되었다. (7장 참조) 그러나 다양한 코딩 시스템, 의료 패러다임 및 다양한 유형의 의료 소스를 가진 전 세계의 의료 데이터를 통일시키려면 소스 코드와 가장 가까운 표준화된 용어 간에 엄청난 양의 ’매핑’이 필요하다. OMOP 표준용어는 7장에서 추가로 설명한다. OMOP 표준용어는 전 세계적으로 사용되는 수백 개의 의료 용어 시스템과 매핑을 포함하고 있으며 OHDSI Athena 를 통해 열람할 수 있다. 이러한 용어와 매핑을 자유롭게 사용할 수 있는 리소스를 커뮤니티에 제공함으로써, OMOP과 OHDSI 커뮤니티는 의료 데이터 분석에 상당한 기여를 하고 있으며, 이러한 목적을 위한 가장 포괄적인 모델로 전 세계적으로 약 12억 명의 의료 기록을 대표하고 있다.10 (Garza et al. 2016) - (역자 주: 최근 조사자료에 의하면 약 21억 명, 미국을 제외 시 약 3억 8천만 명 자료. 기관 간 자료가 연계되지 않으므로 한 환자의 자료가 여러 번 중복됨으로 인해서 포함된 실제 고유 환자 수보다 더 많게 평가됨)

3.4 오픈 소스 Open Source

OHDSI 커뮤니티가 제공하는 또 다른 핵심 리소스는 오픈 소스 프로그램이다. 여기에는 데이터를 OMOP에 매핑하기 위한 보조 소프트웨어 (6장 참조), 일반적으로 많이 사용되는, 강력한 통계 패키지를 포함하는 OHDSI 메소드 라이브러리, 관찰 연구를 위한 오픈 소스 코드, OHDSI 에코시스템을 뒷받침하는 ATLAS, Athena 및 기타 인프라 관련 소프트웨어 (8장 참조)로 나눌 수 있다. 오픈 사이언스 관점에서, 가장 중요한 리소스 중 하나는 OHDSI 연구 네트워크와 같은 실제 연구 실행을 위한 코드이다(20장 참조). 이 프로그램들은 GitHub을 통해 점검, 검토 및 기여가 가능한 오픈 소스 OHDSI 스택을 최대한 활용한다. 예를 들어, 네트워크 연구를 위한 코딩은 분석법 이용 사례에 대한 통계적 방법을 일관되게 재사용 할 수 있는 라이브러리를 기반으로 하는 경우가 많다. OHDSI의 오픈 소스 소프트웨어 사용과 협력이 의학적 근거 생성의 품질과 신뢰성을 어떻게 뒷받침하는지에 대한 자세한 내용은 17장을 참고하기 바란다.

3.5 공개 데이터 Open Data

개인 정보 보호에 민감한 의료 데이터의 특성 때문에 포괄적인 환자 수준의 데이터는 일반적으로 완전히 개방할 수 없다. 그러나 앞서 언급된 http://howoften.orghttp://data.ohdsi.org 에 게시된 공개 결과 세트들과 같이 중요한 집계 데이터나 분석 결과를 게시하기 위해 OMOP CDM 데이터를 활용할 수 있다. 또한, OHDSI 커뮤니티는 테스트와 개발을 위해 SynPUF와 같은 시뮬레이션 데이터 세트를 제공하며, OMOP CDM으로 변환된 데이터 소스들의 네트워크 안에서 연구를 수행하는 데 OHDSI 연구 네트워크 (20장 참조) 가 이용될 수 있다. 소스 데이터와 OMOP CDM 간의 매핑을 투명하게 하기 위해서는, CDM 변환시 OHDSI가 제공하는 ETL 또는 용어 매핑 툴을 사용하고 용어 매핑을 오픈 소스로 공개하는 것이 바람직하다.

3.6 열린 담론 Open Disclosure

공개 표준, 오픈 소스, 공개 데이터는 훌륭한 자산이지만, 그 자체로는 진료 행위에 큰 영향은 없을 것이다. OHDSI의 오픈 사이언스 활동과 영향의 핵심은 의학적 근거 생성을 구현하여 과학으로부터 진료 현장으로 이행하도록 해주는 것이다. OHDSI 커뮤니티는 미국, 유럽, 아시아에서 여러 연례 OHDSI 심포지엄을 개최하고 있으며, 특히 한국과 중국의 헌신적인 커뮤니티들을 보유하고 있다. 이들 심포지엄에서는 통계적 방법론, 데이터 및 소프트웨어 사용법, 표준 용어, 그리고 OHDSI 오픈 소스 커뮤니티의 다른 모든 측면에서의 발전에 대해 논의한다. OHDSI 포럼11과 위키12는 전 세계 수천 명의 연구자가 관찰 연구를 수행하도록 돕는다. 커뮤니티 원격회의13와 GitHub14의 코드, 이슈, pull requests는 코드, CDM과 같은 오픈 커뮤니티의 자산을 지속해서 발전시키고 전 세계적으로 수억 명의 환자 기록을 이용하여 개방적이고 투명한 방법으로 범세계적 관찰 연구가 OHDSI 네트워크 연구로써 수행되고 있다. 개방성과 열린 담론은 커뮤니티 전반에 걸쳐 권장되며 바로 이 책은 OHDSI 위키, 커뮤니티 원격회의, GitHub repository에 의해 촉진되는 오픈 프로세스를 통해 쓰인다.15 그러나 OHDSI 공동연구자들이 없다면 프로세스와 도구는 빈 껍데기가 될 것이라는 점을 강조할 필요가 있다. 실제로 OHDSI 커뮤니티의 진정한 가치는 1장에서 논의한 바와 같이 협력과 오픈 사이언스를 통해 건강을 증진한다는 비전을 공유하는 회원들과 함께한다고 말할 수 있다.

3.7 OHDSI와 FAIR의 가이드 원칙

3.7.1 FAIR

이 장의 마지막 단락은 Wilkinson et al. (2016) 이 발표한 FAIR 데이터 가이드 원칙 (Findability, Accessibility, Interoperability, Reusability)에 입각하여 OHDSI 커뮤니티와 도구의 현재 상태를 살펴본다.

3.7.2 검색성 Findability

OMOP CDM으로 변환되어 분석에 사용되는 모든 의료 데이터베이스는 과학적 관점에서 향후 참조와 재현성을 위해 관리되어야 한다. 개별적인 OMOP 데이터베이스를 위한 영구 식별자를 사용하는 것이 아직 널리 확산되지는 않았는데, 부분적으로는 보통 데이터베이스가 방화벽 안에 숨겨져 있거나 내부 네트워크에 있어 원격 접속이 가능하지는 않기 때문이다. 그러나 인용 등을 위한 데이터베이스에 대한 요약 설명문을 공유하는 것은 가능하다. EMIF 카탈로그16의 예를 보면, 이 카탈로그는 데이터 수집 목적, 소스 데이터, 용어, 액세스 제어 메커니즘, 라이센스, 동의 등의 측면에서 데이터베이스에 대한 포괄적인 기록을 제공한다. (Oliveira, Trifan, and Silva 2019) 이 접근 방식은 IMI EHDEN 프로젝트에서 더욱 심층 개발되었다.

3.7.3 접근성 Accessibility

오픈 프로토콜을 통해 OMOP CDM으로 변환된 데이터는 일반적으로 SQL 인터페이스를 통해 접근할 수 있는데, 이 인터페이스는 OMOP CDM과 결합하여 표준화되고 문서화된 데이터 접근 방식을 제공한다. 그러나, 위에서 논의한 바와 같이, CDM 데이터는 보안상의 이유로 원격을 통해 외부에서 접근할 수 없는 경우가 많다. IMI EHDEN과 같은 프로젝트의 주요 연구 주제와 운영 목표는 연구원들이 접근할 수 있는, 안전한 전 세계 의료 데이터 네트워크를 만드는 것이다. 환자 수준의 데이터는 공개되지 못하더라도, LEGEND와 http://howoften.org 과 같은 OHDSI 이니셔티브를 통해 보이듯 다수의 OMOP 데이터베이스의 분석 결과를 공개적으로 게시 가능하다.

3.7.4 상호운용성 Interoperability

상호운용성 Interoperability은 OMOP CDM과 OHDSI 도구들의 가장 강력한 장점이다. 근거 생성을 위해 활용할 수 있는 전 세계적 의료 데이터 네트워크를 구축하기 위해서는 데이터베이스 간의 상호운용성을 달성하는 것이 핵심이며, 이는 OMOP CDM 모델과 표준용어집 Standardized Vocabularies을 통해 달성 가능하다. 단순히 자료 구조 및 용어의 표준화를 넘어서, 코호트 정의와 통계적 접근법을 공유함으로써 OHDSI 커뮤니티는 의료 데이터 분석 방법론의 상호운용이 가능한 플랫폼을 제공한다. 병원과 같은 의료 시스템은 종종 CDM 데이터에 대한 기록의 소스이기 때문에, OHDSI 접근방식의 상호운용성은 HL7 FHIR, HL7 CIMI 및 OpenEHR과 같은 운영적인 의료 상호운용성 표준과의 상호운용성을 가짐으로써 더욱 향상될 수 있다. CDISC나 생물 의학 온톨로지 같은 임상적 상호운용성 표준과의 정렬도 마찬가지다. 특히 종양학과 같은 분야에서 이것은 중요한 주제로서, OHDSI 커뮤니티의 Oncology 워크그룹과 Clinical Trials 워크그룹은 이러한 문제가 적극적으로 논의되는 포럼의 좋은 예를 보여준다. 다른 데이터의 참조 및 특히 온톨로지 용어 측면에서, ATLAS와 OHDSI Athena는 사용되고 있는 서로 다른 의료 용어 시스템의 맥락에서 OMOP 표준용어집을 탐색할 수 있어서 중요한 도구이다.

3.7.5 재사용 가능성 Reusability

재사용 가능성 Reusability에 관한 FAIR 원칙은 데이터 라이선스, 출처 (데이터가 어떻게 존재했는지 명확화) 및 관련 커뮤니티 표준과의 연결과 같은 중요한 문제에 초점을 맞추고 있다. 데이터 라이센스는 복잡한 주제로서, 특히 서로 다른 사법권 간에는 더욱 복잡하며, 광범위하게 다루기에는 이 책의 범위를 벗어난다. 그러나 당신의 데이터 (예를 들면, 분석 결과)를 다른 사용자가 자유롭게 사용할 수 있도록 하려는 경우 데이터 라이선스를 정의함으로써 통해 이러한 권한을 명시적으로 제공하는 것이 좋다. 그러나 이는 아직 인터넷에서 찾을 수 있는 대부분의 데이터에 대한 일반적인 관행이 아니며 불행히도 OHDSI 커뮤니티 역시 예외가 아니다. CDM 데이터베이스의 데이터 출처와 관련하여, CDM 버전, 표준용어집 배포, 사용자 정의 코드 목록 등과 같이 자동화된 방식으로 메타 데이터를 사용할 수 있도록 하기 위해 아직은 개선할 수 있는 부분들이 있다. OHDSI ETL 툴은 현재 이 정보를 자동으로 생성하지 않지만, Data Quality 워크 그룹과 Metadata 워크그룹 등은 이에 대해 활발하게 작업 중이다. 또 다른 중요한 측면은 기본 데이터베이스 자체의 출처 검증이다. 병원이나 일반 의용 정보시스템이 교체되었는지 또는 변경되었는지, 그리고 알려진 데이터 누락이나 다른 데이터 문제가 과거에 언제 발생했는지를 아는 것이 중요하다. OMOP CDM에서 이러한 메타데이터를 체계적으로 연결하는 방법을 탐색하는 것이 Metadata 그룹의 역할이다.

  • OHDSI 커뮤니티는 의료 근거 생성의 상호 운용성과 재현성을 적극적으로 추구하는 오픈 사이언스 커뮤니티로 볼 수 있다.

  • OHDSI는 기존의 단일 연구와 단일 추정 의학 연구 패러다임에서 실세계 의료 자료을 이용하여 기초 발생률, 중재 및 치료 효과의 통계적 추정치 등을 대규모 체계적 근거 생성 시스템을 기반으로 생성하는 패러다임으로의 전환을 지지하고 있다.

References

Allison, D. B., A. W. Brown, B. J. George, and K. A. Kaiser. 2016. “Reproducibility: A tragedy of errors.” Nature 530 (7588): 27–29.

Burn, Edward, James Weaver, Daniel Morales, Albert Prats-Uribe, Antonella Delmestri, Victoria Y. Strauss, Ying He, et al. 2019. “Opioid Use, Postoperative Complications, and Implant Survival After Unicompartmental Versus Total Knee Replacement: A Population-Based Network Study.” The Lancet Rheumatology 1 (4): e229–e236. doi:10.1016/S2665-9913(19)30075-X.

Chen, Xiaoli, Sünje Dallmeier-Tiessen, Robin Dasler, Sebastian Feger, Pamfilos Fokianos, Jose Benito Gonzalez, Harri Hirvonsalo, et al. 2018. “Open Is Not Enough.” Nature Physics 15 (2). Springer Nature: 113–19. doi:10.1038/s41567-018-0342-2.

Garza, M., G. Del Fiol, J. Tenenbaum, A. Walden, and M. N. Zozus. 2016. “Evaluating common data models for use with a longitudinal community registry.” J Biomed Inform 64 (December): 333–41.

Oliveira, José Luís, Alina Trifan, and Luís A. Bastião Silva. 2019. “EMIF Catalogue: A Collaborative Platform for Sharing and Reusing Biomedical Data.” International Journal of Medical Informatics 126 (June). Elsevier BV: 35–45. doi:10.1016/j.ijmedinf.2019.02.006.

Schuemie, M. J., P. B. Ryan, G. Hripcsak, D. Madigan, and M. A. Suchard. 2018. “Improving reproducibility by using high-throughput observational studies with empirical calibration.” Philos Trans A Math Phys Eng Sci 376 (2128).

Wikipedia. 2019a. “Open science — Wikipedia, the Free Encyclopedia.” http://en.wikipedia.org/w/index.php?title=Open%20science&oldid=900178688.

Wikipedia. 2019b. “Science 2.0 — Wikipedia, the Free Encyclopedia.” http://en.wikipedia.org/w/index.php?title=Science%202.0&oldid=887565958.

Wikiquote. 2019. “Ronald Fisher — Wikiquote,” \url{https://en.wikiquote.org/w/index.php?title=Ronald_Fisher&oldid=2638030}.

Wilkinson, M. D., M. Dumontier, I. J. Aalbersberg, G. Appleton, M. Axton, A. Baak, N. Blomberg, et al. 2016. “The FAIR Guiding Principles for scientific data management and stewardship.” Sci Data 3 (March): 160018.