2015 / 8 / 28

[課前問答] 健保資料庫研究發表之 2015 趨勢

 

作者:陳育群 醫師

 

 

NHIRD_20150411_326

 

 

問:

  1. 臨床在輸入疾病診斷或相關處置時,有時受限於看診時間輸入的很簡略,有時為了避免核刪又把所有相關沾得上邊的都打上去。想請問這樣呈現出來的健保資料庫不會有「garbage in, garbage out」的問題嗎?這樣寫出來的文章可信嗎?(復健科主治醫師)(內科主治醫師)
  2. 哪類健保資料庫的資料容易與實際產生誤差較不可信?(家醫科住院醫師)

 

答:「診斷碼」和「(GIGO) garbage in, garbage out」是一般初接觸健保資料庫最常被提出質疑。其實,不管任何資料來源(健保資料、臨床試驗、開放資料),任何資料如果未經「驗證」直接使用,都很有可能造成偏差 (bias)。

 

如果仔細檢視下表,會發現任何研究都可能有偏差,甚至連常見的臨床試驗,case-control study 都會有其特有之偏差。

 

因此,無論任何研究或任何資料,最重要的是「充分驗證,最大化研究可信學術價值」,而不是拘泥於任何研究方法或是資料來源。

 

健保資料庫最大的強項就是資訊完整,世界上目前沒有國家級資料庫有如此詳盡內容。除了診斷碼以外,健保資料庫有許多與疾病有關的資訊可以克服診斷碼問題,這才是健保資料庫真正強項。

 

以診斷為例,我們可以考慮下列做法:

 

 

特殊檢查/處置/藥物/手術不使用診斷碼,而使用處置或手術來代表,例如以再次手術代表 ASD;以 CABG、PTCA 代表心臟病發。小朋友接受 VP-shunt、青少年接受洗腎、癌症開刀、化療等等,這通常會危及生命,這應該相當準確,嚴重度也無庸置疑。
健保特殊給付項目有嚴謹健保局以及審查委員替大家把關,準確度會相對較高。
健保事前審查項目更嚴謹,通常需檢附各種檢查數據支持才能通過審查,正確性更高
藥物驗證不使用診斷碼,以藥物代表,如以降血糖藥物代表真正糖尿病、以降血脂藥物代表高血脂、以 PPI 代表有潰瘍或是 GERD。
以重大傷病診斷為準健保資料庫中重大傷病資料檔、記載重大傷病疾病及申請時間等重要資訊。
以專科醫師診斷為準透過門診檔案串連,我們可以很輕易得知有多少醫生對同一個病患下過診斷,甚至可以統整所有醫師診斷,挑選最為適當狀況(例如:表決,以專科醫診斷為準,以最後一個醫師診斷為準,甚至是手術開刀醫師診斷為準),這些做法都是一般資料庫不可能做到的。

 

任何的資訊在健保資料庫中都有其意義與價值,就算是 up-coding(為了避免核刪又把所有相關沾得上邊的診斷碼都打上去)都有可能其意義與價值(如:評估醫院管理或是醫療政策評估)。

 

健保資料庫蘊含資訊雖然豐富,亦只是冰山一角,現在透過「衛生福利部加值中心」,您甚至可以串連醫院的檢查報告、影像資料、戶政資料、出生資料、死亡資料,甚至臨床試驗、實驗室,這些都可以大大的增加您研究的可信度,將您的研究推向國際舞台。(連 JAMA 都有人登過了,可信度與價值通常是研究手法問題,而不是資料來源問題

 

 

chen_1

研究可能造成之偏差(修改自 J Epidemiol Community Health 2004;58:635-641)

 

 

問:

  1. 對年輕醫師而言,健保資料庫是有利的研究素材。然而許多以往文獻研究的 risk factor 或是創新的術式,在健保資料庫裡常常會因為沒有相關編碼而有資料缺失。針對這類型的研究方向,是否有更好的方法?(外科住院醫師)
  2. 健保資料庫無法得知病人抽血報告、死亡原因、診斷輸入不完全…等,如何克服?(內科住院醫師)

 

答:如何從健保資料庫擷取不存在的資料?是個很重要又有挑戰性的議題。

 

我們建議可以將「不存在」區分三種不同層次探討:

 

 

範例                   建議策略
1. 可以查詢其他資料欄位早產兒母親懷孕期用藥、ICU 住院天數、使用中醫兒童,父母是否也有使用中醫。仔細閱讀譯碼簿,多思考健保資料庫不同檔案間欄位關係。請教實際處理資料人員,如:醫療行政組、健保申報人員。
2. 有代理變數以有吃降血糖藥物代表糖尿病、以降血脂藥物代表高血脂、以 PPI 代表有潰瘍或是 GERD、Acetylcholinesterase inhibitor(如Aricept)代表失智症、有吃抗病毒藥物代表 B 型肝炎多參考國內外相關論文,並以實際資料印證,找出最佳代理變數。
3. 沒有代理變數新生兒出生體重、死亡原因、抽血資料串連其他資料庫、加值中心

 

 

健保資料庫是台灣難得的寶藏,但卻不是台灣「唯一」的寶藏。各家醫院自己的病歷資料、生物資料庫、政府資料等都各有其特點,也都有其適當研究。

 

衛生福利部的加值中心也提供了加值串連的機會,可以讓研究者在不侵犯病患隱私與資料安全前提下,放心使用資料進行研究。

 

 

問:請問會不會擔心健保資料庫這個金礦有被挖完的一天?(兒童醫學部總醫師)

 

答:不會的。科學本來就會不斷進步。適當使用,越多的資料會讓我們有更多的應用,也會反過來利用資料回答更多問題。健保資料庫不是唯一的答案,也不是唯一的資料來源,您可以串聯台灣還有很多生物資料庫、基因資料庫、出生資料、健康醫院資料、串連地籍資料、天氣水文、空氣汙染資料,對於醫療,我們未知的世界遠比已知的知識多太多了。

 

甚至,我們可以串聯醫院資料、影像資料、掛號資料、門診紀錄,也可以比較英國美國歐洲等現成公開資料等等,這可能性太多,學問絕對不會有「做完」的一天。只是,科學進步,大家 (reviewer) 對於資料的精準度、細緻度要求更高,這些都是挑戰。但是,困難才有做的價值,不是嗎?

 

 

問:之前上過健保資料庫工作坊後的思考,發現健保資料庫在針對良性疾病的處置上有十分強大的威力。但,其實更棘手的是癌症的外科處理以及預後評估,一定會遇到分期的問題,除了用加值服務連結癌登資料庫以外,不知道有沒有什麼可以從買的到的健保資料庫裡面可以尋找取出的線索?(一般外科主治醫師)

 

答:如何由健保資料庫僅有的編碼資料中找出隱藏的臨床資訊,這正是台灣健保資料庫的特點之一。台灣健保資料庫最大特色就是長期追蹤、內容豐富,雖然沒有編碼資料,但是多多少少可以從不同資料庫交叉比對中找出點蛛絲馬跡。

 

如:我們曾經利用我們曾經有篇研究探討兒童洗腎發生時機,整篇文章沒有切片、沒有抽血報告、更沒有 GFR 等臨床數據,我們很詳細交代整個資料分析過程,也在限制 (limitation) 處明白說明可能有的問題,結果一樣被刊登於腎臟科重要期刊 (Clin J Am Soc Nephrol 9: 302–309, 2014. doi: 10.2215/CJN.12761212) (CJASN Impact Factor for 2013 was 5.25)。

 

至於癌症分期雖是個困難議題,但仍可能從病患的治療方式推估。如:癌症手術作 lobectomy,應該不至於是第四期末期肺癌、使用健保給付艾瑞莎病患,幾乎是非小細胞肺癌 (NSCLC)、乳癌患者使用 Exemestane 幾乎就是 ER (+) or PR (+) 之晚期乳癌病患(如下之健保給付規定)。相關規定,這一定要請教該領域專家,並且利用資料確認,會更有說服力。

 

9.1.1. Exemestane(如 Aromasin Sugar Coated Tablets):(88/11/1、90/10/1、99/6/1)

  1. 限停經後或卵巢切除後,且女性荷爾蒙受體 (estrogen receptor) 陽性之晚期乳癌病患,經使用 tamoxifen 無效後,方可使用。

  2. 具有雌激素受體陽性之停經婦女,使用 tamoxifen 至少兩年之腋下淋巴結有轉移之高危險早期侵犯性乳癌的輔助治療,且不得與 tamoxifen 或其他 aromatase inhibitor 併用。使用時需同時符合下列規定:(99/6/1)

 

 

問:現在形形色色的 wearable device 有收集巨量健康數據的潛力,但純以 data mining 的角度來作研究,有可能得到令人信服且能夠 validation 的結果嗎?(麻醉部主治醫師)

 

答:這世界不是兩分法,不能說 data mining 結果就有問題,也不能說臨床試驗的結果就完全正確無誤。所有的問題都在於,「問出一個適當問題,選擇適當方法」來回答。

 

例如:如何最佳化廣告分派策略,增加 5% 的預期營收。如何預測病患是否會超期住院。這就是個很好的 data mining 題目。其他應用您還可參考:Paging Dr. Watson, IBM’s medical adviser for the future.

 

但是,如果說要分析例如使用最新抗癌藥物 X 是否能延長 20% 的存活率?某某開刀方法 A 是否比 B 好,這個問題當然要用我們熟悉的臨床試驗來回答。

 

 

問:精神科的診斷難下,在健保資料庫如何以「不客觀的診斷碼」設計出與其他科別共病的研究,能投高 SCI 的期刊?(精神醫學部主治醫師)

 

答:精神科領域是台灣健保資料庫的重要亮點。全世界難得有如此的資料庫可以詳細追蹤所有病患長期就醫歷程,對於需要長期觀察,又容易反覆發作的疾病來說是很難得的寶藏。只要能仔細分析,相信一定能夠發表在夠分量的期刊之上。

 

對於精神科研究,無論健保資料或是臨床試驗,如何將「診斷」轉為「診斷碼」就已經是很大的挑戰。WHO 的國際疾病分類碼 (ICD) 與精神疾病診斷與統計手冊 (DSM) 本來就有差異,再加上精神科的診斷本來就會隨著時間而改變修正,僅僅憑藉 ICD 碼本來就不能盡信,這問題也不是台灣特有。

 

建議您可以觀察一下精神科領域優秀論文如何克服,我們的建議是可以充分利用台灣健保資料庫的優勢 — 內容豐富,以病患、醫師的處方、住院、就診行為互相查詢驗證增加精準度。

 

增加「精準度」只是研究的第一步,「高 SCI」期刊通常會希望能夠從資料中找出臨床意義 (clinical implications),回答實際臨床問題。要一次到位不容易,但是只要一步一步來,一篇比一篇進步,很快就可以晉身「高 SCI」、「高產量」作者之林。

 

 

問:健保資料庫的研究愈來愈多,單純的相關性研究已經不大能滿足編輯和 reviewer。如果要把健保資料庫的研究做得更深入,有哪些可供思考的方向?如何針對自己有興趣的主題再持續更有深度的研究?(心臟內科總醫師)(整形外科主治醫師)

 

答:我們建議從您最熟悉的領域出發,您是該領域的專家,如果有甚麼議題,連您都沒有辦法回答或者是數十年來均無法回答的問題,那或許就是一個很好的切入點。

 

例如,之前我們曾經因為發現臨床小兒放置大腦導水管 (VP shunt) 後,可能會有疝氣的風險,查遍最近 20 年來文章發現沒有人能夠回答這個問題,正好健保資料庫量大、長期追蹤,可以提供一很好線索。

 

Correlation between ventriculoperitoneal shunts and inguinal hernias in children: An 8-year follow-up.(放置大腦導水管可能增加小兒腹股溝疝氣發生率)

Pediatrics 2011;128(1):e121-6. [SCI] [PMID:21690112]

 

Younger boys have a higher risk of inguinal hernia after ventriculo-peritoneal shunt: A 13-year nationwide cohort study.(大腦導水管手術年紀與腹股溝疝氣有關:接受大腦導水管手術年紀越小越容易發生腹股溝疝氣)

Journal of the American College of Surgeons 2012;214(5):845-51. [SCI] [PMID:22520694]

 

您最熟悉領域中,目前最熱門、未解決之問題,是很好的起點。

 

 

問:即使已使用 propensity score 來減少 confounding bias in NHIRD studies,如何更進一步設計來減少 confounding?如:術後提早復健可使病人某項 outcome 變好,但搞不好病人 condition 本就比較好所以才早復健?(復健科住院醫師)

 

答:任何研究都會有 bias,如何最小化觀察性研究的「選擇性偏差」(selection bias) 與「共同干擾因子」(confounding),是健保資料庫研究可信度、能否刊登於高分期刊的關鍵。

 

如何最小化 bias,是個大哉問,與研究主題息息相關,大致可以區分為「研究設計」與「分析方法」兩個方向,沒有一個方法特別好,也沒有任何方法可以取代其他方法,目前的建議是一篇文章中採取多個方法、多個資料庫結果互相驗證比較,這是 BMJJAMA 等級的基本門檻。

 

傾向分數 (propensity score) 僅僅是諸多校正手法之一,針對不同主題,有不同考量。

 

Scheeweiss S. 等所著的 Pharmacoepidemiology 裡面提出一個很好分類表,建議您可以依照您的研究主題、研究數據的特性選取您最適合的方法。

 

(題外話,「術後提早復健」由於牽涉臨床變數眾多,如醫師是否積極、醫院策略是否支持、健保規定、大環境、病患意願等,僅僅使用健保資料庫不一定可以很好回答您的問題,與其以一堆統計方法校正,不如考慮串連臨床資料庫可以更容易聚焦於真正臨床意義上。)

 

 

chen_2

Scheeweiss S. et. Al., Pharmacoepidemiology 4th ed,

 

 

問:身為醫院的行政人員,我有什麼機會能夠利用健保資料庫做出小小研究並發表於期刊呢?(申報組組長)

 

 

chen_3

引用自 CDW-Healthcare

 

 

答:根據美國 CDW 調查,美國醫院有將近一半的大數據分析是應用於「管理營運」之中(如上圖),而行政人員因為長期處理/申報健保資料庫,對於健保資料庫的理解以及內容最熟悉,也最清楚健保資料在醫院行政管理上的應用(絕對不只是小小研究!)。

 

醫療大數據應用,除了臨床數據分析以外,最重要的是行政數據在管理營運上的應用。如:利用健保資料或醫院營運資料,輔助改善營運績效、管理決策。

 

其中最著名的就是 Cleveland Clinics,他們利用大資料分析,結合了功能最強大的醫療保健計算平臺和解決方案,不僅成功提供臨床知識庫,疾病風險管理,最佳化護理成本,甚至提出讓醫生、病患、保險業者均信服之依據績效付費解決方案 (pay-for-performance solution)。

 

2009 年,他們成立一家新創公司「Explorys」,致力于解決國家迫在眉睫的問題,提升醫療健康行業大數據的應用,以便促進醫藥行業的發展和病人的護理品質。今年該公司與 IBM 的 Dr. Watson 合作,創造人類健康雲。

 

細節可以參考克里夫蘭的故事。相信可以給我們很多啟發。

 

 

問:有去國外進修的念頭,是否建議念 big data analysis 相關研究所?其前景為何?該選擇哪種研究所?(腎臟科主治醫師)

 

答:根據估計,資料科學家「data scientist」被《哈佛商業評論》譽為 21 世紀最性感 (sexiest) 的工作。目前看來,全世界都缺可以掌握、分析資料的人,更缺可以利用資料說故事的人(SAS 估計全球企業總計約需 170 萬名資料科學家)。

 

  1. 月薪 10 萬?本世紀最「性感」的 5 種職業
  2. 12 大搶手職務看過來

 

 

chen_4

 

 

資料科學是個橫跨許多領域學問,隨著市場需求正在迅速的改變與進化中。某種程度來講,資料科學,大數據分析、資料探勘、統計分析等其實精神上沒有甚麼不同,它們都是「利用資料說故事」的能力。只是手法有所不同。

 

也因此,資料科學本身就會依照您的需求以及您的興趣而有所不同。如:數理出身的,或許會比較偏重於方法論,推論未來趨勢(預估股票、預估個人疾病發生風險與經濟模式);資訊出身,或許會比較偏好建立自動化系統,或者利用大資料分析結果改善顧客體驗等。相關研究所很多,而且各有不同目標族群,建議還是要依個人需求多做比較。

 

蔡校長有說過啦,要向世界最強的學習。目前在醫療大資訊中的強者實在太多,舉兩個最近常被提及的例子如:IBM 的 Dr. Watson 已經不只所有 PubMed 文章放進去,自動推演找出重要機轉(控制 p53 活性蛋白質),現在更能進一步結合穿戴裝置,推出醫療健康雲,可能會改變醫療風貌。

 

您也可以觀察 Cleveland Clinics,他們利用大資料分析,結合了功能最強大的醫療保健計算平臺和解決方案,不僅成功提供臨床知識庫,疾病風險管理,最佳化護理成本,甚至提出讓醫生、病患、保險業者均信服之依據績效付費解決方案 (pay-for-performance solution)。

 

他們甚至成立一家新創公司「Explorys」,致力于解決國家迫在眉睫的問題,提升醫療健康行業大數據的應用,以便促進醫藥行業的發展和病人的護理品質。這些都很值得借鏡。

 

 

問:

  1. 想請問對於非臨床科(病理、放射、麻醉)的研究主題要如何擬定?這些科別如何利用健保資料庫呢?(影像醫學部住院醫師)
  2. 在健保資料庫,麻醉部分只有麻醉方法的區別,造成研究上的很大限制,是否有其他的解決方法?(麻醉部主治醫師)

 

答:只有「放寬心胸」,才能讓我們面對健保資料庫龐大資料時不會被既有框架給侷限住。每個研究主題不同,健保資料庫是很寶貴的資料,但是卻不一定是最恰當的資料來源。「以大量觀察性資料來回答臨床問題」是一條嶄新道路,一定要有全新思維。

 

現今科學研究中,絕大部分資料來源、研究設計都是以傳統臨床試驗、問卷,題目設定也都是以臨床試驗可以回答的題目為主,順著這個方向,只會讓自己走進死胡同,拿健保資料庫來進行不適當的研究。適合健保資料庫的題目必須自己去創造

 

無論是任何科別,醫療利用 (health utilization research)、療效評估 (health technology assessment, comparative effectiveness research) 或是醫療經濟政策評估,都是世界矚目的議題,某些高等級雜誌如 LancetPLOS ONEMedicine,更是限定只能刊登此類「對全世界有影響力」的題目。

 

從放射科、核子醫學科與病理科的「診斷」面向來說,科技新技術或是政策改變,是否對診斷或是整體治療有影響?

 

從放射科、核子醫學科與麻醉科的「治療」面向來說,新技術引進、政策影響,是否真的曾進治療?治療後是否可能引發不為人知的副作用?

 

群體資料,有他獨特的價值,建議可以多觀察最頂尖期刊關於上述各主題的論述,不要僵在 JCR 狹隘的小領域,或許可以給我們更多啟發。

 

 

問:針對大數據在醫療應用上,由於醫療資料有部分是包含無法數字化的非結構性資料(ex. 醫療影像),請問在分析與處理時,如何更有效地挖取出潛在的有用資訊?(製造業 pricing analyst)

 

答:這是大哉問。即使是非結構性資料,現在已經有許多辦法可以分析。這正是這一波大數據分析所著眼之處。

 

我們也可以從最近一次台北市長大選後發現如何利用非結構性的 Facebook 內容與點擊率等等創造使用者體驗,跟快速掌握選民關心話題,更了解大眾的心聲。

 

  1. 柯文哲網路競選策略大揭密:官網流程改版,成功募 3,000 萬競選經費。
  2. 柯文哲完勝連勝文的數位行銷關鍵在哪裡?

 

醫療影像辨識、心電圖 (EKG) 輔助判讀等等,皆已經有許多現成應用,再加上現有的許多穿戴裝置(wearing device)、甚至緊接著而來的物聯網 (IoT),我們可以獲得的資料呈爆炸性成長,但是要從中找出有用資訊,並讓這些資料發揮真正價值,迄今仍然不多,這也就是為什麼有人說「資料科學家」是目前最夯的工作之一。

 

其實資料轉換並不難,非結構性資料轉換,現在常見的資料處理軟體都可以輕鬆處理,有些套裝軟體,如:微軟野心勃勃推出 Office BI 商業智慧套件,就是希望讓大家可以利用熟悉的 Excel 等工具迅速分析。資料很大,挑對最適合您關心命題的工具,通常可以大幅增進效率。

 

此外,微軟最近還發表新技術稱之為 machine teaching,希望能夠讓所有人不需要太多的學習就可以輕鬆駕馭資料。這個技術中,電腦為主,人為輔。由電腦試圖了解使用者的分析需求後,主動向使用者提醒,讓使用者協助電腦進行分析。

 

除了在意資料挖掘的效率外,問出「適當的問題」,或許是件更重要的事情。

 

 

追蹤新思惟國際