为什么说双盲研究是20世纪重大的科学进步?

我曾经根据信念来选择治疗。几十年来,我在我的病人,我本人和我的家人身上都是这样做的,大部分场合都有效。后来,我学习了双盲[1]研究。它就像一阵龙卷风一样,扫荡了我的全部旧观念。我发现,我和大多数人一样,在选择治疗的时候犯了大错误,尽管我们犯这些错误也是可以理解的。

我一直在思考一个问题,我怎么才能知道我治病的某些尝试是有效的。我也一直认为,照传统、传闻和权威做不会错。可是,现在我改变了。通过对双盲试验的深刻洞悉,完全割断了我以往的充满希望的梦想和想当然,从而转向了对过去那些错误信念坚定不移的怀疑。我要把有效治疗的判断重点,建立在双盲研究上。换句话说,在双盲研究中哪怕付出一点点的注意力,都要胜过任何夸夸其谈的吹牛。

我要提醒读者注意的是,双盲研究其实是一件容易做的事情。但是,如果你读完我的这篇文章,你就会发现,没有任何治疗是完全相同的。

为什么要进行双盲研究?

虽然大部分人听说过双盲研究,但却很少有人真正理解他们的意义。这并不是说双盲研究有多么难理解,而是说他们的结果难以接受。为什么呢?因为双盲研究告诉我们,我们不能相信我们自己的经验。这的确不是容易吞食的果子,但它却具有无可置疑的真实性。

经由双盲研究得到的见识,对于治疗的选择来说一直是非常烦心的。我们大部分的治疗方法都是基于传统,习惯,传闻和推荐。表面上,这些都是很好的信息资源。然而,双盲研究却经常给我们传达另外的结论。现在我们知道,存在许多的“混淆因素”使我们产生了各种各样的疗效幻觉,而这些表面上的疗效其实并不存在。这样,双盲研究就在很大程度上成了疗效(通常为假定的)所需的绝对证据,——它能够为几乎所有治疗是否有效做出必然性的判断。

什么是双盲研究?

在一个随机双盲研究中,药物治疗的安慰剂控制试验,参加者中有些接受真实治疗,其他一些接受安慰剂治疗,即“假治”(placebo),在结果出来之前,研究者和参加者都不知道谁在接受真治,谁在接受假治,即他们都是“盲的”。谁被安排接受真治,谁被安排接受假治,完全是随机的,甚至是以极讨厌的抛硬币的方式来确定的。

为什么要进行双盲研究?

最近40多年来的经验表明,对于大部分治疗来说,只有随机双盲,假治控制研究可以真正回答这样的问题:“A疗法是否真的对B症状有效?”要解释为什么,我们就得回过头去描述一下,看看这个问题是怎么提出来的,我们是否还有其它方法来回答这个问题。

常识告诉我们,我们似乎可以通过一些极简单的方式来判断一个治疗过程是否有效。它是否对我有帮助?它是否对我的大婶或叔叔有帮助?如果有帮助,就是有效;没有帮助,就是没有效。

真是这样吗?很不幸,不是这样,这种判断方法不正确。身体状况属于生命范畴,以常识方式直接观察它根本就是不可靠的。经由双盲研究带给我们的深度洞察,简直使我们不敢相信自己的眼睛。原因就是:存在太多的混淆因素。

欺诈长廊:八大混淆因素

被称作“混淆因素” 的细微影响会给我们创造一种幻觉,它使实际上无效的治疗表现出了有效。正是因为这些混淆因素使得那么多无效的疗法居然延续了许多世纪。想想“放血疗法”的实践,割开一道口子把血放干。在我们的历史上,许多智者都说“放血”是必要的。并且,过去许多世纪的医学文献都充满了以放血疗法的“医学必然性”所得到的奇效所做的推荐。

今天,虽然放血疗法很明显对疾病无助,但它却让许多人死于非命。为什么这种具有讽刺意味的疗法能够苟延残喘那么多年?因为,我说了,你不能相信自己的眼睛。人们的确看到了通过放血疗法所得到的治病效果。但是,所有那些人真实看到的,是一些混淆因素所起的作用,这些混淆因素包括:

假治效果

再解释效应

观察者偏见

选择偏见

疾病的自然过程

趋平均

研究效应

统计幻觉

要对这八种混淆因素进行充分的讨论,可能需要写一整本书,但我在这里只能提纲挈领地做一些简单介绍。

假治效果

假治效果是那些通过暗示作用导致症状缓解的过程。最初的研究,在区别假治效果中曾经犯过严重错误。尽管如此,人们几乎不怀疑某些症状完全是假治造成的,比如,更年期潮热,前列腺肥大和许多疼痛类型。有人报道只有30%的患者与假治有关,这个数据没有基础,事实上,据我本人列表统计,这个对应的比率高达70%。

假治效果差不多经常使那些经历过的患者感到惊奇。实际上,医生和病人都被这种假治愚弄了。比如说,外科医生通常认为,关节镜手术对于关节炎的治疗来说实际上是有效的,并且每年都进行成百上千这样的手术。然后,双盲研究居然得出这样的结果:假外科手术与真外科手术产生的“治疗效果”完全相同。外科医生感到惊异的是,接受假治的病人居然对治疗效果是如此的满意,以至于他们纷纷建议其他患者也来接受这种治疗!

人们普遍对你告诉他“你的治疗效果是假治造成的”而非常生气。然而,有许多例子证明,这实际上是可能的。我在这里给出几个例子。

在双盲研究中,假治控制的腕管综合征病人,利用静磁疗法可以产生戏剧性的并且是持久的疗效,而对于对照组的病人进行假磁治疗,居然也能达到相同的治疗效果。

在321例腰背疼痛病人的双盲研究中,进行脊椎指压疗法是十分有效的,但却不如介绍病人阅读一本关于腰背疼痛的教育手册。

在一个随机双盲试验中,受控试验中的67%臀部疼痛病人,通过采用中国传统的针灸治疗可以产生效果。但是,这个产生治疗效果的比率,并不比对照组随便在身体的某个部位扎针产生治疗效果的比率高。

在另外一个随机双盲试验中,受控试验的177个脖子痛病人,假的激光针灸疗法居然比按摩产生的治疗效果要好。

值得注意的是,所有这些研究都没有反驳受试组真治的无效。也许这样的试验还不是太多,还不足以删除真治的有效性。但是,它们已经明确地表明假治比较具有基础性的意义:没有这样的比较,任何随机的治疗方法,不管它本身多么地没有意义,可能看上去都是有效的。

比假治效果更甚的“混淆因素”

至少假治疗效的确让患者产生了真实的获益。尽管根本就没有任何疗效,假治也会创造出确有疗效的许许多多幻觉出来。本节中,我将讨论一些更加隐匿的混淆因素。

即使假治实际上没有对症状产生任何改变,人们也会通过重新解释他们的症状,或者说这些症状经历起来没有那么严重了。比如说,如果我给你一片药吃,我说它会使你咳嗽不那么严重,你吃药后就会感觉到,的确咳嗽没有那么严重了,即使你咳嗽的频率没有发生任何改变,你也会产生这样的感觉。换句话说,你会以某种方式重新解释你所经历的症状,以体察它们“的确是好了一些”。(这个效果似乎就是人们长期使用止咳糖浆,甚至使用它达数十年之久的基本原因,而实际上,目前的双盲研究证明,止咳糖浆根本就毫无疗效。)

观察偏见也是类似的现象,但它最能感动的是医生而不是病人。如果医生认为他正在给病人开一些“有效药”,当他们回访病人时,他们会观察到某些改进效果,哪怕是毫无效果,也能看出效果来。比较经典的例子是,一个新的治疗组合抗击多发性硬化的有效性与假治之间的比较。这是一种双盲研究,于是,负责结果评价的医生们被保持在对谁接受了真治谁接受了假治的无知状态,即他们处在“盲”状态。然而,某些试验者却耍了一些小动作,他们故意让一些医生知道谁在接受治疗,使他们处在“非盲”状态。结果有点令人吃惊。处在“非盲”状态的医生比处在公正的“盲”状态的医生具有更多的可能性“观察”到治疗效果。而那些被观察到的“有效治疗”其实属于假治。换句话说,“非盲”医生因为他们看到了他们期望看到的结果,而产生了更多的“有效治疗”的幻觉。(因为这种现象表明了某种“职业客观性”,所以我说它令人吃惊。这也蕴含着,当我们评价一个执行医生的治疗效果时,对比双盲研究结果来说,执行医生的判断具有更高的不可靠性。)

“选择偏见”这个术语是指,与随机安排相比,研究者更希望由他们来选择谁接受真实治疗,谁不接受真实治疗,也就是说,研究者很可能下意识地倾向于选择那些能够看得出预期疗效的人进行新医疗方法的试验。由于一些不清楚的原因,这样选择做出的有效治疗评价结果是如此巨大以至于它会高出正常评价的7倍,甚至一个完全无效的治疗,也会被评价成一种明显有用的治疗。这就是为什么双盲研究必须采取随机方式进行的原因。

有许多疾病会作为一个“自然过程”自己好起来。因此,在这样的疾病初发的时候,仿佛给以任何方式的治疗都是有效的,并且医生所用的治疗方法也会经历一个处置幻觉,即在不加考虑的产生出治疗有效的感觉。一个有说服力的例子就是脖子痛和背痛:它们都可能随着时间的推移自己好转,不管采取什么治疗,实际上任何一种治疗看上去都似乎是有效的。

“趋平均”也像自然过程,只是比自然过程更诡诈一些。它基于这样的事实,即使疾病的症状没有像自然过程那样“痊愈”,却倾向于时好时坏,时起时伏的涨落。血压就是一个好例子。对于许多人来说,在一天中或这一周到下一周的血压测量,本身就有盛衰的变化。假若一个人的平均血压是140/90, 但是偶尔却可能高达170/110。如果这个人碰巧在某个测量时候读出了高血压,他就可能以为自己需要治疗。反之,如果他碰巧测得的血压值正好非常接近平均值,或弱低于平均值,他就可能认为自己血压正常,不需要治疗。换句话说,医生会在某个人处在最糟糕的情况下,而不是在这个人状态最好的情况下给这个人施治。但是,根据统计规律,“病人”过了一会,就可能会由他被测量时的坏血压状态倾向他的血压的平均值状态,医生如果在这个坏的血压测量结果时施行降血压的治疗,则任何方法都会是有效的。这看上去是疾病得到了缓解,而实际上却仅仅是人体的一种自然涨落状态。

“研究效应”是指这样的事实,当某些病人被招引到一个研究小组,就可能受到较好的照顾,单是这样的照顾就比某些特殊的治疗更能使他产生康复的效果。这也是一种非常强有力的影响因素。如果你招了一些愿意接受新药降低胆固醇的试验,然后,你对他假治,他的胆固醇水平可能就会出现明显的降低。为什么呢?推测起来,无非就是他们从一开始就是得到了很好的照顾,安排了很好的饮食,进行了合理的锻炼,等等的缘故。再则,双盲研究中,假治组固然会产生这样的研究效应,因为这种或别的什么混淆因素就可能使得真治组在根本没有任何治疗效果的地方,也可能会产生出治疗效果的幻觉。

最后,由于统计的本质特征而造成的治疗幻觉是非常普通的。但,它们的表现形式有许多种,为此,我单独用一节的篇幅来谈这个问题。

统计幻觉

假若你发明了一种新的治疗方法,在几乎所有的场合下施治都是失败的,但却在一百个人当中取得了一例成功。如果给你10万个这样的无意义施治的病人,你就会得到1000个治疗有效的证明,这时,你的名声就非常大了。

假定你给某些人说,我可以提供一种疗法增强你们的精神功能,然后,你用12种方法来测定他们的精神功能。按照统计规律,你就会在这个被统计的人群中看到你施治后的治疗效果,即使所有这些施治实际上都毫无作用,亦复如此。如果你是一个供货商,即使事实上所有结果纯粹就是统计方法做出的,你的形成脑刺激的产品实际上没有发生任何作用,你也可以利用这个统计数据推销你的产品。(为了确证某个脑增强治疗作用的存在,你就得严格把你自己设计在偶联的双盲测定里边,以便正确地测试这种所谓脑增强作用药物的确切有效性。)

假若你给1000个人做了处置,看看能不能预防心脏病,而你又没有发现任何效果。你受了这个挫折以后,就开始仔仔细细地研究这些资料。喏,你看,你发现了在这些接受你处置的病人中,有几个患了肺癌。你做出新的发现了吗?可能,但大概不会。但是,按照统计平均规律,只要你自己努力挖掘这些数据,你就一定能找到某种症状得到改善的证据。这做起来非常简单,你只要把其中的偶然性统计起来就行了。

也许,在所有统计幻觉中最诡谲的统计幻觉,来自我们常说的“观察研究”。这个问题是如此重要,以至于我不得不话分两头,各表一支。

观察研究

在观察研究中,研究者们实际没有给病人任何治疗。作为替代,研究者们去直接观察大量的病人。比如说,在护士保健研究中,几乎10万个护士被广泛跟踪观察了许多年,以找出不同生活习惯与疾病之间的联系。比如,研究者发现了多吃水果和蔬菜的护士得癌症的少。这样一个结果就容易指示人们水果和蔬菜是防癌的,但这确实不是一个正确的推论。原因如下:

我们从这个研究中所能知道的,仅仅是水果和蔬菜与较少的癌症患者之间存在着关联,而不是水果和蔬菜导致了较少的癌症。那些吃水果和蔬菜的人可能还存在其它一些生活习惯,甚至是我们无法知道的某些原因,而不是单纯的水果和蔬菜,导致了较少癌症。

这可能听起来有些纯学术的味道,但其实不是。请观察研究的研究者,注意这样一个事实,更年期妇女接受荷尔蒙替换治疗(HRT),比不接受这种治疗的人,患心脏病的可能性要少于50%。这个发现和一些合逻辑的分析,都倾向于得出这样的结论,雌性激素可以预防心脏病。它导致医生推荐更年期妇女补充雌性激素。甚至到了2001年,许多医生依然经常说,服用雌性激素对于老年妇女保护心脏是最重要的。

然而,这实在是一个可怕的错误。观察研究不能表明任何因果关系。可能是,某些碰巧接受荷尔蒙替换疗法的妇女,存在另外的方式或一些目前未知的原因,使之变得更健康,降低了心脏病发病率,而不是使用了荷尔蒙替换疗法。医生对这种反对意见一片嘘声,并且坚持说,那完全就是荷尔蒙替换疗法带来的效果。可见,医生也不一定了解双盲研究对于帮助人们理解治疗与康复之间的关系的重要性。然而,当采取双盲、假治控制研究之后,证实了现在每个人都知道的结果,荷尔蒙替换疗法实际上会导致心脏病,而不是预防心脏病。而且,还增加了患乳腺癌的风险。换句话说,相信观察研究,会导致更多更多的更年期妇女走向死亡。我要强调的是,这不是什么学术问题,而是已经得到确证的事实。

以事后诸葛亮的眼光看,那些接受了荷尔蒙替换疗法的妇女之所以身体变得更健康,是因为她们处于社会经济的中上阶层,她们享受了较好的医疗照顾和自我照顾。也有一种可能性是,即某种我们目前尚未知道的真实原因,在使用荷尔蒙替换疗法和心脏病减少之间建立了一种虚幻的联系。总之,观察研究并不能提供任何可靠的说明,它们只能引出一些倒退的结论。

这是一个教训。但新闻媒体似乎并不怎么理解。他们经常把观察研究作为因果关系的证据加以报道。比如说,我们一直可以看到这样的说法,适量喝酒的人比大量酗酒或不喝酒的人更少得心脏病。但是,相反的结论也许你已经听到了,这并不意味着喝酒可以预防心脏病!最有可能的是,适量喝酒的人,与那些绝对禁酒主义者或酗酒者相比,有一种独特的可以避免患心脏病的生活方式。这与喝酒可以避免心脏病在本质上是完全不同的。也许就是他们在生活上经常采取了一种“适度”方式,使得他们生活得更加健康。事实上,我们对适度喝酒者为什么会少得心脏病,还不知道其中的原因。

类似的,我们一直观察到一个事实,消耗高抗氧化剂营养药的人得癌症和心脏病的较少。但是,这并不意味着抗氧化剂药物可以预防心脏病和癌症。事实上,在尽可能大范围的双盲研究中,作为抗氧化剂药物的维生素E和β-胡萝卜素抗癌和抗心脏病作用,其中维生素E基本不起作用(除对前列腺癌可能有用外),β-胡萝卜素甚至还会把事情弄得更糟。(你可以从这里打开一个缺口,那些经常支持服用抗氧化剂药物的医生,实际上今天也还没有直接的双盲证据指出过抗氧化剂药物真的对抗癌和抗心脏病有任何益处。它的唯一证据,与在更年期妇女身上使用荷尔蒙替换疗法造成的减少心脏病的“假证据”相类似。)

双盲研究,除了双盲研究,没有别的

以上所有我刚才提供的信息,都是我过去几十年的积累。在以其它研究方式得出许多假结论之后,医学研究最后发展到了非采取双盲方法而不能对任何治疗进行是否有效的判断的地步了。不管这种方法是传统上经常使用的,—— 在医学领域,传统通常存在着非常致命的错误。也不管医生或病人认为某种治疗有效,——医生和病人几乎肯定地是通过自己的观察效果来判断的,即使使用的治疗方法是完全的假治,亦复如此。也不管是否观察到医生对病人做了X而使得Y减轻或减少了。基于这些证据的猜想,与其说它更糟,还不如说它毫无作用。在“有效”中实际可能蕴含着更大的“有害”。

双盲研究不是为了制造麻烦而创造出来的。许多关于治疗是否有效的研究,在设计、操作和报告结果中存在着许多陷阱,也正是这样一个原因,双盲研究才显得比其它方法更加值得信赖。双盲研究在某些国家,像中国和俄国,往往被当成了一堆食盐[2],在这些国家,由于某些历史证据而造成了体制性的偏见。招几个人,花一个很短的时间,草草率率,根本得不出什么证据。但是,除非进行独立的试验得出可靠的结果,就会给偏见和直截了当的弄虚作假以乘隙。这样,一个治疗是否有效,没有几次独立的200人以上的双盲研究,最高标准的操作,经由受尊敬的研究机构的鉴定和刚直不阿的学术期刊的发表,不足以做出正确的判断。弱好证据可能暗示有效,最好证据则可能证明无效。

一方面某些草药和补充疗法得到强有力的证据[3],另一方面,最大部分的替换疗法却没有得到类似的证明。再则,双盲研究不是唯心主义的,只对学术环境有用的象牙塔标准。凡是没有经过双盲研究的有效治疗,都是吹牛。除了一些罕见的在治疗上具有压倒性的和几乎恒定有效(所谓“高度有效”)的治疗,没有必要花费时间和经费进行双盲试验外,迄今还没有任何可以替代双盲研究的其它方法来判断治疗是否有效。

基于证据的医学

双盲研究已经引起了一场医学革命,这场革命甚至波及了传统医学。许多陈旧的信念,在双盲研究之后完全被掷出了医学讲坛之外。比如说,我们已经发现,止咳糖浆对于咳嗽不起作用;抗生素治疗耳朵发炎也不是必要的甚至在多数场合是无效的,膝关节炎用软骨刮疗法治疗,并不比假治好(如上所述,假治效果很有效)。

医学必须建立在双盲研究的基础上,这个提法已经被理解为一场“基于证据的医学”运动。按照基于证据的医学,如果一种疗法没有经过真正的双盲研究,就不能被当作一种有效治疗。

真的,不管是印度尼西亚草药或是某些被广泛接受的医疗技术,传统医学的许多方面几乎不能进行双盲研究。比如说,一种药草是不是最近在雨林中采来的药草,就无法证明。还比如,对腰背痛病人普遍进行的物理牵引疗法,也无法进行双盲研究(因为不可能进行假牵引对比试验),它们都不属于基于证据的医学。

但是,至少,传统医学对提供无根据治疗表示着缄默。替代医学(alternative medicine)[4],直到最近,依然采取如下相反的方法:在没有任何双盲证据支持的情况下施行大量的治疗。其中,大多数,我敢说,在经过双盲研究后都不能成立。不管它得到其它形式的多少有效治疗的证明,甚或已经得到了许多有效治疗的证明,亦都可能如此。

作为与替代医学相关的当前双盲研究综述,请看我帮助开发的“自然药师自然保健百科全书”网站(The TNP Natural Health Encyclopedia (The Natural Pharmacist),它特别讨论了有关使用草药的问题。[5] 为什么相同的草药会出现不同的疗效的例证,请看我的网络文章“药草与补充疗法:标签不精确与深层次错误”(Herbs and Supplements: Label Inaccuracy and Deeper Problems)。最后,关于欧洲特色的榨取药草汁治病的双盲研究列表,可以看我的另一篇网络文章,“欧洲经由双盲测试的药草商标及其与之相当的美国模式”(European Herbal Brands Tested in Double-Blind Trials, and their US Equivalents)。

公正地说,就某些治疗模式来说,如脊椎指压疗法,针灸,物理牵引,还有外科手术,都是不可能设计成双盲方法来进行研究的,试验者不可能不知道所采用的治疗方法,哪些是真治,哪些是假治。在这些病例中,研究者所采取的是“单盲”,其中不知道的,还不是参与者,而是那些研究人员和评价人员。“单盲”研究所带来的问题是,一旦病人知道自己接受的是真治,可能就会有更高的热情来配合,而一旦病人知道自己接受的是假治,病人的配合热情可能就会荡然无存。前者所能获得的效果可能就比假治要好。这样,“单盲”研究的结果就毫无意义了。为了解决这个问题,正骨医生Kerry Kamer建议,训练一些演员来接受假治。但是,这样的建议至今没有人试验过。

斯特芬·布纳特曼(医生)原著

张功耀 译

张功耀加注

[1] “双盲研究”是世界通行的检验治疗是否有效的基本方法。我国许多读者至今还不了解这种方法,甚至还有些人,尽管没有给出任何理由,却从根本上拒绝这种方法。正如国际上其它产品有国际标准和国际认证一样,一个医疗过程是否有效也有了国际标准和国际认证。这是保证病人生命安全的基础标准。享受这个标准,是病人的基本权力。作为对这种国际医疗标准的普及,本译者特翻译这篇作品供大家阅读。原文曾经附有36个参考文献。考虑到本书读者的阅读需要,本译者对它作了删节。但是,这里翻译并刊出的文章是全文。——张功耀

[2] 这里是直译,原文为“must be taken with a grain of salt”,语源出自狄更斯的一篇小说,约相当于我国湖南长沙地区流行的地方方言:(说话)“口里没味”,特指那些使人不可不信,又不可全信,若要相信,需打折扣的撒谎行为。—— 张功耀加注

[3] 比如,非洲人用金鸡纳树(C. ledgeriana)皮治疗疟疾的草药方剂就曾经充分有效;印度古代曾经用萝芙木(Rauvofiaverticillata Lour.Baill)和蛇根木(R.serpentina L.;Benth.ExKurz)作为镇静药使用,也很有效。这是两个我们可以列举的经过双盲研究后确证的草药方剂。前者,在19世纪被法国药物学家提取出了奎宁(Quinine);后者在1952年由瑞士药物学家分离出了利血平((Reserpine))生物碱。遗憾的是,迄今还没有任何中国的草药方剂得到了双盲研究的确证。—— 张功耀加注

[4] 这种医学方法,在我国又被译为“另类医学”和“异类医学”,其直译为“二者择一医学”,笔者以为还是翻译成“替代医学”比较符合它的本意。

[5] 使用草药曾经是一种世界性的治疗措施,非中国古代所独有,我们不能把使用草药的治疗方法,都冠之为中药方法。与其它古文明地区使用草药不同的是,中国古代留下来的使用草药的方法,在疾病与施治之间缺乏一一对应的因果关系。对此,我已经多次阐明。作者这里强调的,是曾经在世界个文明地区流行过的草药,不是特指中药。