英文校正 英文校閲 研究者向けサービス
0120-554-685

システマティックレビューの書き方を徹底解説!妥当性の評価方法

結果と結論の妥当性は、システマティックレビューを書く上で非常に重要な点です。妥当なリサーチクエスチョンに答えていない、あるいは妥当な方法を用いていないシステマティックレビューは、妥当な結果を得ることができません。このような研究は、より大きな母集団に対して一般化することはできず、文献としての影響力も価値も低くなってしまいます。

では、システマティックレビューの妥当性を確認するには何をすればいいのでしょうか?この記事では、外的妥当性と内的妥当性の両方の観点からシステマティックレビューの書き方を解説していきます。

この記事で解説する点

  • システマティックレビューにおける内的妥当性と外的妥当性の定義
  • システマティックレビューを書く際に、なぜ妥当性を考慮し評価することが重要なのか
  • 妥当性がレビュー論文の影響力とリーチを拡大するのに役立つ理由
  • バイアスと妥当性の重要な関係
  • レビュー論文に関する無料のコースの紹介と妥当性の高い価値あるレビュー論文を迅速に出版する方法

システマティックレビューにおける妥当性とは何か、なぜ妥当性が重要なのか

システマティックレビューにおける妥当性とは、レビューの結論が読者にとってどれだけ信頼できるかを意味します。

システマティックレビューは、様々な研究をまとめ、様々な知見の要約を提示したものです。したがって、エビデンスピラミッドの頂点に位置する「数の強み」を活かすことができます。

例えば、多くの医療機関は診療ガイドラインを作成するために、システマティックレビュー、特にCochrane reviewsから得られたエビデンスを使用しています。システマティックレビューが信頼できる結論を持っていなければならないのは、このように参照される機会が多いからであり、これこそがシステマティックレビューの強い影響力と価値の源泉となっています。

既に言及した通り、妥当性は信頼性を測るものになります。妥当性には、外的妥当性と内的妥当性の2の主な評価軸が存在し、それぞれ方法論上の堅牢さによって評価されます。以下で詳しく解説していきます。

システマティックレビューにおける外的妥当性

外的妥当性は、システマティックレビューの結果が「どれだけ一般化できるか」を測ります。したがって、システマティックレビューに含まれていない集団にも結果を一般化できるのならば、高い外的妥当性を持つということになります。

もしある医師が、特定の薬が治療に有効であるという結論を出しているシステマティックレビューを読んだとしたら、患者の治療にその薬を使えるかどうかを考えることになると思います。例えば、あるシステマティックレビューは、成人の大うつ病性障害において、抗うつ薬がプラセボよりも効果があると結論づけています。しかし、医師がここで得られた情報を患者の治療に適用しようとする際には、

  • この研究結果は高齢の大うつ病性障害患者にも適用できるのだろうか?
  • 青少年や特定の文化圏ではどうか?
  • 投薬計画は自己管理可能か?

など、外的妥当性に関する疑問が生まれてきます。

こうした疑問に対処するため、システマティックレビューにおける外的妥当性を測る基準が複数提示されています。主に以下のものが使われています:

サンプルサイズ

サンプリングに関する基準であり、サンプルサイズが大きいシステマティックレビューの結果は、サンプルサイズが小さいものよりも一般化しやすい傾向にあります。

あるメタアナリシスは、異なる研究をプールし、サンプルサイズが治療効果にどのように影響するかを推定しています。その結果、サンプルサイズが小さい研究の方が大きい研究よりも治療効果が32%大きいことが分かりました。つまり、サンプルサイズが小さい試験は、サンプルサイズが大きい試験よりも、さらには現実の多くの人々に現れる結果よりも、誇張された結果をもたらす可能性があるということが示唆されています。

システマティックレビューにサンプルサイズが小さいものを用いると、一般化可能性(外的妥当性)が低下します。これを解消するには、できるだけ多くの研究を含めることに尽きます。これにより、研究の外的妥当性を向上させることができます。

サンプルサイズに関しては、こちらもおすすめです。あわせてご覧ください。

参加者の特徴

システマティックレビューの結論が、特定の性別、年齢、地理的地域、社会経済的プロフィールなどに限定されている場合、研究結果の異なる特徴を持つ参加者への一般化が限定的になってしまいます。

例えば、このレビュー論文では、8.54%から88.30%の範囲で中国の医学生の平均27.22%が不安を抱えていると結論づけています。これは21の研究から得られた重要な知見です。

しかし、別の国の医学生についてこの結果は適用できるでしょうか?あるいは、医学を学んでいない中国人学生についてはどうなのでしょうか?同じような割合で不安に悩まされるのでしょうか?

こうした疑問自体は、この発見の価値を直ちに損なうものではありません。しかし、外的妥当性に限界があることを理解することもまた重要なのです。

研究の設定

システマティックレビューが、ある特定の環境における特定の疾患の危険因子を調査したものであるとしましょう。その結果は、他の環境に拡張して適用できるでしょうか?

この研究は、都市環境における集団の健康のさまざまな決定因子を評価し、所得、教育、空気の質、職業状況、移動、喫煙習慣が、さまざまな都市環境における罹患率や死亡率に影響を与えることを発見しました。

しかし、この知見はレビューに含まれていない異なる国の他の都市環境でも有効なのでしょうか?あるいは、農村の環境にも適応可能なのでしょうか?

このように研究の設定によっても外的妥当性は変わってくるのです。

比較対象

対象とする治療を何と比較するのかも、システマティックレビューの妥当性を左右する重要な指標です。

例えば、新しい治療法とプラセボを比較した場合は、治療効果に大きな差が出るかもしれません。しかし、新しい治療法と他の有効な治療法を比較した場合、効果の差はあまり目立たない可能性もあります。肥厚性瘢痕とケロイドに対する治療法のシステマティックレビューとメタアナリシスでは、2つの治療法とプラセボを検証することで外的妥当性を高めることに成功しています。

システマティックレビューで選んだ比較対象は、現実の診療に近いものであることが理想的です。これにより外的妥当性を高めることができます。

外的妥当性を報告する

公表されているシステマティックレビューには、以下で解説する内的妥当性の報告に終始し、外的妥当性の報告が欠けているものが少なくありません。実際、研究者は「外的妥当性(external validity)」という言葉そのものをあまり使用していません。多くの著者は、「一般化可能性(generalizability)」、「適用可能性(applicability)」、「実現可能性(feasibility)」、「互換性(interchangeability)」という本質的には同じものを意味する言葉を用いています。

PRISMAガイドラインは、システマティックレビューが従うべき道筋を示したものですが、そのPRISMAガイドラインでさえ外的妥当性を内的妥当性ほど重視していません。(PRISMAガイドラインについては、こちらの記事をご参照ください)

とはいえ、外的妥当性はより注目される可能性が高いのは事実であり、システマティックレビューの全体的な妥当性と価値にとっても重要です。

システマティックレビューにおける内的妥当性

その名の通り、内的妥当性は外部要因よりも研究の内部に着目した妥当性です。すなわち、各研究の方法論がどれだけしっかりしているかということであり、システマティックレビューでは、バイアスの程度によって定義されます。

内的妥当性については、様々な評価方法が開発されてきたことで、外的妥当性よりも測定しやすく、高めることも容易です。Cochrane collaborationJoanna Briggs Instituteなど、多くの組織がバイアスを計算するためのツールを開発しています。一方で、先ほど解説した外的妥当性の測定については、まだまだ評価方法の確立が不十分なのが現状です。

システマティックレビューを執筆する上では、レビューに含まれる研究の方法論の質をチェックし、様々なタイプのバイアスの程度を報告する必要があります。この積み重ねが、システマティックレビュー自体の内的妥当性につながっていくのです。

選択バイアス

選択バイアスとは、試験における参加者の選択によって生じるバイアスのことです。

研究における実験群の間で参加者のベースライン特性が異なる場合は、選択バイアスが存在する可能性が高まります。

例えば、心不全に対する新薬のランダム化比較試験(RCT)において、一方の群に糖尿病患者が多い場合、この群の治療成功率は低くなる可能性が高くなります。

このように介入の割り付けが2群間で均一でないことは、結果に悪影響を及ぼす恐れがあるのです。

このような選択バイアスのリスクは、強力な無作為化によって減らすことができます。RCTがエビデンス作成における最高峰の方法であるとされるのは、強力な無作為化が可能なためです。

システマティックレビューにおいて、RCTの選択バイアスをチェックするためには、無作為化がどのように行われたかを説明する単語を検索するのが良いでしょう。乱数表や、無作為化のためのシーケンス生成、患者を異なる群に割り当てる前の割り付けの盲検化に関する記述がしっかりあれば、選択バイアスは小さいことが多いです。

この神経学におけるRCTは、母集団が比較的少ない(n=35)にもかかわらず、強力な無作為化の良い例です。

実行バイアス

実行バイアスは、研究のすべての治療群が同程度のケアを受けたかどうかをチェックする指標です。

実験群間でケアのレベルが異なると、結果に偏りが生じる可能性があります。研究においては、実行バイアスを減らすために、研究参加者と介護者を盲検化またはマスキングすることが多いです。盲検化やマスキングに関する詳細がないRCTは、実行バイアスが存在する可能性が高くなります。

しかし、盲検化は常に可能というわけではないため、盲検化されていないからといって研究の価値が直ちに無くなるわけではなく、そうした研究をレビューに含める価値がある場合もあります。

例えば、抗がん剤試験では経口投与と注射投与が、手術に関する試験では手術と非侵襲的治療が比較されます。しかし、いずれの場合も盲検化は現実的ではありません。このような場合は、実行バイアスの存在を容認すべきです。

検出バイアス

検出バイアスは、転機評価者が、各群が受けた介入を認識している場合に起こりうるバイアスです。RCTで転帰評価者が盲検化またはマスクされていると言及されている場合、これは検出バイアスのリスクが低いことを示唆します。

転帰評価者の盲検化は、RCTが主観的転帰を測定する場合に特に重要になります。例えば、この研究では胆嚢手術後の術後疼痛を評価していますが、術後の見た目は同一になるようにしているため、患者はどの治療を受けたかを知ることはありません。

減少バイアス

減少バイアスは不完全な試験データから生じるバイアスです。RCTの期間中、患者が解析から離脱したり、追跡調査のために再来院しなかったりすることで生じます。どのようなRCTにも多少の減少はつきものですが、減少率が試験群間で大幅に異なる場合、結果をゆがませることになります。

一般に、per-protocol解析は、減少バイアスは高くなる傾向にあります。一方でintention-to-treat解析(ITT解析)を用いれば、減少バイアスは減少する可能性があり、両方の解析を用いた研究で結果が類似している場合、減少バイアスは低くなると考えられます。

例えば、外科手術に関するRCTでは、intention-to-treat解析とper-protocol解析の結果が類似していたため、減少バイアスが低いことが示唆されています。

システマティックレビューを書く際には、RCTにおいてintention-to-treat分析を行っていない場合、減少バイアスが存在する可能性があることに注意してください。

報告バイアス

RCTで報告された知見と報告されていない知見に顕著な差がある場合、報告バイアスが存在する可能性が極めて高いです。このバイアスは、著者が統計的に有意な結果のみを報告し、有意でない結果を除外した場合にも起こり得ます。

多くのジャーナルは、このバイアスを克服するために、著者にデータセット自体を共有するよう奨励しています。

システマティックレビューにおけるバイアスのリスクに関する専門家の見解は、こちらの記事をご参照ください。

内部妥当性/バイアスの算出と報告

バイアスはレビューの内部妥当性を損なう可能性があるため、レビューに含める研究に存在する様々タイプのバイアスを特定する必要があります。

バイアスの特定を支援するツールは多く存在します。どのツールを使うかは、レビューに含まれる研究の性質によって異なります。以下に一部の例を列挙しますので、ご参照ください。

RCT研究の場合:Cochraneの提供するrisk-of-bias tool for randomized trials (RoB-2)

非RCT研究の場合:ROBINS-I tool

症例対照研究:Newcastle-Ottawa Scale(NOS)

システマティックレビュー研究の場合:AMSTAR-2

エダンズでは、システマティックレビューの全域をサポートしています。詳しくは、こちらをご覧ください。