TOP

/

【論文執筆のためのAI活用術】最新AIで叶える「効率的なデータ定義書 作成術」- 簡単2ステップで、失敗しないデータシート設計を - vol.16

【論文執筆のためのAI活用術】最新AIで叶える「効率的なデータ定義書 作成術」- 簡単2ステップで、失敗しないデータシート設計を - vol.16

2026.05.19

研究用データをExcelに入力していて、「あれ、このケースってどう入力すればいいんだっけ?」と手が止まってしまったことはありませんか?

臨床研究ではカルテや既存データベースから、システマティックレビューでは大量の論文から、それぞれ必要な情報を拾い上げる「データ抽出」のステップが欠かせません。そして、この準備段階である「データシート設計」こそが、研究で失敗しないための非常に重要なカギとなります。

データ収集前にルールを詰めきれていないと、最悪の場合、解析直前になって 「このデータでは目的の解析ができない」 と気づき、抽出作業をやり直す事態にもなりかねません。

さらに難しいのは、データシートに入力する人が研究計画を作成した本人とは限らない、という点です。

共同研究では、計画・データ収集・解析を別々の担当者が分担することが珍しくありません。だからこそ、それぞれの列について「何を、どの基準で拾うのか」を定義した「データ定義書」をデータシートとセットで用意しておくのが理想です。


データシートとデータ定義書の準備はとても時間と労力のかかる作業ですが、AIを活用することで劇的に効率化できます。

本記事では、AIとの「データ設計→シート作成」の2ステップで研究用のデータシートを作成する方法を、そのまま使えるプロンプトと合わせて解説します。

mMEDICI Library | ひらけ、叡智の扉

叡智の扉を、全ての人が開けるように——。

学びは、限られた豊かな人々だけの特権ではありません。

経済的困難に直面する人、地方で学習資源に恵まれない人、家事や育児・仕事に追われる人。

mMEDICI Libraryではそんな人々にこそ、最高の学びを届けるため、研究・キャリア・学習・受験のあらゆるテーマでパブリックヘルスの叡智を集めました。

隙間時間にスマホひとつで、誰もが「一流の知」に触れることを叶えていきます。

「ここを開けば、誰しもが悩みを解決できる」、そんなメディアを目指します。

この記事のまとめ

この記事を読むと分かること

  • AIと壁打ちしながら研究で収集するデータシートの項目を固める進め方

  • AIでデータ抽出用Excelシートを自動作成する方法

  • システマティックレビューにおけるデータ抽出を自動化する方法

この記事は誰に向けて書かれているか

  • これから臨床研究のデータ抽出を始める方

  • 研究用データシートを一から設計するのが苦手な方

  • システマティックレビューで論文からのデータ抽出を効率化したい方

論文執筆のためのAI活用術シリーズ

  • vol.1:最新AIで書く「論理的なIntroduction」作成ガイド

  • vol.2:最新AIで書く「国際ガイドライン準拠のMethods」そのまま使えるプロンプトで簡単作成!!

  • vol.3:最新AIで書く「図で魅せるResults」手書きメモが一瞬で図に!!

  • vol.4:最新AIで書く「明快なDiscussion」リミテーションにおけるバイアスの整理方法

  • vol.5:最新AIで書く「投稿規定に沿った論文」確認作業をAIで時短!!

  • vol.6:最新AIで叶える「スマートな文献検索」最短ステップ

  • vol.7:最新AIで書く「Methodsの難所:統計解析パート」攻略方法

  • vol.8:最新AIで叶える「効率的なResults執筆術」図表から一瞬で文章生成する方法

  • vol.9:最新AIで「Discussionの“Spin”」を回避せよ! - そのまま使えるプロンプトで“言い過ぎ表現”を徹底対策

  • vol.10:最新AIで叶える「効率的な略語チェック」 - 簡単フローで「略語のミス」を回避せよ

  • vol.11:最新AIで書く「査読者も納得のIntroduction」 - 重要論文の「引用漏れ」を徹底チェック

  • vol.12:最新AIで書く「説得力のあるIntroduction」- AIを頼りになる“辛口レビュアー”に

  • vol.13:最新AIで叶える「簡単2ステップのMethods執筆術」 - 最短ルートでガイドライン準拠のMethods作成

  • vol.14:最新AIで叶える「簡単3ステップのデザインダイアグラム作成」 - そのまま使えるプロンプト付き

  • vol.15:最新AIで叶える「説得力のあるDiscussion」 - 「Methodsの違い」から深める、先行研究との比較

  • vol.16:最新AIで叶える「効率的なデータ定義書 作成術」- 簡単2ステップで、失敗しないデータシート設計を(本記事)

執筆者の紹介

氏名:わたヤク(SNSアカウント名)
所属:大学勤務
自己紹介:大学の研究推進センターに勤務する薬学博士。様々な臨床研究のデザインや統計解析に携わる。筆頭論文が国際的ながんサポーティブケア学会のガイドラインに引用され、自らもシステマティックレビュー委員としてガイドライン作成に携わるなど、研究活動や社会活動も積極的に行っている。その専門知識を活かし、臨床研究におけるAI活用の情報をSNSやブログで積極的に発信。𝕏アカウントは開設から約11ヵ月で10,000フォロワーを突破し、noteも約8ヵ月で1600フォロワー突破。AIと研究を繋ぐ第一人者として、mJOHNSNOWのセミナー講師も務める。
𝕏:https://x.com/ai_biostat
AI医療統計(ブログ):https://ai-biostat.com/
Note:https://note.com/ai_biostat

編集者

氏名:菊池祐介
所属:mMEDICI株式会社
専門性:作業療法学修士。首都大学東京(現東京都立大学)・東京都立大学大学院を卒業後、病院勤務を経て専門学校・私立大学にて作業療法教育、地域共生社会の醸成に向けたリハビリテーション専門職の支援に関する研究に従事。現在は心身の健康とその人らしさの実現に向け、保険内外でのクライアント支援を展開している。作業療法の社会的意義向上を信念に、mMEDICI株式会社に参画。

監修者

氏名:廣瀬直紀
所属:mMEDICI株式会社
専門性:保健学博士・公衆衛生学修士。東京大学・東京大学大学院を卒業後、外資系製薬企業の日本・グローバルにおいて疫学専門家として薬剤疫学・リアルワールドデータ研究に従事。その後、全ての人がアクセス可能な一流の知のプラットフォームを作り、「知に繁栄を、辺野に豊穣を」実現すべく、mMEDICI株式会社を創業。

データシート設計の重要性

データ抽出は「設計が9割」

臨床研究の結果の信頼性は、データ抽出過程で大半が決まると言っても過言ではありません。なぜなら、収集したデータが本来の目的からずれてしまっていれば、どれほど高度な統計手法を使っても得られた数値は不正確なものになってしまうからです。

特に観察研究では、日常診療で取得された情報を研究用データに落とし込む過程で誤分類が生じやすい側面があります。

特に、複数人でデータを抽出する際には、判断がメンバー間でブレやすくなり、「どこまでをYesと判定すべきか」 「単位はg/dLか mg/dLか」 といった疑問が現場で噴出します。

だからこそ、データを取り始める前の段階で、誰がみても入力に迷わないための「データ定義書」をまとめておくことが重要になります。

データ定義書
データ抽出用シートの各列について、入力例・入力規則・意味などを記載した「設計書」

判断基準と入力形式をあらかじめドキュメント化しておけば、複数人で入力するときの解釈のばらつきを最小化できます。また、データクリーニング段階で「同じ意味なのに表記が違う」 「単位がバラバラ」 といった問題を事前に予防できます。

AI活用術:項目設計→シート作成の2ステップ

研究用データシートの作成は、次の2ステップに分けて進めます。

  1. 抽出項目(データ定義書)を壁打ちで詰める

  2. データシートのひな型を作る

ここでの最大のポイントは、 いきなりExcelファイルを作らせないことです。

データシートはAIと相談しながら細部を詰めていくため、Excelを作ったあとに修正を重ねてしまうと想定外のエラーが起きやすくなり、結果的に作業時間が長くなります。

そこで、 まずはチャット上でAIと壁打ちし、収集するデータ項目・各項目の定義・入力ルールを固める という工程を先に済ませ、その内容に沿ってデータ抽出用シートを作成するのが、手戻りが少ない効率的なAI活用ワークフローになります。

ステップ1:抽出項目をAIと壁打ちする

最初のステップでは、研究計画案をもとにデータ項目定義書のたたき台を作ります。

材料として渡すのは、ご自身の研究のアウトラインです。PICO、対象集団、研究デザイン、主要アウトカム、副次アウトカム、想定する解析方法が書かれていれば、AIは必要な抽出項目を提案しやすくなります。

OSFPROSPEROなどにすでに公開しているプロトコルがある場合は、その内容を貼り付けるのも良いでしょう。

※非公開の研究計画書を使う場合は、機密性の高い情報を除いたうえで入力してください。


【 プロンプト例 】
本記事ではChatGPTのGPT-5.5(Extended)Thinkingを使用します。

## タスク
以下の研究計画をもとに、データ項目定義書を一緒に設計してください。

## 制約条件
- 不明点や検討すべき論点があれば、先に私へ質問してください。
- 現時点ではExcelシートは出力せず、チャット上で案を提示してください。

## 出力形式
全ての列について、以下の4項目をセットで表形式で提示してください。
- 列名
- 入力例
- 入力規則(該当する場合のみ)
- 意味(その列で何を抽出するか)

## 研究計画
{{ここに研究計画を貼り付ける}}

このプロンプトに対して、AIは必要があれば設計上すり合わせが必要なポイントを 逆質問 してくれます。

例えば、

  • 「データ抽出の単位は患者1人につき1行でよいですか?」

  • 「シートは1枚に統合する設計でよいですか?」

  • 「曝露の定義は最初の処方日でよいですか、それとも初回診断日ですか?」

といった質問です。

AIに質問させながら項目を詰めていくと、漏れやロジックの不整合に自分で気づきやすくなります。質問に答えていくうちに、 抽出項目の輪郭がだんだんと固まっていく イメージです。

質問への回答が一通り終わると、AIはデータシート案を表形式で返してくれます。データシート全体は数十列に及ぶため、出力例として「患者基本情報・適格性関連」のみ抜粋して示します。


出力例(抜粋)

患者基本情報・適格性関連

AIから返ってきた項目案は、研究計画と照らし合わせながらしっかり確認しましょう。この段階でしっかりと詰めておけば、後のステップでExcelシートを修正する手戻りを大幅に減らせます。

修正したい箇所があれば、例えば、

  • 「65歳以上かどうかを識別する列を追加してください」

  • 「転移リンパ節数は『なし/1-2か所/3か所以上』の選択式にしてください」

といった具合でチャットでそのまま指示しましょう。

項目が固まったら、データ項目定義書をファイルとして出力しておくと、次のステップでAIに渡しやすくなります。 「このデータ項目定義書の内容をMarkdownで出力してください」 と依頼すれば、構造化されたテキストとして書き出してくれます。


データ定義書の例(抜粋)

データ定義書の例(抜粋)

モデル論文を参考にする方法
研究計画がまだ十分に固まっていない段階では、 モデル論文のPDFを使う方法 もあります。ここでいうモデル論文とは、自分がこれから行いたい研究に近いテーマ、研究デザイン、対象集団、アウトカムを扱っている先行研究のことです。

つまり、 「この研究のような形で、自分のデータを使って検討したい」 と思える先行研究の論文です。

このモデル論文をAIに渡し、そこからデータシート案を起こしてもらうことができます。この方法は、データシートにどのような項目が並ぶのかを 先に「型」としてイメージしておきたいとき に有効です。


【 プロンプト例 】

## タスク
添付PDFの論文を読み、この研究を再現するために必要と考えられるデータ項目定義書の案を作成してください。

## 制約条件
- 論文中に明示されている情報と、AIが推測した情報を区別してください。
- Methods、Table 1、アウトカム表、補足資料に出てくる変数を優先してください。
- 不明な項目は「要確認」と明記してください。

## 出力形式
全ての列について、以下の5項目をセットで表形式で提示してください。
- 列名
- 入力例
- 入力規則(該当する場合のみ)
- 意味(その列で何を抽出するか)
- 根拠箇所(Methods、Table 1など)

研究計画を一から言語化するのが難しい段階でも、モデル論文が扱っている患者背景、曝露、アウトカム、交絡因子からデータシートを再構成することができます。「この研究と同じ解析をしようと思ったら、どのようなデータ項目が必要なのか」 といったイメージを深めるのに有効です。

ステップ2:データシートのひな型をExcelで出力させる

収集するデータ項目が固まったら、それを実際に入力できるシートの形に落とし込みます。ステップ1で出力したデータ項目定義書をプロンプト欄にアップロードし、データ収集用Excelファイルを作成するようAIに指示します。

【 プロンプト例 】

## タスク
添付のデータ項目定義書に基づいて、データ抽出用Excelシートを出力してください。

## 制約条件
- 出力するExcelファイルはデータ抽出用の単一シートのみで構成する。
- 1行目を変数名(列名)にする。
- 入力規則の指定があれば、シートに反映する。
- 背景色などの装飾は行わない。

### データ項目定義書からの変更点
 「なし」あるいは変更点があればここに記載する。
【 プロンプト例 】


出力例(抜粋)
以下のように、定義書の内容に沿った「データ収集用シート」が出力されます。

データ収集用シート

出力されたシートは、そのまま使い始める前に必ず確認しましょう。各列の変数名だけでなく、入力規則(プルダウン候補・日付形式・数値範囲など)が定義書のとおりに設定されているかをチェックします。

システマティックレビューのデータシート作成にも

ここまでは、カルテや既存データベースを対象とした臨床研究を念頭に解説してきました。

システマティックレビュー(SR)におけるデータシート作成でも、データ抽出用シートとデータ項目定義書を作成するステップ1・2の流れは共通です。一方で、SRが他の研究と異なるのは、抽出するデータの「ソース」が電子カルテなどではなく、 既に出版された論文 という点です。

そのため、論文PDFを加えてAIに渡すことで、データ抽出そのものも自動化することができます。

ステップ1・2で作成した「データ抽出用Excelシート」と「データ項目定義書」をAIにアップロードして、以下のプロンプトを使いましょう。

【 プロンプト例 】

## タスク 
システマティックレビューのデータ抽出を行います。 
添付した論文PDFを読み、データ項目定義書に従って、データ抽出用Excelシートに必要な情報を入力してください。 

## アップロードしたファイル 
- データ抽出用Excelシート:このファイルにデータを入力する 
- データ項目定義書:各列の意味、入力形式、入力規則を定義したファイル 
- 論文PDF:今回データ抽出の対象とする論文 

## 制約条件 
- 論文中に明記されていない情報は推測せず、「NR」または「要確認」と入力してください。 
- 判断に迷う箇所は「要確認メモ」としてチャットで報告してください。
  例: - 本文と表で値が異なる
      - 単位換算や効果量の変換が必要 
      - PDFの読み取りが不確実な箇所がある 

## 出力ファイル 
- データ入力済みのExcelファイルを返してください。

これだけで、AIはPDFからデータを抽出し、Excelシートへの入力まで行ってくれます。

もちろん、AIが入力したデータは人間の目でPDFと照らし合わせながら確認する必要があります。それでも、白紙のExcelシートを一から埋めていく作業に比べれば、はるかに効率的です。例えば、入力された値や原文の抜粋をPDF内で文字列検索すれば、該当する表や本文をすばやく特定できます。

PRISMA 2020への対応

なお、システマティックレビューの報告ガイドラインである PRISMA 2020 では、研究選択、データ収集、バイアスリスク評価などの過程で 自動化ツールを使用した場合、その詳細を報告することを求めていますPage MJ, McKenzie JE, Bossuyt PM, Boutron I, Hoffmann TC, Mulrow CD, et al. The PRISMA 2020 statement: An updated guideline for reporting systematic reviews. PLoS Med. 2021;18(3):e1003583.)。

したがって、AIをデータ抽出に用いる場合は、PRISMA 2020のチェックリストに沿ってどのツールを、どの工程で使ったのか残しておくと、後の論文執筆段階でスムーズです。

併せて、投稿する雑誌の投稿規程も確認し、AI使用に関する開示が求められている場合は、指定された場所に必要事項を記載するようにしましょう。

まとめ:「データ収集前の設計」がAIで一気に進む

研究結果の信頼性を左右するデータシートは、「誰がやっても同じデータになる」のが理想です。そのためには必須ともいえる「データ定義書」ですが、作成するための労力が大きいことが課題でした。

しかし、AIを活用すればシンプルな以下の2ステップでデータ定義書+データ抽出用シートが完成します。

  1. 研究計画(またはモデル論文)をAIに渡し、抽出項目を壁打ちで固める

  2. 完成したデータ定義書から、AIにExcelシートを出力させる

さらに、システマティックレビューであれば、ステップ1・2で生成されたファイルを使ってデータ抽出まで自動化することができます。

まずは手元の研究計画を使って、本記事のプロンプトを試してみてください。
本記事が、皆さんの研究活動を加速させる一助となれば幸いです。

𝕏では、研究に役立つTipsやAI活用の最新情報を日々発信しています。 ぜひフォローして、最新の情報をキャッチしてください。
https://x.com/ai_biostat

医学研究を学ぶならオンラインスクールmJOHNSNOW

この記事を読み、「もっと研究や論文執筆でAIを活用したい!」と思われた方もいらっしゃるでしょう。

そんな方には弊社が運営するオンラインスクールmJOHNSNOWがお勧めです。

mJOHNSNOWはスペシャリストが運営する臨床研究・パブリックヘルスに特化した日本最大規模の入会審査制オンラインスクールです。運営・フェローの専門は疫学、生物統計学、リアルワールドデータ、臨床、企業など多岐に渡り、東大、京大、ハーバード、ジョンスホプキンス、LSHTMなど世界のトップスクールの卒業生も集まっています。

「AIコーディング講座」をはじめ、専門性を伸ばすためのコンテンツが目白押しです!

詳細を見る

講座紹介|新時代の統計解析 AIコーディング講座

新時代の統計解析:AIコーディング講座

「コードを一つも書かずに解析をやり遂げる」世界を目指して、CursorなどのAIエディタの基礎知識の習得や、AIエディタを使った基本的な統計解析技術を習得していきます。さらに発展編として、因果推論の手法(IPW とParametric g-formula)に加え、AIで解析を自動化(以下、AI駆動解析)する方法を学びます。連載「医療職・研究者のためのAI論文執筆術シリーズ」の著者 渡邊大地先生が講師を務め、AIコーディングの基礎から実践までやさしく解説します。

詳細を見る

【YouTubeラジオコンテンツ 耳から学ぶシリーズ】

YouTubeラジオコンテンツ「耳から学ぶシリーズ」は、仕事や育児で忙しい人が10分のスキマ時間に“ながら聞き”で学べる音声コンテンツです。

すべてのコンテンツを疫学専門家が監修し、完全無料で毎日投稿していきますので、ぜひチャンネル登録してお待ちください。

シリーズ一覧

論文執筆のためのAI活用術シリーズ

  • vol.1:最新AIで書く「論理的なIntroduction」作成ガイド

  • vol.2:最新AIで書く「国際ガイドライン準拠のMethods」そのまま使えるプロンプトで簡単作成!!

  • vol.3:最新AIで書く「図で魅せるResults」手書きメモが一瞬で図に!!

  • vol.4:最新AIで書く「明快なDiscussion」リミテーションにおけるバイアスの整理方法

  • vol.5:最新AIで書く「投稿規定に沿った論文」確認作業をAIで時短!!

  • vol.6:最新AIで叶える「スマートな文献検索」最短ステップ

  • vol.7:最新AIで書く「Methodsの難所:統計解析パート」攻略方法

  • vol.8:最新AIで叶える「効率的なResults執筆術」図表から一瞬で文章生成する方法

  • vol.9:最新AIで「Discussionの“Spin”」を回避せよ! - そのまま使えるプロンプトで“言い過ぎ表現”を徹底対策

  • vol.10:最新AIで叶える「効率的な略語チェック」 - 簡単フローで「略語のミス」を回避せよ

  • vol.11:最新AIで書く「査読者も納得のIntroduction」 - 重要論文の「引用漏れ」を徹底チェック

  • vol.12:最新AIで書く「説得力のあるIntroduction」- AIを頼りになる“辛口レビュアー”に

  • vol.13:最新AIで叶える「簡単2ステップのMethods執筆術」 - 最短ルートでガイドライン準拠のMethods作成

  • vol.14:最新AIで叶える「簡単3ステップのデザインダイアグラム作成」 - そのまま使えるプロンプト付き

  • vol.15:最新AIで叶える「説得力のあるDiscussion」 - 「Methodsの違い」から深める、先行研究との比較

  • vol.16:最新AIで叶える「効率的なデータ定義書 作成術」- 簡単2ステップで、失敗しないデータシート設計を(本記事)

個人・企業からの寄稿を受付中

play_arrow
寄稿ページはこちら