A summarization dataset of Japanese patient narrative, Tobyoki.
闘病記医療イベント要約データセット
病に関する患者(または患者関係者)の語りテキスト,いわゆる「闘病記」を,医療関係イベントのみの時系列へと要約するタスク「闘病記医療イベント要約」のためのデータセットです. 「闘病記」としては,Web上のブログおよび図書を対象とします(後述するv1はブログのみ). 「要約」と冠していますが,一種の医療情報抽出ともいえます. 闘病記医療イベント要約タスクは,通常の要約と異なり,ある部分の入力(ブログであれば1記事)に対してそれ以前の全履歴を考慮した要約(インクリメンタル要約)を出力することを課します. 独立した記事単位の要約の場合と異なり,このタスクを解くシステムは入力履歴をうまく考慮する必要が生じる点に特徴があります.
v1データセットとして,Amebloから収集した100名分の乳がん闘病記ブログにインクリメンタル要約を付与したものを公開します(下記). 今後,データセットの種類,規模,内容は拡充していく予定です.
本タスクおよびv1データセットのグラフィカルな説明は下記ライトニングトーク発表をご参照ください.
矢田竣太郎,荒牧英治.2024. 闘病記ブログから患者の医療イベントをインクリメンタルに要約したデータセット.言語処理学会第30回年次大会 併設ワークショップ 日本語言語資源の構築と利用性の向上 (JLR2024). [PDF]
本研究は JST 2023年度AIPチャレンジ の支援を受けました.
- 矢田 竣太郎(研究責任者)
- 大槻 優佳(スクレイピング作業者)
- 医療従事者2名(要約作業者)
MIT
Amebloで公開されている乳がんの闘病記ブログから100名をサンプルし,インクリメンタル要約を付与したデータセット.
収集作業を実施した期間:2023年8月
スクレイピング除外基準:
- tobyo.jp で「乳がん」にカテゴライズされていない
- Ameblo以外のブログプラットフォームで書かれている
https://ameblo.jp/[user_name]
が「最新記事」ではなく「記事一覧」となっている- アメンバー限定記事
収集結果(概数):4000ユーザ・73万記事
乳がん闘病記ブログのユーザから下記条件すべてを満たすユーザを100名ランダムサンプル:
- 総記事数10〜200
- 全記事の総文字数20万以下
医療従事者(2名が50ユーザずつ分担)に下記を依頼:
- 記事中の医療関係イベントを見つける
- 医療関係イベントは,症状の発生・変化や服薬,病院への入退院・診察・検査など,医学的に重要と思われる事象
- 時系列の箇条書き(フォーマット不問)へと要約(インクリメンタル要約)
- 直前までの記事の内容を踏まえ,追記・編集する
- 記事に医療イベントが含まれない場合はインクリメンタル要約も更新しない
カラム名 | 内容 |
---|---|
id | 通し番号 |
user | Amebloユーザ名 |
created_at | 記事投稿日 |
title | 記事タイトル |
url | 記事URL |
summary | 記事単位の要約(作業用) |
incremental_summary | インクリメンタル要約 |
ブログユーザの著作権を尊重し記事本文テキストの2次配布を避けるため,データセットには本文テキストが含まれません. 代わりに記事URLから,使用者自身がAmebloからテキストをスクレイピングするなどして取得する必要があります. 本データセット作成者は,個別具体的なスクレイピング方法のサポートを致しかねますので,ご容赦ください.