Skip to content

A summarization dataset of Japanese patient narrative, Tobyoki.

License

Notifications You must be signed in to change notification settings

sociocom/TobyokiSummary

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 

Repository files navigation

TobyokiSummary

A summarization dataset of Japanese patient narrative, Tobyoki.

闘病記医療イベント要約データセット

概要

病に関する患者(または患者関係者)の語りテキスト,いわゆる「闘病記」を,医療関係イベントのみの時系列へと要約するタスク「闘病記医療イベント要約」のためのデータセットです. 「闘病記」としては,Web上のブログおよび図書を対象とします(後述するv1はブログのみ). 「要約」と冠していますが,一種の医療情報抽出ともいえます. 闘病記医療イベント要約タスクは,通常の要約と異なり,ある部分の入力(ブログであれば1記事)に対してそれ以前の全履歴を考慮した要約(インクリメンタル要約)を出力することを課します. 独立した記事単位の要約の場合と異なり,このタスクを解くシステムは入力履歴をうまく考慮する必要が生じる点に特徴があります.

医療イベント要約タスクの概要

v1データセットとして,Amebloから収集した100名分の乳がん闘病記ブログにインクリメンタル要約を付与したものを公開します(下記). 今後,データセットの種類,規模,内容は拡充していく予定です.

本タスクおよびv1データセットのグラフィカルな説明は下記ライトニングトーク発表をご参照ください.

矢田竣太郎,荒牧英治.2024. 闘病記ブログから患者の医療イベントをインクリメンタルに要約したデータセット.言語処理学会第30回年次大会 併設ワークショップ 日本語言語資源の構築と利用性の向上 (JLR2024). [PDF]

本研究は JST 2023年度AIPチャレンジ の支援を受けました.

作成者

  • 矢田 竣太郎(研究責任者)
  • 大槻 優佳(スクレイピング作業者)
  • 医療従事者2名(要約作業者)

ライセンス

MIT

Ameblo乳がん闘病記ブログ100 (v1)

Amebloで公開されている乳がんの闘病記ブログから100名をサンプルし,インクリメンタル要約を付与したデータセット.

Ameblo乳がん闘病記ブログ100 (v1)の概要

収集方法

収集作業を実施した期間:2023年8月

スクレイピング除外基準:

  • tobyo.jp で「乳がん」にカテゴライズされていない
  • Ameblo以外のブログプラットフォームで書かれている
  • https://ameblo.jp/[user_name] が「最新記事」ではなく「記事一覧」となっている
  • アメンバー限定記事

収集結果(概数):4000ユーザ・73万記事

サンプリング方法

乳がん闘病記ブログのユーザから下記条件すべてを満たすユーザを100名ランダムサンプル:

  • 総記事数10〜200
  • 全記事の総文字数20万以下

要約作業

医療従事者(2名が50ユーザずつ分担)に下記を依頼:

  • 記事中の医療関係イベントを見つける
    • 医療関係イベントは,症状の発生・変化や服薬,病院への入退院・診察・検査など,医学的に重要と思われる事象
  • 時系列の箇条書き(フォーマット不問)へと要約(インクリメンタル要約)
    • 直前までの記事の内容を踏まえ,追記・編集する
    • 記事に医療イベントが含まれない場合はインクリメンタル要約も更新しない

データ構造

カラム名 内容
id 通し番号
user Amebloユーザ名
created_at 記事投稿日
title 記事タイトル
url 記事URL
summary 記事単位の要約(作業用)
incremental_summary インクリメンタル要約

使用方法

ブログユーザの著作権を尊重し記事本文テキストの2次配布を避けるため,データセットには本文テキストが含まれません. 代わりに記事URLから,使用者自身がAmebloからテキストをスクレイピングするなどして取得する必要があります. 本データセット作成者は,個別具体的なスクレイピング方法のサポートを致しかねますので,ご容赦ください.

About

A summarization dataset of Japanese patient narrative, Tobyoki.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published