78万个问题！德州大学NIH等联合发布医学视觉问答数据集Medical 21.5万张X光

作者： 2024年08月09日直播浏览

新智元报道

编辑：LRST 好困

【新智元导读】 多模态大语言模型（MLLM）在医学视觉问答（VQA）领域展现出巨大潜力，通过提供针对医学图像的具体临床问题的回答，有助于提高医疗专业人员的工作效率。然而，现有医学VQA数据集规模较小且问题过于简单，限制了模型训练和微调。为了解决这一问题，研究团队提出了Medical-CXR-VQA，这是一个大规模的X光胸片问答数据库，覆盖了更广泛的问题类型，包括异常、存在、位置等七种问题类型，为构建更准确的医学VQA模型提供了基础。

多模态大语言模型 (Multimodal Large Language Moodel, MLLM) 以其强大的语言理解能力和生成能力，在各个领域取得了巨大成功。

在医学领域上，视觉问答 (VQA) 是医学多模态大语言模型的一项重要任务，它可以通过回答针对医学图像的具体临床问题，有效提高医疗专业人员的效率。这一类工作可以减轻公共卫生系统的负担，对于医疗资源贫乏的国家来说尤其重要。

然而，现有的医学 VQA 数据集规模较小，仅包含相当于分类任务的简单问题，缺乏语义推理和临床知识。

如图1所示，现有的ImageCLF VQA-MED数据集仅包含「这张图像里主要异常是什么？」和「这张图片里看到了什么？」这两种完全相当于分类任务的问题。

较小的数量以及过于简单的问题使得大语言模型很难在现有数据集上训练以及微调。

图1 新数据集与现有的数据集ImageCLF VQA-MED的问题对比

为此，得克萨斯大学阿灵顿分校、理化学研究所、国立卫生研究院、日本癌症研究中心以及东京大学的团队提出了一个大型X光胸片的问答数据库。

Medical-CXR-VQA，这个数据库覆盖了更大范围的问题类型，包含异常、存在、位置、级别、拍摄角度和类型，共7种类型的问题。

论文地址： https://authors.elsevier.com/sd/article/S1361-8415(24)00204-4

项目链接： https://github.com/Holipori/Medical-CXR-VQA

同时，作者还提出了一种新的基于LLM的方法来构建数据集。传统的数据集构建方法中主要包括两种类型：人工标注和基于规则的方法。

人工标注方法的典型示例如VQA-RAD，其依赖于大量人力资源，因而数据集的规模往往受限。

只有基于规则的方法，例如ImageCLEF和作者之前的工作Medical-Diff-VQA，才可能生成更大规模数据集。

然而，基于规则的方法对于大覆盖面的信息提取能力仍然有限，所需要提取的信息越多，意味着需要创建的规则越多。

在这里，作者使用LLM来帮助建立规则，使得相同信息覆盖面上比基于传统规则的方法准确率提高62%。

同时，作者还与2位临床专家合作对100个样本的标签进行了全面的评估，进一步帮助微调LLM。

基于该数据集，作者提出了一种新的基于图（Graph）的可解释的医学VQA方法利用图注意力来学习回答临床问题时的逻辑推理路径。

这些学习到的图推理路径可进一步用于 LLM 提示工程（Prompt engineering）和链式思维（Chain-of-thought），这对于进一步微调和训练多模态大语言模型有重要意义。

数据集介绍

全新的Medical-CXR-VQA 数据集包括在215,547张胸部X光片上的780,014个问题答案对，问题含盖异常，存在，位置，级别，拍摄角度和类型，共7种类型的问题。各种问题类型的比例和问题类别请分别见如下图2和表1。

图2 Medical-CXR-VQA 问题类型的统计数据

表1 Medical-CXR-VQA 问题类型示例

数据集构建的方法

MIMIC-CXR是一个包括377,110张胸部X光片和277,835个放射学报告的大型数据集。作者基于MIMIC-CXR构建了Medical-CXR-VQA数据集。

传统基于规则构建的方法的一种途径是将数据集构建过程分为两步，第一步是从原始文本信息中提取出结构化的关键信息，例如疾病的位置，类型，级别，存在可能性等等；第二步是基于所提取的关键信息构建问题答案对（QA pairs）。

作者先前的工作Medical-Diff-VQA所采用的就是这种该方法，而这种方法在第一步提取结构化关键信息时非常依赖于预设关键词和规则的覆盖程度。

在千变万化的自然语言表达中，构建出一套可以覆盖所有情形和表达的规则几乎是不可能完成的任务，而借助于LLM其强大的语言理解能力和生成能力，这个问题可以迎刃而解。

这种基于LLM的方法正是针对上述第一步过程的改进。

作者采用了Llama 2 70B 作为核心LLM，以提取放射学报告中的数据。整个数据生成过程可以分为以下几个步骤：

首先，为增强LLM对特定任务的理解，作者对其进行了微调（finetune）。使用GPT-4对100份放射学报告按照精心设计的提示词进行结构化关键信息提取，并将这些信息格式化为JSON。随后，两位专业放射科医生对提取的信息进行了校验和修正，并将这100个医生标注的样本便作为黄金标准用于对Llama 2 70B的微调。

在微调完成后，利用该模型对MIMIC-CXR数据集进行全量的关键信息提取。为了确保提取质量并抑制模型可能的幻觉问题（hallucination），作者实施了一系列后处理操作。这些操作包括：统一疾病名称，从疾病名称中剥离属性词（如位置、类型、级别），并进行属性词的重新分配等。

至此，结构化的关键信息提取已经完成。

为验证基于LLM的方法与传统基于规则的方法在结构化信息上的表现差异，作者对两种方法在100个随机抽取的样本上进行了比较。基于规则的方法使用了与LLM方法相同的信息覆盖面进行关键词提取。

结果如表2所示，基于LLM的方法在高信息覆盖面的信息提取上显示出显著提升，相比基于规则的方法具有断层式的优势。