在长文本理解能力这块,竟然没有一个大模型及格!
北大联合北京通用人工智能研究院提出了一个新基准数据集:,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。
该数据集既能够评估LLMs对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模和理解能力。
结果不评不知道,一评估发现这些模型在复杂的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。
比如像Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型,平均只有40%的准确率。
而像开源模型表现就更不理想了…
ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K平均只有10%的准确率。
目前该论文已被ACL 2024接收。
论文共同一作为通研院的李佳琪、王萌萌,通讯作者为通研院研究员郑子隆和北京大学人工智能研究院助理教授张牧涵。
LooGLE基准测试
LooGLE基准测试主要有这样几个特点:
首先,它包含包含近 800 个最新收集的超长文档 。平均近2万字(是现有相似数据集长度的2倍),并从这些文档中重新生成了6千个不同领域和类别的任务/问题用于构建LooGLE。
目前目前没有既评估LLMs对长文本的处理和记忆,又评估其对文本长程依赖的建模和理解能力的数据集。
LooGLE的数据集由7个主要的任务类别组成,旨在评估LLMs理解短程和长程依赖内容的能力。
团队设计了 5种类型 的长期依赖任务,包括理解与推理、计算、时间线重新排序、多重信息检索和摘要。
通过人工标注精心生成了超过1100对高质量的长依赖问答对,以满足长依赖性要求。这些问答对经过了严格的交叉验证,从而得到了对大型语言模型(LLMs)长依赖能力的精确评估。
LooGLE基准数据集仅包含2022年之后发布的文本,尽可能地避免了预训练阶段的数据泄露,考验大模型利用其上下文学习能力来完成任务,而不是依靠记忆事实和知识储备。
该基准的文本源自广泛认可的开源文档,包括了arxiv论文、维基百科文章以及电影和电视剧本,涉及学术、历史、体育、政治、艺术、赛事、娱乐等领域。
长文理解中长程问答任务生成
在本研究中,团队组织了近百名标注者手工编制了约1100个真实的长依赖问答对,分为4类长依赖任务:多信息检索、时间重排序、计算、理解推理。
多信息检索 :与传统的短期检索任务显著不同,该任务下回答一个特定答案通常需要 在整个文本中搜集多个线索或证据 。任务要求从长文本中广泛分布的相关证据或线索中进行检索和提取,然后对这些证据进行汇总,才能得出最终答案。
计算 :与前一个任务类似,首先需要从广泛的文本中进行多次信息检索提取相关数字,例如关于数量、频率、持续时间、特定年份等。要得出准确的答案,还需要 对这些数字进行计算 。这个过程既依赖于强大的长上下文信息提取能力,并且涉及一定程度的数学推理能力。
时间重排序 :这个任务给大模型输入指令“请重新排列以下事件的时间轴”,以及一组按顺序排列的事件描述。 任务目标是根据这些事件在长文本中出现的时间先后顺序将这些事件排列起来 。成功完成这个任务需要对文档的主要故事情节进行抽取和理解,且要求模型具有时间意识。
理解推理 :这个任务要求模型利用散落在长上下文中的证据,深入理解问题并推理出答案。最常见的问题模式涉及到因果关系、影响、贡献、态度以及与各种事件相关的基本属性。此外,当问题围绕着证据的重要程度、显著程度、最高或最关键方面时,则需要进行更广泛的比较和评估。此任务的答案通常在源文本中不明显。它们通常需要多步推理来模拟内在的联系和依赖关系,通过复杂的分析过程获取答案。
实验分析
为了提供更全面和通用的性能评估,LooGLE 使用基于语义相似性的度量、GPT4 作为判断的度量,以及人类评估作为度量。在LooGLE上对9种最先进的长文本LLMs进行评估(其中包括OpenAI和Anthropic的商用模型,以及几个主流开源基座模型微调得到的长文本模型,和带有外部记忆模块的检索增强模型),得出了以下关键发现:
△不同LLM在LooGLE上展现的长文本理解能力
△不同模型在LooGLE短程问答上的性能
△不同模型在LooGLE短程问答上的性能
△不同上下文窗口对长程问答性能的影响
△不同模型在4种不同类型长程问答上的性能
因此,LooGLE不仅提供了关于长上下文LLMs的系统和全面的评估方案,而且为未来开发增强型模型以实现“真正的长上下文理解”提供了启示。
论文地址:https://arxiv.org/abs/2311.04939数据地址:https://huggingface.co/datasets/bigainlco/LooGLE代码地址:https://github.com/bigai-nlco/LooGLE
北大通用模型学习法有么?高中.数理化.我的邮箱843552265@qq.com
怎么今天碰见的全是这种问题?同学,什么是所谓的模型学习法?你觉得行得通吗?数理化不及格百分之一百基础差,不信吗?问你一个问题,什么叫做牛顿第一定律?5秒钟能回答吗?废话不多少,以数学为例,想学好高中的数理化,第一题少不了,像考高数学必须拿到130分以上,这就靠你的勤奋了,方法都是扯淡,练才是硬道理, 高考的时候数学前八道选择题不能犹豫要很快的解答,我是05级的考生,选择+填空13分钟,基本选择题前面1分钟做2道-3道,题做多了你会发现,其实就那几个考点,只是不能的考法,我那时看到题有的就不用做,一眼答案就出来的,我那时考试得了141分,除了最后一题的失分,其他都没有。 就是想告诉你什么,只有基础打好才能有发展的空间,其实学习没什么方法,看态度了,就这么多了,看你造化了。 企鹅回答!
求北大《模型解题法》 高中物理+数学+化学, 通用模型解题的资料和记忆卡视频,邮箱 lizhijiradio@163.com
高中物理合集网络网盘下载
链接:资源实时更新
北大韦神出手,一天解决了六博士四个月没搞定的难题
机器之心报道,基础科学领域的研究总是让人感到晦涩难懂,但我们常常能从一些「小事」上看出其中意义。 5月6日,一张微信聊天截图,将北大助理教授韦东奕再次送上了热搜。 据这张截图介绍,一家科技公司使用PS5做了一个集群用来模拟产品的物理性能,但随着模型越复杂,模拟失真就越高。 包含六位博士在内的团队花了四个多月未能解决,团队猜测是因为「对纳维斯托克斯方程的处理有问题」,但是又搞不清楚哪里有问题。 后来,他们向韦东奕寻求了帮助。 韦东奕把肢档全部方程发过来后,团队花了一天调试就成功了,并且和过往的真实实验数据匹配率高达99.8%。 故事的结尾是:韦东奕拒收报酬,表示「太简单了,没必要要钱」,最终这家公司给韦东奕充了市政公交一卡通……听完这个过程,有网友表示:「这结局太魔幻了,有种在看网络爽文的感觉。 」朴实无华韦东奕韦东奕最初的无意间「走红」,也是由于一次热搜。 2021年5月,有媒体探访北大校园时,采访到了韦东奕。 在采访视频中,韦东奕手持1.5L装矿泉水瓶,拎着两个用塑料袋打包的馒头,其质朴形象一度引发热议,人称「韦神」、「北大数学系扫地僧」。 韦东奕2007年升入山东师范大学附属中学。 高一时参加第49届国际数学奥林匹克竞赛(IMO),以满分获得金牌。 2009年,高二时韦东奕参加第50届国际数学奥林匹克竞赛,再次满分夺金。 2010年,韦东奕被保送至北京大学就读;2014年本科毕业后在北京大学硕博连读;2018年博士毕业后在北京国际数学研究中心从事博士后研究工作;2019年被聘为北京大学助理教授。 他的博士论文《轴对称Navier-Stokes方程与无粘阻尼问题》,被评为北京大学2018年优秀博士学位论文。 目前,韦东奕的数学研究领域主要聚焦于分析、偏微分方程和随机矩阵等。 物理学家费曼曾经说过,湍流可能是经典物理学中最后的一个未解难题。 NS方辩饥差程:流体力学基石流体力学的数值模拟对于建模多种物理现象而言非常重要,如天气、气候、空气动力学和等离子体物理学。 通常,流体可以用纳维-斯托克斯方程(Navier-Stokes equations,NS)来描述,但大规模求解这类方程仍属难题,受限于解决最小时空特征的计算成本。 它由法国工程师、物理学家克劳德-路易·纳维,爱尔兰物理学、数学家乔治·斯托克斯两人命名,是一组偏微分方程,表达了牛顿流体运动时动量和质量的守恒。 该方程断言,流体粒子动量的改变率(力)来自作用在液体内部的压力变化、耗散粘滞力、以及重力。 其中粘滞力类似于摩擦力,产生于分子的相互作用,越黏的流体,该作用就越强。 NS方程依赖微分方程来描述流体的运动。 不同于代数方程,其不寻求建立所研究的变量(如速度和压力)的关系,而是寻求携皮建立这些量的变化率或通量之间的关系。 用数学术语来讲,这些变化率对应于变量的导数。 其中,在零粘滞度的最简单情况下,NS方程化为欧拉方程,表明加速度(速度的导数)与内部压力的导数成正比。 这表示对于给定的物理问题,至少要用微积分才可以求得其纳维-斯托克斯方程的解。 实用上,也只有最简单的情况才能用这种方法获得已知解。 这些情况通常涉及稳定态(流场不随时间变化)的非紊流,其中流体的粘滞系数很大或者其速度很小(低雷诺数)。 对于更复杂的情形,例如厄尔尼诺现象这样的全球性气象系统或机翼的升力,现时仅能借助计算机求出纳维-斯托克斯方程的数值解。 该科学领域被称为计算流体力学。 它是一个混沌模型,当输入存在一点点不准确,预测结果就会大相径庭。 由于其重要性,「纳维-斯托克斯存在性与光滑性」被美国克雷数学研究所在2000年列为七大千禧年大奖难题之一,解题奖金100万美元。 与它并列的其他问题包括庞加莱猜想、P/NP问题、霍奇猜想、黎曼猜想、杨-米尔斯理论、贝赫和斯维讷通-戴尔猜想,至今只有庞加莱猜想已获解决。 回到本次事件,北大数学学院院长在媒体回复中表示,此事有人发给他看过。 他表示:「别人做不出来,韦东奕能做出来是很平常的事。 第一,韦东奕人很聪明。 第二,他很专心做数学。 他就是生活方式比较淳朴,我们尊重他的意愿。 」另外,由于消息来源只有一张聊天截图,这一事件的真实性也引发了部分质疑:你怎么看?参考链接: