在长文本理解能力这块,竟然没有一个大模型及格!
北大联合北京通用人工智能研究院提出了一个新基准数据集:,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。
该数据集既能够评估LLMs对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模和理解能力。
结果不评不知道,一评估发现这些模型在复杂的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。
比如像Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型,平均只有40%的准确率。
而像开源模型表现就更不理想了…
ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K平均只有10%的准确率。
目前该论文已被ACL 2024接收。
论文共同一作为通研院的李佳琪、王萌萌,通讯作者为通研院研究员郑子隆和北京大学人工智能研究院助理教授张牧涵。
LooGLE基准测试
LooGLE基准测试主要有这样几个特点:
首先,它包含包含近 800 个最新收集的超长文档 。平均近2万字(是现有相似数据集长度的2倍),并从这些文档中重新生成了6千个不同领域和类别的任务/问题用于构建LooGLE。
目前目前没有既评估LLMs对长文本的处理和记忆,又评估其对文本长程依赖的建模和理解能力的数据集。
LooGLE的数据集由7个主要的任务类别组成,旨在评估LLMs理解短程和长程依赖内容的能力。
团队设计了 5种类型 的长期依赖任务,包括理解与推理、计算、时间线重新排序、多重信息检索和摘要。
通过人工标注精心生成了超过1100对高质量的长依赖问答对,以满足长依赖性要求。这些问答对经过了严格的交叉验证,从而得到了对大型语言模型(LLMs)长依赖能力的精确评估。
LooGLE基准数据集仅包含2022年之后发布的文本,尽可能地避免了预训练阶段的数据泄露,考验大模型利用其上下文学习能力来完成任务,而不是依靠记忆事实和知识储备。
该基准的文本源自广泛认可的开源文档,包括了arxiv论文、维基百科文章以及电影和电视剧本,涉及学术、历史、体育、政治、艺术、赛事、娱乐等领域。
长文理解中长程问答任务生成
在本研究中,团队组织了近百名标注者手工编制了约1100个真实的长依赖问答对,分为4类长依赖任务:多信息检索、时间重排序、计算、理解推理。
多信息检索 :与传统的短期检索任务显著不同,该任务下回答一个特定答案通常需要 在整个文本中搜集多个线索或证据 。任务要求从长文本中广泛分布的相关证据或线索中进行检索和提取,然后对这些证据进行汇总,才能得出最终答案。
计算 :与前一个任务类似,首先需要从广泛的文本中进行多次信息检索提取相关数字,例如关于数量、频率、持续时间、特定年份等。要得出准确的答案,还需要 对这些数字进行计算 。这个过程既依赖于强大的长上下文信息提取能力,并且涉及一定程度的数学推理能力。
时间重排序 :这个任务给大模型输入指令“请重新排列以下事件的时间轴”,以及一组按顺序排列的事件描述。 任务目标是根据这些事件在长文本中出现的时间先后顺序将这些事件排列起来 。成功完成这个任务需要对文档的主要故事情节进行抽取和理解,且要求模型具有时间意识。
理解推理 :这个任务要求模型利用散落在长上下文中的证据,深入理解问题并推理出答案。最常见的问题模式涉及到因果关系、影响、贡献、态度以及与各种事件相关的基本属性。此外,当问题围绕着证据的重要程度、显著程度、最高或最关键方面时,则需要进行更广泛的比较和评估。此任务的答案通常在源文本中不明显。它们通常需要多步推理来模拟内在的联系和依赖关系,通过复杂的分析过程获取答案。
实验分析
为了提供更全面和通用的性能评估,LooGLE 使用基于语义相似性的度量、GPT4 作为判断的度量,以及人类评估作为度量。在LooGLE上对9种最先进的长文本LLMs进行评估(其中包括OpenAI和Anthropic的商用模型,以及几个主流开源基座模型微调得到的长文本模型,和带有外部记忆模块的检索增强模型),得出了以下关键发现:
△不同LLM在LooGLE上展现的长文本理解能力
△不同模型在LooGLE短程问答上的性能
△不同模型在LooGLE短程问答上的性能
△不同上下文窗口对长程问答性能的影响
△不同模型在4种不同类型长程问答上的性能
因此,LooGLE不仅提供了关于长上下文LLMs的系统和全面的评估方案,而且为未来开发增强型模型以实现“真正的长上下文理解”提供了启示。
论文地址:https://arxiv.org/abs/2311.04939数据地址:https://huggingface.co/datasets/bigainlco/LooGLE代码地址:https://github.com/bigai-nlco/LooGLE
考入北大真是一件好事吗?来看一名北大学子的困惑
昨天看了一条视频,一名北大的学生在镜头中哭诉,说自己从小到大,一直是年级前一前二,学校最拔尖的学生,高考更是以全省排名第十的成绩,顺利考入众人仰慕的北京大学,可随之而来的压力却让他透不过气来。 从走进北京大学大门的那一刻起,所有人都头顶着皎皎者的光环,所有人都有着不比你差的经历,清华北大最可怕的是什么?那就是比自己优秀的人实在太多太多! 同样的高数课,人家根本不需要花时间思考,答案张口就来,而自己每天学习几个小时的高数,被折磨得昏天黑地,才勉强能达到及格线。 人家大一就能找到很优秀的实习,做基金、做VC,做投行,而自己已经大二了,还在专业课里苦苦挣扎。 人家托福、雅思样样高分,出国留学一个不落,麻省、沃顿、伯克利都能轻松拿下,所有人都在朋友圈分享结果,而这些却让他一次次感受着巨大的落差和打击。 承载了太多的家庭亲情,以及初高中老师和同学满眼期待的时候,他也想努力改变,可努力的结果,只能是不被淘汰,永远无法突破和超越,失败就像一个无底洞,吸干他身上所有的勇气和自信,对自己的能力越来越怀疑! 他说年薪几十万几百万的人,在清华北大大概只有20%有那样的幸运,大部分人将来都是挣扎在基本生活水平线上,甚至有的可能连工作都找不到,而自己就是这80%里面的人。 以上就是这位北大同学的故事。 我看完这条视频,觉得很有感触,是啊,这个世界上,优秀的人实在太多了,北大又是什么平台啊,全国各地最顶尖最优秀的人才汇聚在一起,大家你争我抢,谁都不甘示弱,不感到压力大才怪! 全国每年高考上千万考生,能考上清华北大的凤毛麟角,可以说是万里挑一,其实能进入这样的学府,已然是一种巨大的荣耀,是多少人梦寐以求的事! 迈出了成功的第一步,接下来就要各凭本事了,除了拼学习,还得拼资源。 你得向更广阔的天地迈进,开拓自己的人脉,锻炼自己的胆量,最重要的是培养内心强大、不卑不亢的精神,提高抗压能力! 只有多多尝试,才能发现自己的不足,客观地对自己作出评价,你会发现,这个世界上,一山更比一山高,比自己优秀的人大有人在,而他们虽然各方面条件都比自己优秀,却比自己更加努力、更有规划、从而更加成功! 这才是最大的差距!其实每个人的成长都是有天花板的,在学习中在工作中,随时随地都可能遇到比自己更优秀的人,把他们看做一种幸运,不轻易低践自己,他有他的闪光,你有你的亮点,你们同样都很优秀! 毕竟有一些客观条件是难以改变的,人生的起点不同,基础不同,要求当然也不相同。 你必须坦然接受它、正视它,处在这样的竞争环境中,怎样变挫败为动力?怎样尽自己的能力做到最好,实现人生的最大可能?我觉得只要真正付出,问心无愧就可以了! 所以说考上清华北大,并不是一劳永逸,必须鼓起勇气,面对新的困难,迎接新的挑战,接受从优等生变为差等生的巨大心理落差,在高手如云的平台,寻找喘息和进步的机会,接受自己的平凡和普通,降低自己的期望值,不拿别人的成功来对比自己。 已然站在人生金字塔尖的人,还在哭诉自己的失败,让我们这些普通人情何以堪?!放过自己吧,你只是个凡人,不要苛求完美,也不要给自己定太高的目标,尽心就好,健康就好、开心就好、随缘就好!
通用模型解题有用?
我同学用过,效果不好,而且广告都曝光了都,劝你别买:近日,安徽省一家媒体以《您的孩子并不比考满分的孩子差——一线教师一语道破:应该用“模型解题”》和《差生也能上‘北大’——特级教师纷纷推荐〈通用模型解题〉》为标题,宣传由北京大学音像出版社出版的《通用模型解题》。 文章中,多名中学高级教师或者特级教师称赞该书的神奇,称学生学好它可以提高成绩等。 文章同时用多名已经考入清华、北大的学生来佐证该书模型解题的神奇。 针对这些宣传,有关教育人士提醒学生和家长,不要盲目相信一些教辅材料的宣传,练就基本功才是关键。 10月中旬,记者在合肥市宏图三胞商场三楼《通用模型解题》专卖柜台多次观察发现,前来咨询购买该书的家长为数不少。 该柜台摆有数学和物理两个学科的《通用模型解题》,分为高中和初中两种版本,由光盘、模型卡和书组成,高中版每门学科价格是386元,初中版每门学科价格是368元。 销售人员告诉记者,该书销售一直火爆。 记者采访了前来选购的部分家长。 一位张女士说,她的儿子正在上高三,面对市场上诸多教辅材料,她也不知道买什么好。 看到《通用模型解题》的宣传广告后,她立即赶来看看,“虽然价格贵了些,但是只要对孩子学习有好处,再贵也要买”。 另一位家长对记者说,看到报纸上宣传说“差生也能上北大”,哪位学生和家长不动心? 10月上旬,记者电话采访了该媒体中提及的清华大学附属中学的物理特级教师,该教师告诉记者,他确实参加过《通用模型解题》的一个座谈活动,也表达了自己的观点。 他说,《通用模型解题》只是科学有效的方法之一,而不是广告中所称的“最科学有效的方法”,对于该媒体的宣传,他不知情。 这位教师说,任何一种教辅材料都不能说是最好的,所有的教辅材料都不能决定一个孩子能否考出好分,要考上好大学,更多的要靠学生自身努力,练就好基本功才是考出好成绩的关键,当然,掌握科学有效的学习方法,学习起来会更为轻松。 安徽省教育厅办公室副主任张而桂表示,安徽省教育厅和和省招办每年都会下发文件提醒学生和家长,一定要保持冷静的头脑,不要盲目相信一些教辅材料的宣传,更不要存在侥幸心理而过分依赖这些教辅材料,认真学习和复习才是关键。 如果遇到虚假宣传,可向教育部门和工商机关举报。 安徽省工商局广告处处长罗六年告诉记者,《广告法》规定,广告主、广告经营者、广告发布者从事广告活动应当遵守诚实信用的原则,广告不得含有虚假的内容,不得欺骗和误导消费者。 《通用模型解题》的宣传有不真实的内容,已经涉嫌违法。 针对近期《通用模型解题》在安徽省一些媒体刊登的不实宣传,工商机关已经责令发布媒体停止发布并责令其整改。
今年刚升高二的人,不想看高三毕业班看的《通用模型解题》,该怎么跟爸妈说
两则新闻:一、省工商局二十日发出通知,向“非常学习3+1”、“通用解题模型”两则学习产品广告亮起“红牌”。 由于该广告涉嫌虚假宣传,被要求立即在全省范围内停止发布。 近来,关于“人造‘天才学生’引发家长及老师关注”和“中高考数学、物理难,孩子咋应对”为内容的“非常学习3+1”和“通用解题模型”两则广告多次见诸媒体。 工商部门制止无果。 经初步审查发现,这两则广告主要涉嫌三个方面的违法:一是涉嫌违反“广告不得含有虚假的内容,不得欺骗和误导消费者”的法律规定。 “非常学习3+1”在广告中宣称“15岁初中生用时17分43秒读完一本12万字的《世界史上册》”;宣称受过训练的学生1分钟可“阅读3000—字”;“如此神奇的学习能力”,“跟玩似的就学会了”;宣扬“天才”能量产等难以考证的内容。 “通用模型解题”宣称“把初中数学、物理三年知识提炼成11个模型、高中21个模型”,“而且适合各省所有版本的中学教材”。 二是涉嫌违反“广告使用数据、统计资料、调查结果、文摘、引用语,应当真实、准确,并表明出处”的法律规定,“非常学习3+1”的广告宣称在语文阅读速度方面“95%的学生达不到教学大纲的要求”;“85%的学生学习速度慢”,“学习信心急剧下降”。 “非常学习3+1”至今已经造就无数的阅读高手、记忆奇才、写作奇才、识字天才”。 而“通用解题模型”广告则宣称是“十一五课题专家几十年心血的结晶”;使用模型解题的学生“99.1%都轻松答对考试的难题大题”,“考上北大、清华的也特别多”。 三是涉嫌多处使用绝对化语言。 “非常学习3+1”的广告宣称“可遇不可求的天才学生刹那间就能批量生产”,“这绝对是有百利而无一害的大好事”。 “通用解题模型”广告宣称模型“就像万能钥匙”,模型就是“吸取一切主要因素,略去一切次要因素所创造出来的一幅图画”。 此外,这两则广告中还含有“家长普遍认为《非常学习3+1》一定可以帮助孩子集中学习注意力”;“通用模型解题”广告介绍今年高考14分大题传统解法要25步,用模型只用9步等无法证明的内容。 省工商局认为,这两则学习产品的广告严重涉嫌虚假宣传,严重违反了广告法有关规定,对学生和家长构成欺骗和误导。 对此,省工商局通知立即在全省停止上述两则广告的发布,并将依法予以查处。 二、近日,安徽省一家媒体以《您的孩子并不比考满分的孩子差——一线教师一语道破:应该用“模型解题”》和《差生也能上‘北大’——特级教师纷纷推荐〈通用模型解题〉》为标题,宣传由北京大学音像出版社出版的《通用模型解题》。 文章中,多名中学高级教师或者特级教师称赞该书的神奇,称学生学好它可以提高成绩等。 文章同时用多名已经考入清华、北大的学生来佐证该书模型解题的神奇。 针对这些宣传,有关教育人士提醒学生和家长,不要盲目相信一些教辅材料的宣传,练就基本功才是关键。 10月中旬,记者在合肥市宏图三胞商场三楼《通用模型解题》专卖柜台多次观察发现,前来咨询购买该书的家长为数不少。 该柜台摆有数学和物理两个学科的《通用模型解题》,分为高中和初中两种版本,由光盘、模型卡和书组成,高中版每门学科价格是386元,初中版每门学科价格是368元。 销售人员告诉记者,该书销售一直火爆。 记者采访了前来选购的部分家长。 一位张女士说,她的儿子正在上高三,面对市场上诸多教辅材料,她也不知道买什么好。 看到《通用模型解题》的宣传广告后,她立即赶来看看,“虽然价格贵了些,但是只要对孩子学习有好处,再贵也要买”。 另一位家长对记者说,看到报纸上宣传说“差生也能上北大”,哪位学生和家长不动心? 10月上旬,记者电话采访了该媒体中提及的清华大学附属中学的物理特级教师,该教师告诉记者,他确实参加过《通用模型解题》的一个座谈活动,也表达了自己的观点。 他说,《通用模型解题》只是科学有效的方法之一,而不是广告中所称的“最科学有效的方法”,对于该媒体的宣传,他不知情。 这位教师说,任何一种教辅材料都不能说是最好的,所有的教辅材料都不能决定一个孩子能否考出好分,要考上好大学,更多的要靠学生自身努力,练就好基本功才是考出好成绩的关键,当然,掌握科学有效的学习方法,学习起来会更为轻松。 安徽省教育厅办公室副主任张而桂表示,安徽省教育厅和和省招办每年都会下发文件提醒学生和家长,一定要保持冷静的头脑,不要盲目相信一些教辅材料的宣传,更不要存在侥幸心理而过分依赖这些教辅材料,认真学习和复习才是关键。 如果遇到虚假宣传,可向教育部门和工商机关举报。 安徽省工商局广告处处长罗六年告诉记者,《广告法》规定,广告主、广告经营者、广告发布者从事广告活动应当遵守诚实信用的原则,广告不得含有虚假的内容,不得欺骗和误导消费者。 《通用模型解题》的宣传有不真实的内容,已经涉嫌违法。 针对近期《通用模型解题》在安徽省一些媒体刊登的不实宣传,工商机关已经责令发布媒体停止发布并责令其整改。