2024年7月12日Arxiv语言模型相关论文

2,489 0

原标题: Towards Building Specialized Generalist AI with System 1 and System 2 Fusion

作者: Kaiyan Zhang, Biqing Qi, Bowen Zhou

机构: 清华大学上海人工智能实验室

摘要: 在这篇观点论文中，我们介绍了专业通用人工智能（SGAI或简称SGI）的概念，作为通向通用人工智能（AGI）的关键里程碑。与直接扩展通用能力相比，SGI被定义为至少在一项任务上专业化，超越人类专家，同时保留通用能力。这种融合路径使SGI能够迅速实现高价值领域。我们根据对专业技能和普遍性表现的掌握程度，将SGI分为三个阶段。此外，我们讨论了SGI在解决与大语言模型相关的问题方面的必要性，例如它们的普遍性不足、专业能力、创新的不确定性和实际应用。此外，我们提出了一个用于开发SGI的概念框架，该框架整合了系统1和系统2认知处理的优势。该框架包括三个层次和四个关键组成部分，重点是增强个体能力并促进协作演化。最后，我们总结了潜在的挑战，并提出了未来的方向。我们希望所提出的SGI将为进一步研究和应用AGI提供见解。

论文链接: https://arxiv.org/abs/2407.08642

原标题: Uncertainty Estimation of Large Language Models in Medical Question Answering

作者: Jiaxin Wu, Yizhou Yu, Hong-Yu Zhou

机构: 香港大学哈佛医学院

摘要: 大语言模型（LLMs）在医疗保健领域的自然语言生成方面显示出潜力，但存在风险产生事实不准确的信息幻觉。部署大语言模型用于医学问答需要可靠的不确定性估计（UE）方法来检测幻觉。在这项工作中，我们在医学问答数据集上对不同模型大小的流行UE方法进行了基准测试。我们的结果显示，当前方法在这一领域通常表现不佳，突显了医学应用中不确定性估计的挑战。我们还观察到，较大的模型往往会产生更好的结果，暗示模型大小与UE可靠性之间存在相关性。为了解决这些挑战，我们提出了一种无需概率的不确定性估计方法——两阶段验证。首先，一个LLM生成一份逐步解释以及其初始答案，然后制定验证问题来检查解释中的事实主张。模型然后两次回答这些问题：首先独立回答，然后参考解释。两组答案之间的不一致度衡量了原始回应中的不确定性。我们使用Llama 2 Chat模型在三个生物医学问答数据集上评估我们的方法，并将其与基准基准方法进行比较。结果显示，我们的两阶段验证方法在各种数据集和模型大小上均实现了最佳的整体准确性和稳定性，并且其性能随着模型大小的增加而提高。

论文链接: https://arxiv.org/abs/2407.08662

原标题: Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist

作者: Zihao Zhou, Shudong Liu, Maizhen Ning, Wei Liu, Jindong Wang, Derek F. Wong, Xiaowei Huang, Qiufeng Wang, Kaizhu Huang

机构: 西交利物浦大学 University of Liverpool 澳门大学 University of Macau 香港科技大学 HKUST 微软亚洲研究院 Microsoft Research Asia 昆山杜克大学 Duke Kunshan University

摘要: 卓越的数学推理能力是展示大语言模型（LLMs）强大力量的关键特征之一。如何全面定义和评估LLMs的数学能力，甚至反映用户在现实场景中的体验，已成为一个关键问题。当前的基准主要集中在问题解决能力上，这带来了模型过拟合的风险，并未准确代表真正的数学推理能力。在本文中，我们认为，如果一个模型真正理解了一个问题，它应该能够在各种任务中稳健且轻松地应用。受此启发，我们引入了MATHCHECK，一个用于测试任务泛化和推理稳健性的设计良好的检查表，以及一个高效生成检查表的自动工具。MATHCHECK包括多个数学推理任务和稳健性测试类型，以促进对数学推理能力和行为测试的全面评估。利用MATHCHECK，我们开发了MATHCHECK-GSM和MATHCHECK-GEO，分别用于评估数学文本推理和多模态推理能力，作为包括GSM8k、GeoQA、UniGeo和Geometry3K在内的基准的升级版本。我们采用MATHCHECK-GSM和MATHCHECK-GEO评估了20多个LLMs和11个MLLMs，评估它们的全面数学推理能力。我们的结果表明，虽然像GPT-4o这样的前沿LLMs在检查表上继续表现出色，但许多其他模型家族表现出显著下降。进一步的实验表明，与传统的数学基准相比，MATHCHECK更好地反映了真实的数学能力，并更线性地代表了数学智能，从而支持我们的设计。在我们的MATHCHECK上，我们可以轻松进行详细的行为分析，深入研究模型。

论文链接: https://arxiv.org/abs/2407.08733

原标题: A Taxonomy for Data Contamination in Large Language Models

作者: Medha Palavalli, Amanda Bertsch, Matthew R. Gormley

机构: 卡内基梅隆大学

摘要: 大语言模型在广泛的网络语料库上预训练，展现出在各种下游任务中出色的性能。然而，一个日益关注的问题是数据污染，即评估数据集可能包含在预训练语料库中，从而夸大模型性能。去污染是一种检测和移除这类数据的潜在解决方案；然而这些污染物可能来自测试集的修改版本，从而在去污染过程中逃避检测。不完全了解不同类型的污染如何影响语言模型在下游任务中的性能。我们提出了一个分类法，对LLM在预训练阶段遇到的各种污染进行分类，并确定哪些类型具有最高风险。我们分析了污染对两个关键的自然语言处理任务——摘要和问答——的影响，揭示了不同类型的污染如何影响评估过程中的任务性能。

论文链接: https://arxiv.org/abs/2407.08716

原标题: Turn-Level Empathy Prediction Using Psychological Indicators

作者: Shaz Furniturewala, Kokil Jaidka

机构: 比尔拉理工学院和科学，比拉尼国立新加坡大学信任互联网与社区中心

摘要: 对于 WASSA 2024 共情和个性预测共享任务，我们提出了一种新颖的基于对话轮的共情检测方法，将共情分解为六个心理指标：情感语言、透视能力、同情和怜悯、外向性、开放性和宜人性。使用大语言模型（LLM）进行文本增强，然后进行 DeBERTA 微调的流程显示出在共情检测的皮尔逊相关系数和 F1 分数方面的显著改进，突显了我们方法的有效性。我们的系统在 CONV-turn 跟踪中正式排名第7。

论文链接: https://arxiv.org/abs/2407.08607

原标题: Tamil Language Computing: the Present and the Future

作者: Kengatharaiyer Sarveswaran

机构: 斯里兰卡杰夫纳大学

摘要: 这篇论文深入探讨了语言计算的文本处理方面，使计算机能够理解、解释和生成人类语言。语言计算专注于诸如语音识别、机器翻译、情感分析、文本摘要和语言建模等任务，整合了包括语言学、计算机科学和认知心理学在内的学科，以创建有意义的人机交互。深度学习的最新进展使计算机更易接近并能够独立学习和适应。在审视语言计算的领域时，该论文强调了诸如编码等基础工作的重要性，其中泰米尔语从ASCII过渡到Unicode，增强了数字通信。论文讨论了计算资源的开发，包括原始数据、词典、术语表、标注数据和计算语法，这些对于有效的语言处理是必要的。还涵盖了语言学标注的挑战，树库的创建以及大语言模型的训练，强调了对高质量标注数据和先进语言模型的需求。论文强调了构建泰米尔语等语言的实际应用的重要性，以满足日常交流需求，并突出了当前技术存在的差距。它呼吁增加研究合作，数字化历史文本，并促进数字化使用，以确保泰米尔语处理的全面发展，最终增强全球交流和数字服务的获取。

论文链接: https://arxiv.org/abs/2407.08618

原标题: On the Universal Truthfulness Hyperplane Inside LLMs

作者: Junteng Liu, Shiqi Chen, Yu Cheng, Junxian He

机构: 上海交通大学香港城市大学香港中文大学香港科技大学

摘要: 尽管大型语言模型（LLMs）在各个领域展示了显著的能力，但幻觉仍然是一个重大挑战。最近的研究通过内部表示的视角探索了幻觉，提出了解释LLMs遵循事实的机制。然而，这些方法通常无法推广到分布之外的数据，引发了对内部表示模式是否反映了基本事实意识，或者只是在特定数据集上过拟合虚假相关性的担忧。在这项工作中，我们调查了一个能够区分模型的事实正确和错误输出的通用真实性超平面是否存在于模型中。为此，我们扩大了训练数据集的数量，并进行了广泛的评估–我们在超过40个数据集的多样化集合上训练真实性超平面，并检查其跨任务、跨领域和领域内的泛化能力。我们的结果表明，增加训练数据集的多样性显著提高了所有场景中的性能，而数据样本的数量起到了较小的作用。这一发现支持了一个乐观的假设，即模型内可能确实存在一个通用的真实性超平面，为未来研究提供了有希望的方向。

论文链接: https://arxiv.org/abs/2407.08582

原标题: Autoregressive Spee