每日学术速递5.23-Toy模板网

这篇具有很好参考价值的文章主要介绍了每日学术速递5.23。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CL

1.Tree of Thoughts: Deliberate Problem Solving with Large Language Models

每日学术速递5.23

标题：思想树：用大型语言模型有意识地解决问题

作者：Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, Karthik Narasimhan

文章链接：https://arxiv.org/abs/2305.10601

项目代码：https://github.com/ysymyth/tree-of-thought-llm

每日学术速递5.23

摘要：

语言模型越来越多地用于解决各种任务的一般问题，但在推理过程中仍局限于令牌级、从左到右的决策过程。这意味着他们可能无法完成需要探索、战略前瞻或初始决策起关键作用的任务。为了克服这些挑战，我们引入了一个新的语言模型推理框架，即思想树 (ToT)，它概括了流行的思想链方法来提示语言模型，并能够探索连贯的文本单元（思想）作为解决问题的中间步骤。ToT 允许 LM 通过考虑多种不同的推理路径和自我评估选择来执行深思熟虑的决策，以决定下一步的行动方案，并在必要时向前看或回溯以做出全局选择。我们的实验表明，ToT 显着增强了语言模型在需要非平凡计划或搜索的三个新任务上的问题解决能力：24 岁游戏、创意写作和迷你填字游戏。例如，在 Game of 24 中，虽然带有思维链提示的 GPT-4 只解决了 4% 的任务，但我们的方法达到了 74% 的成功率。

2.Learning the Visualness of Text Using Large Vision-Language Models

每日学术速递5.23

标题：使用大型视觉语言模型学习文本的视觉效果

作者：Gaurav Verma, Ryan A. Rossi, Christopher Tensmeyer, Jiuxiang Gu, Ani Nenkova

文章链接：https://arxiv.org/abs/2305.10434

每日学术速递5.23

摘要：

视觉文本会在人们的脑海中唤起图像，而非视觉文本则无法做到这一点。一种自动检测文本视觉性的方法将解锁用相关图像增强文本的能力，因为神经文本到图像的生成和检索模型在输入文本本质上是视觉的隐含假设下运行。我们整理了一个包含 3,620 个英语句子的数据集及其由多个人工注释者提供的视觉分数。此外，我们使用包含文本和视觉资产的文档来创建文档文本和相关图像的远程监督语料库。我们还提出了一种微调策略，使大型视觉语言模型（如 CLIP）适应假设文本和图像之间存在一对一对应关系的大型视觉语言模型，以完成仅从文本输入中对文本视觉性进行评分的任务。我们的策略涉及修改模型的对比学习目标，将识别为非视觉的文本映射到普通的 NULL 图像，同时将视觉文本与文档中的相应图像匹配。我们评估所提出的方法的能力 (i) 准确地对视觉和非视觉文本进行分类，以及 (ii) 关注在心理语言学研究中被识别为视觉的单词。实证评估表明，我们的方法比拟议任务的几种启发式和基线模型表现更好。此外，为了强调文本可视化建模的重要性，我们对 DALL-E 等文本到图像生成系统进行了定性分析。

3.CooK: Empowering General-Purpose Language Models with Modular and Collaborative Knowledge

每日学术速递5.23