【论文阅读】LLM4GCL: CAN LARGE LANGUAGE MODEL EM-POWER GRAPH CONTRASTIVE LEARNING?

这篇具有很好参考价值的文章主要介绍了【论文阅读】LLM4GCL: CAN LARGE LANGUAGE MODEL EM-POWER GRAPH CONTRASTIVE LEARNING?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

0、基本信息

  • 会议:2024-ICLR-UNDER_REVIEW
  • 评分:5,3,3,3
  • 作者:Anonymous authors
  • 文章链接:LLM4GCL: CAN LARGE LANGUAGE MODEL EM-POWER GRAPH CONTRASTIVE LEARNING?
  • 代码链接:LLM4GCL: CAN LARGE LANGUAGE MODEL EM-POWER GRAPH CONTRASTIVE LEARNING?

1、研究动机

 图对比学习( GCL)在使用无标签数据的预训练图神经网络上被证明是有效的方法,最近几年也提出了许多新的图对比学习方法,但是,当处理文本属性图(TAGs)时表现出局限性。

  1. 之前的GCL简单地使用文本属性来做浅层的嵌入,例如Word 2vec或Bag-of-Wirds。这些浅嵌入并不能达到最好的效果,因为它们不能捕获语义特征的复杂性。
  2. 它们以属性不可知的方式进行特征和结构增强,仅依赖于特征和边缘掩蔽等随机扰动函数,在图增强中没有充分利用有价值的文本属性。

 因其大语言模型强大的上下文学习能力,LLMs被用来学习文本属性图上的表征。但是现有的方法都是在监督任务中,如何在自监督任务中利用LLM学习文本属性图表征尚未探索。

 本文提出了LLM4GCL,第一个全面系统地研究LLM在GCL的应用。旨在深入解决以下关键研究问题:

  • 如何利用LLM在特征和结构层面上增强图增强?
  • 如何以无监督的方式微调预训练的PLM,以增强其编码文本节点属性和结构关系的能力?

在文本属性图上的对比学习范式如下图所示:
【论文阅读】LLM4GCL: CAN LARGE LANGUAGE MODEL EM-POWER GRAPH CONTRASTIVE LEARNING?,图神经网络,论文阅读,语言模型,人工智能,LLM,GNN,chatgpt,图对比学习

GCL:通过创建输入图的两个增强视图并训练GNN编码器以产生相同节点的两个视图的表征,并使两个表征尽量相似。

LLM指的是大型语言模型,例如ChatGPT,其需要强大的计算设备,而PLM表示在普通GPU上可微调的小型语言模型,例如,BERT.

2、创新点

 设计两个用于增强文本属性图上的对比学习方法:LLM-as-GraphAugmentorLLM-as-TextEncoder

  • 前者利用LLM扰动原始图,专注于特征和结构方面,从而增强传统的启发式增强策略。
  • 后者涉及使用自生成信号微调PLM,然后在标准GCL方法中利用所产生的节点特征。

2.1、LLM-as-GraphAugmentor

通过不同提示模板,利用LLM直接对特征和结构进行增广。

  • LLM不使用原始的文本节点属性,而是可以使用适当的提示生成更多信息的文本描述。但是,将结构信息集成到这个过程中提出了一个巨大的挑战;
  • 与创痛的图结构增广相比,LLM具有为GCL生成优秀的图结构的能力;
  • 直接利用生成的文本属性和图结构来替换一个增强视图变得可行,表明LLM有能力简化图增广过程;

2.2、LLM-as-TextEncoder

设计几种自监督的微调策略,以使通用PLM适应图域,从而更有效地编码文本属性。

  • PLM模型不能直接应用于编码文本节点属性;
  • 与标准的掩码语言建模策略相比,在微调过程中对结构信息进行简化可以带来好处;

3、准备

3.1、文本属性图

 给定文本属性图(TAG) G = { V , S , A } \mathcal{G}=\{\mathcal{V},\mathcal{S},\mathbb{A}\} G={V,S,A},具有N个结点, V \mathcal{V} V定义为结点集合, A ∈ R N × N \mathbf{A}\in \mathbb{R}^{N \times N} ARN×N表示邻接矩阵,对于每个结点 v ∈ V v\in\mathcal{V} vV有一个文本属性 S v \mathcal{S}_v Sv S = { S v ∣ v ∈ V } \mathcal{S}=\{\mathcal{S}_v|v\in \mathcal{V}\} S={SvvV}
 目标:预训练一个映射函数 f θ : S × A → R D f_{\theta}:\mathcal{S}\times\mathbf{A}\to\mathbb{R}^{D} fθ:S×ARD,使得 S \mathcal{S} S中的语义信息和 A \mathbb{A} A中的拓扑结构能够以自监督的方式在 D D D维空间中被有效地捕获。

3.2、图神经网络

 简单来说,GNN的目标是通过聚合来自其邻居的消息来更新节点表示,表示为:

h v ( k ) = C O M ( h v ( k − 1 ) , A G G ( { h u ( k − 1 ) : u ∈ N v } ) ) \mathbf{h}_{v}^{(k)}=\mathrm{COM}(\mathbf{h}_{v}^{(k-1)},\mathrm{AGG}(\{\mathbf{h}_{u}^{(k-1)}:u\in\mathcal{N}_{v}\})) hv(k)=COM(hv(k1),AGG({hu(k1):uNv}))
其中, h v ( k ) \mathbf{h}_{v}^{(k)} hv(k)表示为第 k k k层结点 v v v的表征, N v = { u ∣ A v , u = 1 } \mathcal{N}_{v}=\{u|\mathbf{A}_{v,u}=1\} Nv={uAv,u=1}是结点 v v v的直接邻域。 h v ( 0 ) = x v \mathbf{h}_{v}^{(0)}=\mathbf{x}_v hv(0)=xv x v = E m b ( S v ) ∈ R F \mathbf{x}_v=\mathrm{Emb}(\mathcal{S}_v)\in\mathbb{R}^F xv=Emb(Sv)RF是来自结点 v v v的文本属性 S v \mathcal{S}_v Sv并通过 E m b ( . ) \mathrm{Emb}(.) Emb(.)提取的一个 F F F维数值向量表征的嵌入。AGG用于聚合来自邻居的特征,COM用于聚合的邻居信息并与来自上一层的自身节点嵌入结合起来。

3.3、文本属性图上的对比学习

τ f : R F → R F   a n d   τ s : V × V → V × V \tau_f:\mathbb{R}^F\to\mathbb{R}^F\mathrm{~and~}\tau_s:\mathcal{V}\times\mathcal{V}\to\mathcal{V}\times\mathcal{V} τf:RFRF and τs:V×VV×V分别表示特征和结构上的扰动函数。

 首先,通过扰动函数,生成两个增广图 G 1 = ( A 1 , X 1 ) \mathcal{G}_{1}=(\mathbf{A}_{1},\mathbf{X}_{1}) G1=(A1,X1) G 2 = ( A 2 , X 2 ) \mathcal{G}_{2}=(\mathbf{A}_{2},\mathbf{X}_{2}) G2=(A2,X2),其中 X 1 = { τ f 1 ( x v ) ∣ v ∈ V } , A 1 = τ s 1 ( A ) , X 2 = { τ f 2 ( x v ) ∣ v ∈ V } , a n d A 2 † = τ s 2 ( A ) \mathbf{X}_{1}=\{\tau_{f}^{1}(\mathbf{x}_{v})|v\in\mathcal{V}\},\mathbf{A}_{1}=\tau_{s}^{1}(\mathbf{A}),\mathbf{X}_{2}=\{\tau_{f}^{2}(\mathbf{x}_{v})|v\in\mathcal{V}\},\mathrm{and}\mathbf{A}_{2}^{\dagger}=\tau_{s}^{2}(\mathbf{A}) X1={τf1(xv)vV},A1=τs1(A),X2={τf2(xv)vV},andA2=τs2(A).然后使用共享的GNN编码器为两个视图获取两组节点表示,分别为 H 1 \mathrm{H}_1 H1 H 2 \mathrm{H}_2 H2。最后,训练GNN编码器,最大化 H 1 \mathrm{H}_1 H1 H 2 \mathrm{H}_2 H2之间的相似性。

4、LLM4GCL

4.1、LLM v.s. Graph Augmentor

4.1.1、LLM对特征增广

1、传统图特征增广
 对于给定的结点 v v v和文本属性 S v S_v Sv,传统的GCL方法:
x ^ v = τ f ( x ^ v ) = τ f ( E m b ( S v ) ) \mathbf{\hat{x}}_{v}=\tau_{f}(\mathbf{\hat{x}}_v)=\tau_{f}(\mathrm{Emb}(\mathcal{S}_v)) x^v=τf(x^v)=τf(Emb(Sv))
使用纯随机函数生成增广后的特征向量 x ^ v \mathrm{\hat{x}}_v x^v。但是,这种方法仅在 E m b ( . \mathrm{Emb}(. Emb(.)模块转换的数值空间内引入扰动,这不能有效地操纵原始输入文本属性。

 为了克服这一限制,使用LLM直接扰动输入文本 S v S_v Sv,并通过下面三个提示模板来增强的文本属性 S v S_v Sv

2、使用LLM来做特征增广
(1)Structure-Aware Summarization (SAS)

S v N = { S u ∣ v ∈ N v } \mathcal{S}_v^N=\{S_u|v\in\mathcal{N}_v\} SvN={SuvNv}表示结点 v v v邻居的文本属性集合。

SAS的主要思想
 利用LLM理解来自其邻居和其自身的语义信息来对锚节点 v v v总结概括。具体地,对于每个节点 v v v构造一个提示,该提示结合了锚节点及其邻居的文本属性,表示为 { S v , S v N } \{S_v,\mathcal{S}^N_v \} {SvSvN},用于修改其文本属性。最后,使用这些总结概括的文本属性作为增广的属性。

(2)Independent Reasoning (IDR)

 指导模型对类别进行预测并作出合理的解释,这样的推理能够促进LLM理解输入文本的语义重要性并强调最相关的因素。
 为此,对每个结点 v v v,生成一个提示,该提示将锚结点的文本属性作为输入,并指示LLM同一侧该节点的类别并提供解释。然后,利用预测和解释来表示增广的属性 S ^ v \hat{S}_v S^v

(3)Structure-Aware Reasoning (SAR)

 SAR将结构信息聚合到推理过程中,因为相连接的节点可以帮助推断锚节点的类别。

 对于每个结点 v v v,设计包含锚节点文本属性 S v S_v Sv及其邻居 S v N S^N_v SvN文本属性的提示,来推出结点可能的类别。得到的预测和解释来增广属性 S v S_v Sv
为了减少ChatGPT的查询开销,结构感知提示中为每个锚节点随机抽取10个邻居(SAS和SAR)。

4.1.2、LLM对结构增广

1、传统图结构增广

 TAG的邻接矩阵 A \mathrm{A} A,传统的方法通常依赖于结构扰动函数 τ s \tau_s τs,随机删除或添加边,从而生成增广后的结构 A ^ \hat{A} A^。但是,属性不可知的性质对于捕获属性和关系数据之间的互补信息可能不是最佳的。

2、利用LLM进行图结构增广

(1)Graph Structure Augmentation (GSA)
N v N_v Nv N ˉ v \bar{N}_{v} Nˉv分别表示与结点 v v v相连和不相连的集合。询问LLM,预测 N v N_v Nv(或 N ˉ v \bar{N}_{v} Nˉv)中的节点是否应该与锚节点 v v v不连接(或连接)。更准确地说,通过提示模板,并考虑它们自身的文本属性来回答这个问题。

 之后,构建了一个增广结构 A ^ \hat{A} A^——LLM的决定是否删除或添加边。

 为了提高查询效率,最初采用浅层嵌入算法,如BoW,来评估两个节点之间的成对相似性。随后,根据在实验中查询ChatGPT的得分,从 N v N_v Nv中按降序选择Top-20个最近的邻居,从 N ^ v \hat{N}_v N^v中按升序选择Top-20个未连接的节点。

下图时LLM作为图增广生成器:
【论文阅读】LLM4GCL: CAN LARGE LANGUAGE MODEL EM-POWER GRAPH CONTRASTIVE LEARNING?,图神经网络,论文阅读,语言模型,人工智能,LLM,GNN,chatgpt,图对比学习

4.2、LLM作为文本编码器

 本节来说明如何实现嵌入函数 E m b ( . ) \mathrm{Emb}(.) Emb(.)——它负责使用LLM将(增强的)文本属性( S v S_v Sv S ^ v \hat{S}_v S^v)转换为嵌入向量( x v x_v xv x ^ v \hat{x}_v x^v)。

 直接使用预先训练的LLM来编码 S v S_v Sv,从而赋予GCL捕获更丰富语义的能力。然而,由于TAG数据集和一般文本数据之间的不匹配,LLM的这种直接应用可能会产生较差的性能。因此,需要进行微调。
在本小节中,我们提出了三种用于微调图对比学习LLM的策略。

由于计算资源的限制,实验使用的是PLMs而不是LLMs。

4.2.1、Masked Language Modeling (MLM)

 思想是直接在文本属性上微调模型。该方法方法通过屏蔽句子中的标记来进行模型微调。

 具体来说,对于拥有 n v n_v nv个token的文本属性 S v = { w 1 , w 2 , . . . , w n v } S_v=\{w_1,w_2,...,w_{n_v}\} Sv={w1,w2,...,wnv} w i w_i wi为一个token。随机的掩盖 ω % \omega\% ω% S v S_v Sv中的token,并用标记MASK token替代。我们将掩码标记的集合定义为 S m a s k S_{mask} Smask,而观察到的标记集合表示为 S v ∖ S m a s k S^{\setminus S_{mask}}_v SvSmask,形式如下:
L M L M = ∑ w i ∈ S m a s k log ⁡ P θ ( w i ∣ S v ∖ S m a s k ) \mathcal{L}_\mathrm{MLM}=\sum_{w_i\in S_\mathrm{mask}}\operatorname{log}P_\theta(w_i|S_v^{\setminus S_\mathrm{mask}}) LMLM=wiSmasklogPθ(wiSvSmask)

其中 θ \theta θ是PLM的模型权重。实验中,我们将 ω \omega ω的值设置为15。

4.2.2、Topology-Aware Contrastive Learning (TACL)

 MLM的一个局限性是微调过程不能学习图的拓扑信息。为了解决这个问题,使用对比学习来微调PLM。
 给定节点 v v v和他的一个相连的结点 u u u。设 x v x_v xv x u x_u xu分别表示PLM模型生成的节点 v v v u u u的表示, s i m ( ) \mathrm{sim}() sim()为余弦相似度函数,TACL的训练目标为:

L T C L = − ∑ u ∈ N v p o s log ⁡ exp ⁡ ( s i m ( x v , x u ) / τ ) ∑ n = 1 , n ≠ u B exp ⁡ ( s i m ( x v , x n ) / τ ) \mathcal{L}_{\mathrm{TCL}}=-\sum_{u\in N_{v}^{\mathrm{pos}}}\log\frac{\exp(\mathrm{sim}(\mathbf{x}_v,\mathbf{x}_u)/\tau)}{\sum_{n=1,n\neq u}^{B}\exp(\mathrm{sim}(\mathbf{x}_v,\mathbf{x}_n)/\tau)} LTCL=uNvposlogn=1,n=uBexp(sim(xv,xn)/τ)exp(sim(xv,xu)/τ)
其中 N v p o s N^{pos}_v Nvpos包括从 N v N_v Nv随机采样的 K K K个节点,其中 K K K是超参数。 τ \tau τ为温度参数, B B B表示批大小。

4.2.3、Multi-Scale Neighborhood Prediction (GIANT)

 与TACL不同,采用来自GIANT的方法,通过将该任务转换为多标签分类问题来重建所有邻居。然而,直接微调PLM对高维输出空间的大小 ∣ V ∣ |\mathcal{V}| V在计算上是不可行的。
为了解决这一个问题,GIANT采用了多标签分类(XMC)的极端形式。该算法的核心思想是基于PIFA特征,利用平衡k-means算法构造层次化的节点聚类树。之后,PLM被预先训练以自上而下的方式匹配最相关的聚类。
 通过采用这三种微调策略,我们可以有效地使PLM模型适应TAG。通过微调,该模型就能够将原始和增强的文本属性转换为数字特征。

5、实验

实验过程中,目的是解决如下问题:

  • RQ1——GCL对TAG有帮助吗,特别是与标准GNN方法相比?
  • RQ2——没有微调的通用PLM是否足以编码文本属性,以及所提出的文本编码微调策略如何执行?
  • RQ3——LLM在生成增广的特征和结构方面有多有效?
  • RQ4——哪些类型的语言模型最适合TAGs上的GCL?
  • RQ5——LLM-as-TextEncoder是否也可以增强图生成式自监督学习方法的性能?
  • RQ6——LLM-as-TextEncoder生成的文本嵌入与浅层方法生成的文本嵌入相比效果如何?

5.1、实验设置

数据集:五个常见的公开的数据集——两个引用数据集,PubMed和Ogbn-Arxiv;三个电商数据集,Electronics-Computers (Compt), Books-History (Hist),和 Electronics-Photography (Photo).更多详细信息在附录A。

基准模型:GNNs方法——GCN,GAT;GCL方法——GraphCL,BGRL和GBT;语言模型——BERT,DeBERTa和RoBERTa。更多在附录B.1。

实施:利用Huggingface的PLM进行特征提取,并利用OpenAI的ChatGPT 3.5进行图增广。更多在附录B.1。

5.2、图对比学习对TAGs有用吗?

 在提出的基于LLM的增强和文本编码策略之前,有必要了解现有的GCL方法在TAG上的表现,如下表-1所示。
【论文阅读】LLM4GCL: CAN LARGE LANGUAGE MODEL EM-POWER GRAPH CONTRASTIVE LEARNING?,图神经网络,论文阅读,语言模型,人工智能,LLM,GNN,chatgpt,图对比学习

收获:

  • GCL方法可以提高GNN在半监督场景下对TAG的性能;
  • GCL方法在许多情况下会降低性能;
  • 对比学习对GNN模型进行预训练可以提高其在少数情况下的性能;

5.3、LLMS能增强文本属性的编码吗?

 为了解决RQ2关于使用LLM来增强TAG上的文本属性的编码的潜力,研究了第3.2节中提出的三种微调策略的有效性,即MLM,TACL和GIANT。表-1列出结果。

收获:

  • 直接使用从通用PLM获得的文本编码而不进行微调不会提高性能。
  • GCL方法在许多情况下会降低性能。
  • TACL和GIANT通过整合结构信息,可以提高GCL方法的性能。

【论文阅读】LLM4GCL: CAN LARGE LANGUAGE MODEL EM-POWER GRAPH CONTRASTIVE LEARNING?,图神经网络,论文阅读,语言模型,人工智能,LLM,GNN,chatgpt,图对比学习

5.4、LLMS在图的增广中的有效性如何?

 在本节中,我们进行实验来评估利用LLM进行图增强以实现进一步改进的可行性(RQ 3)。具体来说,我们研究了三个特征增强提示的影响,即SAS、IDR和SAR,图4总结了结果,从中我们得出了几个关键的观察结果。
【论文阅读】LLM4GCL: CAN LARGE LANGUAGE MODEL EM-POWER GRAPH CONTRASTIVE LEARNING?,图神经网络,论文阅读,语言模型,人工智能,LLM,GNN,chatgpt,图对比学习

收获:

  • 通过使用我们的增强特征和结构(称为“ChatGAug”)增强标准GCL方法,可以进一步提高其性能。
  • 利用LLM(例如,ChatGPT)联合增广节点特征和图结构比单独增强它们更有效。
  • 基于推理的提示往往优于文本摘要提示。
  • 最好的提示模板在不同的数据集中可能会有所不同。

5.5、额外实验

 为了回答RQ4,探讨了不同语言模型主干对GCL方法的影响。图5展示了BERT主干的结果,揭示了最佳语言模型配置对于不同的GCL方法在不同的数据集上是不同的。(附录)
【论文阅读】LLM4GCL: CAN LARGE LANGUAGE MODEL EM-POWER GRAPH CONTRASTIVE LEARNING?,图神经网络,论文阅读,语言模型,人工智能,LLM,GNN,chatgpt,图对比学习

 因此,定义一个统一的语言模型,在各种方法和数据集上表现出很强的泛化能力,这是未来研究的一个很有前途的途径。

RQ5:选择两个代表性骨干:GraphMAE和S2GAE。在实验中,通过将原始的浅层嵌入替换为我们微调的PLM生成的嵌入来测试它们的性能,特别关注DeBERTa。附录中表13中的结果表明,当利用GIANT和TACL生成的节点特征时,GraphMAE和S2GAE通常产生更好的结果。这些发现与在5.3节中对GCL的发现一致,突出了LLM4GCL在更广泛的自监督图学习领域中的潜在适用性。

RQ6:采用嵌入可视化,结果说明了不同微调策略的影响。我们从可视化中观察到,GIANT和TACL学习的嵌入空间在产生更明显的聚类方面表现出色。这些结果为我们的初步实验中GIANT和TACL的上级性能提供了额外的支持。文章来源地址https://www.toymoban.com/news/detail-819987.html

到了这里,关于【论文阅读】LLM4GCL: CAN LARGE LANGUAGE MODEL EM-POWER GRAPH CONTRASTIVE LEARNING?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • LLM论文:ALCE (Enabling Large Language Models to Generate Text with Citations)

    这是一篇RAG领域的文章,原文在这:https://aclanthology.org/2023.emnlp-main.398.pdf 时间 [Submitted on 24 May 2023 (v1), last revised 31 Oct 2023 (this version, v2)] 背景 LLM在信息搜索、生成带引用的文本时存在幻觉问题,即事实准确性有待提升,而且用户难以验证准确性。 现有工作的不足 人工评估或

    2024年01月16日
    浏览(34)
  • 论文笔记:Time-LLM: Time Series Forecasting by Reprogramming Large Language Models

    iclr 2024 reviewer 评分 3888 提出了 Time-LLM, 是一个通用的大模型重编程(LLM Reprogramming)框架 将 LLM 轻松用于一般时间序列预测,而无需对大语言模型本身做任何训练 为什么需要时序数据和文本数据对齐:时序数据和文本数据在表达方式上存在显著差异,两者属于不同的模态。

    2024年04月28日
    浏览(61)
  • 【论文阅读】LoRA: Low-Rank Adaptation of Large Language Models

    code:GitHub - microsoft/LoRA: Code for loralib, an implementation of \\\"LoRA: Low-Rank Adaptation of Large Language Models\\\" 做法: 把预训练LLMs里面的参数权重给 冻结 ; 向transformer架构中的每一层, 注入 可训练的 rank decomposition matrices-(低)秩分解矩阵,从而可以显著地减少下游任务所需要的可训练参

    2024年02月03日
    浏览(34)
  • 论文《LoRA: Low-Rank Adaptation of Large Language Models》阅读

    今天带来的是由微软Edward Hu等人完成并发表在ICLR 2022上的论文《LoRA: Low-Rank Adaptation of Large Language Models》,论文提出了大模型 tuning 框架 LoRA ( Lo w- R ank A daptation)。 论文地址:https://openreview.net/pdf?id=nZeVKeeFYf9 附录下载地址:https://openreview.net/attachment?id=nZeVKeeFYf9name=supplementa

    2024年02月11日
    浏览(38)
  • Unifying Large Language Models and Knowledge Graphs: A Roadmap 论文阅读笔记

    NLP, LLM, Generative Pre-training, KGs, Roadmap, Bidirectional Reasoning LLMs are black models and can\\\'t capture and access factual knowledge. KGs are structured knowledge models that explicitly store rich factual knowledge. The combinations of KGs and LLMs have three frameworks,  KG-enhanced LLMs, pre-training and inference stages to provide external knowl

    2024年02月19日
    浏览(35)
  • [论文阅读笔记77]LoRA:Low-Rank Adaptation of Large Language Models

    题目 论文作者与单位 来源 年份 LoRA: Low-Rank Adaptation of Large Language Models microsoft International Conference on Learning Representations 2021 524 Citations 论文链接:https://arxiv.org/pdf/2106.09685.pdf 论文代码:https://github.com/microsoft/LoRA 研究主题 问题背景 核心方法流程 亮点 数据集 结论 论文类型 关

    2024年02月06日
    浏览(39)
  • 论文阅读:Making Large Language Models A Better Foundation For Dense Retrieval

    论文链接 密集检索需要学习区分性文本嵌入来表示查询和文档之间的语义关系。考虑到大型语言模型在语义理解方面的强大能力,它可能受益于大型语言模型的使用。然而,LLM是由文本生成任务预先训练的,其工作模式与将文本表示为嵌入完全不同。因此,必须研究如何正确

    2024年01月21日
    浏览(39)
  • Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

    原文链接: Making Large Language Models Perform Better in Knowledge Graph Completion 基于大语言模型(LLM)的知识图补全(KGC) 旨在利用 LLM 预测知识图谱中缺失的三元组 ,并丰富知识图谱,使其成为更好的网络基础设施,这可以使许多基于网络的自动化服务受益。然而,基于LLM的KGC研究有

    2024年01月23日
    浏览(34)
  • (论文阅读)Chain-of-Thought Prompting Elicits Reasoningin Large Language Models

    论文地址 https://openreview.net/pdf?id=_VjQlMeSB_J         我们探索如何生成一个思维链——一系列中间推理步骤——如何显著提高大型语言模型执行复杂推理的能力。 特别是,我们展示了这种推理能力如何通过一种称为思维链提示的简单方法自然地出现在足够大的语言模型中,

    2024年02月07日
    浏览(68)
  • 论文笔记:Large Language Models as Urban Residents:An LLM Agent Framework for Personal Mobility Generati

    使用LMM生成活动轨迹的开创性工作 理解活动模式(mobility pattern)——能够灵活模拟城市移动性 尽管个体活动轨迹数据由于通信技术的进步而丰富,但其实际使用往往受到隐私顾虑的限制 ——生成的数据可以提供一种可行的替代方案,提供了效用和隐私之间的平衡 之前有很

    2024年03月11日
    浏览(59)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包