利用语义属性来进行时序知识图谱的补全

这篇具有很好参考价值的文章主要介绍了利用语义属性来进行时序知识图谱的补全。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

摘要部分

张量分解

超平面投影

超平面

投影

超平面投影的应用

数学表示

正则化

引言部分

TKG嵌入方法

举例

相关工作

SKG嵌入方法

评判事实合理性的评分函数模型

平移模型

TransE

TransE例子

张量分解模型

RESCAL

神经网络模型

TKG嵌入方法

外推

插值

具有语义属性的KG嵌入

方法


摘要部分

通过加强关系约束来保留TKG中暗含的语义属性。

借鉴张量分解超平面投影的思想设计与时间戳关联的关系约束。

采用合适的正则化方案来适应特定的关系约束。

张量分解

张量分解(Tensor Decomposition)是一种数学技术,用于将高维数据结构(称为张量)分解为多个低维组件。张量是一个多维数组,可以看作是矩阵(二维数组)的高维推广。张量分解的目的是找到原始数据的紧凑表示,通常用于数据压缩、降维、特征提取和模式识别等。

常见的张量分解的方法:

  1. CP分解(Candecomp/Parafac Decomposition):CP分解将张量分解为一组秩-1张量的和。对于三维张量,CP分解可以表示为三个矩阵的外积和。

  2. Tucker分解:Tucker分解将张量分解为一个核心张量和一组矩阵的乘积。与CP分解不同,Tucker分解允许核心张量具有不同的秩。

  3. 张量奇异值分解(Tensor SVD):这是奇异值分解(SVD)的张量推广,用于将张量分解为一组正交矩阵和一组奇异值。

  4. 分层Tucker分解(Hierarchical Tucker Decomposition):这种方法采用分层结构来分解张量,允许更灵活和可扩展的表示。

超平面投影

超平面

超平面是一个维度比包围空间低一维的子空间。例如,在三维空间中,超平面是一个平面;在二维空间中,超平面是一条直线。

投影

投影是将一个点或一组点从一个空间映射到另一个空间的过程。在超平面投影的情况下,这意味着将高维空间中的点映射到一个低维子空间上。

超平面投影的应用

超平面投影在许多领域都有应用,包括:

  1. 降维:通过将数据投影到低维子空间,可以减少数据的复杂性和维度,同时保留重要的特征和结构。

  2. 分类和回归:在支持向量机(SVM)等机器学习算法中,超平面用作决策边界,将不同类别的数据分开。

  3. 数据可视化:通过将高维数据投影到二维或三维空间,可以更容易地可视化和理解数据的结构和关系。

数学表示

超平面可以通过线性方程来表示:

利用语义属性来进行时序知识图谱的补全,时序知识图谱补全,知识图谱,人工智能

其中 是超平面的法向量,是常数, 是空间中的点。

投影点可以通过以下公式计算:

其中 是投影点,是原始点, 是超平面上的任意点,是超平面的法向量。

超平面投影是一种强大的数学工具,用于降维、分类、回归和数据可视化。它通过将高维空间中的点投影到低维子空间来实现这些目的,从而提供了一种有效的方式来分析和解释复杂数据集。

正则化

正则化(Regularization)是机器学习和统计建模中的一个技术,用于防止模型过拟合。过拟合是指模型在训练数据上表现得非常好,但在未见过的测试数据上表现较差的现象。正则化通过向模型的目标函数(通常是损失函数)添加一个惩罚项来实现。

正则化的基本思想是限制模型的复杂度,使其不会过于依赖训练数据中的噪声或异常值。通过引入一些形式的惩罚,正则化鼓励模型选择较小的参数值,从而使模型更简单、更平滑。

常见的正则化方法有:

  • L1正则化:也称为Lasso正则化,通过在损失函数中添加参数的绝对值之和作为惩罚项。这通常会导致某些参数精确为零,从而实现特征选择。

利用语义属性来进行时序知识图谱的补全,时序知识图谱补全,知识图谱,人工智能

  • L2正则化:也称为岭回归(Ridge Regression),通过在损失函数中添加参数的平方和作为惩罚项。这有助于防止参数值过大。

  利用语义属性来进行时序知识图谱的补全,时序知识图谱补全,知识图谱,人工智能

  • Elastic Net正则化:结合L1和L2正则化,既实现了特征选择,又防止了参数过大。

利用语义属性来进行时序知识图谱的补全,时序知识图谱补全,知识图谱,人工智能

其中,是正则化强度的超参数,通过交叉验证等方法选择合适的值。

正则化有助于提高模型的泛化能力,使其在未见过的数据上表现得更好。不过,选择合适的正则化方法和强度需要仔细的调整,以便在偏差和方差之间找到合适的平衡点。


引言部分

TKG嵌入方法

被证明在进行时序知识图谱补全时是有用的。

这些方法通常通过将时间戳信息合并到现有的评分函数中来扩展针对静态知识图设计的嵌入方法。

这些方法主要注意于测量整个事实的合理性,而忽略了每个实体在特定时间戳上出现在关系的主体或对象位置上的偏差。

举例

对于这个事实,关系暗示了主体是个政治家,所有那些不是政治家的实体就可以被过滤掉,但是如果实体是奥巴马的话,虽然他满足了是个政治家的约束,但是奥巴马能够作为这个事实的实体并且这个事实为真的时间段只能是 在2009年到2016年

相关工作

根据是否考虑了时间信息,相关模型分为两类:静态知识图谱(SKG)嵌入方法,时序知识图谱(TKG)嵌入方法

SKG嵌入方法

实体和关系被嵌入到连续的低维向量空间中。

评判事实合理性的评分函数模型

  • 平移模型
TransE

TransE 是一种基本的平移模型,它将该关系看作是从嵌入的主体实体到嵌入的对象实体的几何平移。

TransE的核心思想是将知识图谱中的三元组(头实体、关系、尾实体)表示为向量空间中的平移操作。具体来说,如果一个三元组(h, r, t)是真实的(即存在于知识图谱中),那么头实体的向量表示与关系的向量表示之和应该接近尾实体的向量表示。数学上,这可以表示为:

利用语义属性来进行时序知识图谱的补全,时序知识图谱补全,知识图谱,人工智能

TransE的目标是学习实体和关系的向量表示,使得真实三元组的这一约束得到满足,同时不真实的三元组(即不在知识图谱中的三元组)不满足该约束。

为了实现这一目标,TransE使用了一个损失函数,通常是基于间隔的合页损失(margin-based hinge loss)。损失函数鼓励真实三元组的得分低于不真实三元组的得分,并且两者之间的差距至少为一个预定的间隔。

TransE例子
import torch
import torch.nn as nn
import torch.optim as optim

# 定义实体和关系
entities = ["北京", "纽约", "巴黎", "中国", "美国", "法国"]
relations = ["位于"]
entity2idx = {entity: idx for idx, entity in enumerate(entities)}
relation2idx = {relation: idx for idx, relation in enumerate(relations)}

# 定义三元组
triples = [
    ("北京", "位于", "中国"),
    ("纽约", "位于", "美国"),
    ("巴黎", "位于", "法国"),
]

# 超参数
embedding_dim = 10
margin = 1.0
learning_rate = 0.01
epochs = 1000

# 初始化实体和关系的嵌入
entity_embeddings = nn.Embedding(len(entities), embedding_dim)
relation_embeddings = nn.Embedding(len(relations), embedding_dim)

# 优化器
optimizer = optim.SGD(list(entity_embeddings.parameters()) + list(relation_embeddings.parameters()), lr=learning_rate)

# 训练
for epoch in range(epochs):
    total_loss = 0
    for head, relation, tail in triples:
        # 获取实体和关系的索引
        head_idx = torch.LongTensor([entity2idx[head]])
        relation_idx = torch.LongTensor([relation2idx[relation]])
        tail_idx = torch.LongTensor([entity2idx[tail]])

        # 获取嵌入
        head_embedding = entity_embeddings(head_idx)
        relation_embedding = relation_embeddings(relation_idx)
        tail_embedding = entity_embeddings(tail_idx)

        # 计算损失
        loss = torch.nn.functional.relu(margin + (head_embedding + relation_embedding - tail_embedding).norm(p=1) - (head_embedding + relation_embedding - tail_embedding).norm(p=1))
        total_loss += loss.item()

        # 反向传播和优化
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()

    if epoch % 100 == 0:
        print(f"Epoch {epoch}, Loss: {total_loss}")

# 打印最终的嵌入
print("Entity embeddings:", entity_embeddings.weight.data)
print("Relation embeddings:", relation_embeddings.weight.data)

from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

# 使用PCA将实体嵌入降到2维
pca = PCA(n_components=2)
entity_embeddings_2d = pca.fit_transform(entity_embeddings.weight.data)

# 绘制实体
plt.scatter(entity_embeddings_2d[:, 0], entity_embeddings_2d[:, 1])

# 添加标签
for i, entity in enumerate(entities):
    plt.annotate(entity, (entity_embeddings_2d[i, 0], entity_embeddings_2d[i, 1]))

plt.title('Entity Embeddings')
plt.show()

利用语义属性来进行时序知识图谱的补全,时序知识图谱补全,知识图谱,人工智能

利用语义属性来进行时序知识图谱的补全,时序知识图谱补全,知识图谱,人工智能
实体向量降维后的可视化 

扩展:TransR , TransH and TransD  

  • 张量分解模型
RESCAL

RESCAL是一种用于知识图谱嵌入的张量分解方法。与许多其他知识图谱嵌入方法不同,RESCAL不是为每个关系学习一个单一的嵌入向量,而是为每个关系学习一个矩阵。这允许模型捕捉更复杂的关系,并可以更好地建模多对多关系。

RESCAL的工作原理

假设我们有一个三维张量,其中每个切片表示一个关系,每个元素表示实体和之间的关系的存在或强度

RESCAL通过以下方式分解这个张量:

  • 实体嵌入:所有关系共享相同的实体嵌入矩阵,其中每一行是一个实体的嵌入向量。
  • 关系嵌入:对于每个关系,RESCAL学习一个矩阵。
  • 重构:通过实体嵌入和关系矩阵,我们可以重构原始张量:。

扩展:DistMult 、ComplEx

  • 神经网络模型

这些方法应用多层非线性特征来计算实体和关系之间的交互作用,从而生成表达性特征嵌入。

TKG嵌入方法

根据要预测的时间戳,我们可以将这些方法分为两个背景:外推和插值

外推

外推模型侧重于预测未来时间戳t(t > tT)的新事实。他们通常通过将TKG视为事件序列来开发时间依赖的评分函数。

插值

目的是通过推断历史时间戳t(t0 <t<tT)中缺失的事实来补全TKG。这些工作通常为每个时间戳计算一个隐藏的表示,并扩展静态分数函数以利用时间信息。

具有语义属性的KG嵌入

在时间知识图嵌入中,关系及其涉及实体之间的语义属性仍未被探索。

方法

利用语义属性来进行时序知识图谱的补全,时序知识图谱补全,知识图谱,人工智能

 基于关系约束的评分函数

利用语义属性来进行时序知识图谱的补全,时序知识图谱补全,知识图谱,人工智能

 根据张量分解和超平面投影来设计评分函数。

利用语义属性来进行时序知识图谱的补全,时序知识图谱补全,知识图谱,人工智能

张量分解是一种广泛存在的变换函数,它可以通过将一个张量分解为分量秩1张量的和来计算一个元组的分数。 

我们应用张量分解函数来模拟元组(r、t、s)和(r、t、o)的相互作用,并计算关系约束的值。

利用语义属性来进行时序知识图谱的补全,时序知识图谱补全,知识图谱,人工智能

张量分解容易过拟合,所以引入正则化矩阵在对应的关系约束的元素。 

利用语义属性来进行时序知识图谱的补全,时序知识图谱补全,知识图谱,人工智能

超平面投影: 

利用语义属性来进行时序知识图谱的补全,时序知识图谱补全,知识图谱,人工智能 

 文章来源地址https://www.toymoban.com/news/detail-667861.html

到了这里,关于利用语义属性来进行时序知识图谱的补全的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 从零开始的知识图谱生活,构建一个百科知识图谱,完成基于Deepdive的知识抽取、基于ES的简单语义搜索、基于 REfO 的简单KBQA

    项目设计集合(人工智能方向):助力新人快速实战掌握技能、自主完成项目设计升级,提升自身的硬实力(不仅限NLP、知识图谱、计算机视觉等领域) :汇总有意义的项目设计集合,助力新人快速实战掌握技能,助力用户更好利用 CSDN 平台,自主完成项目设计升级,提升自

    2024年02月15日
    浏览(55)
  • 语义解析技术在大数据时代的应用与前景-自然语言生成SQL与知识图谱问答实战【文末送书-17】

    语义解析技术可以提高人机交互的效率和准确性,在自然语言处理、数据分析、智能客服、智能家居等领域都有广泛的应用前景。特别是在大数据时代,语义解析能够帮助企业更快速地从大量的数据中获取有用的信息,从而提高决策效率。 在大数据时代的背景下,语义解析技

    2024年01月21日
    浏览(55)
  • FPGA时序约束(二)利用Quartus18对Altera进行时序约束

    FPGA时序约束(一)基本概念入门及简单语法 最近由于不懂时序约束,在高速信号采集上面吃了很多亏,不知道系统工作异常的原因是什么。记录一下查到的资料,有些许自己的理解,可能有误。(主要是小梅哥及《FPGA时序约束与分析(吴厚航)》) 在程序编译之后,会出现

    2024年02月05日
    浏览(42)
  • PointNet:利用深度学习对点云进行3D分类和语义分割

    参考自,PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation 代码仓库地址为:https://github.com/charlesq34/pointnet/ 介绍 这次介绍的是一个比较基础的工作,针对空间点云,进行分类或者语义分割的框架,现在通常也被用作对RGB-D图像进行特征提取的部分。 该工作的目的就是

    2024年02月03日
    浏览(70)
  • 4种通过LLM进行文本知识图谱的构建方法对比介绍

    我们在以前的文章中已经介绍了使用大语言模型将非结构化文本转换为知识图谱。但是对于知识图谱的创建是一个很复杂的过程,比如需要对属性增加限制,创建符合特定主题/模式的图谱,并且有时文档非常大,无法作为单个提示处理,所以在切分后的提示中创建的图谱需要

    2024年01月20日
    浏览(43)
  • 利用TimeGAN技术对一维时序数据进行扩增(Python代码)

    1.数据集介绍 特征是工作经验年限,标签是薪水,因为数据量太少,利用GAN技术进行扩增 YearsExperience Salary 1.1 39343 1.3 46205 1.5 37731 2 43525 2.2 39891 2.9 56642 3 60150 3.2 54445 3.2 64445 3.7 57189 3.9 63218 4 55794 4 56957 4.1 57081 4.5 61111 4.9 67938 5.1 66029 5.3 83088 5.9 81363 6 93940 6.8 91738 7.1 98273 7.9 10130

    2024年02月07日
    浏览(61)
  • 【图像分割】Unet-ConvLstm利用时序信息进行视频分割

    文章: Exploiting Temporality for Semi-Supervised Video Segmentation 代码: https://github.com/mhashas/Exploiting-Temporality-For-Semi-Supervised-Video-Segmentation 理解: 使用单帧标注,对视频进行分割。利用时间维度信息来推断空间信息。将传统FCN转化成时间-空间FCN。 方法: 通过FCN语义分割网络,对时间

    2023年04月27日
    浏览(52)
  • 自学笔记——利用python开展Neo4j图数据库知识图谱构建和统计分析

    前言: 在上《高级统计学》时,老师提到结合所学知识点自行设计任务,并利用所学完成。 近期正好在学习python的编程和利用neo4j开展知识图谱构建,于是在征得老师同意下,尝试完成任务:“统计近6年社科基金,并构建知识图谱。”   入门小白自学笔记,请高手勿喷。

    2024年02月16日
    浏览(55)
  • 经典文献阅读之--VoxFormer(基于Transformer的3D语义场景补全)

    之前了解了很多BEV的相关操作,但是基本上要么是激光和视觉结合,要么是纯视觉完成的2D激光投影这两种,而那种3D Occupancy方法可以利用栅格的方法完成纯视觉占据栅格的生成。《VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion》就是这种方法对于被遮挡的物

    2024年01月23日
    浏览(49)
  • 酌情参考——chatGPT给的一些语义框架的学术思路,语义和图谱结合似乎是个不错的方向

    语义和图谱结合似乎是个不错的方向 我个人觉得可以用知识图谱,用 语义框架作为学术上理论依据,来解决学生领域认知问题。 2023年9月12日18:02:48的idea。 附:认知相关 文旭:认知语言学的研究方法 - 向上好青年的文章 - 知乎

    2024年02月09日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包