Elasticsearch 和数据架构:改进分析和存储的 4 个基本工具

这篇具有很好参考价值的文章主要介绍了Elasticsearch 和数据架构:改进分析和存储的 4 个基本工具。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

作者:Emily McAlister

 Elasticsearch 和数据架构:改进分析和存储的 4 个基本工具,Elasticsearch,Elastic,elasticsearch,架构,大数据,全文检索,搜索引擎,数据库

组织越来越依赖数据来做出有效的、基于证据的决策来推动业务成果。 无论是评估市场状况和改善客户体验、确保应用程序正常运行时间还是保护组织安全,来自多个来源(包括消费者和内部系统)的数据对于日常运营都至关重要。

这种数据驱动的方法要求组织快速收集、存储和分析大量数据,以便及时做出决策。 通常,这意味着大规模地跨多个来源和不同复杂程度的格式进行关联和分析。

Elasticsearch® 提供了摄取、存储和搜索这些数据集的可扩展性和灵活性,以便从业务、可观察性和安全角度找到相关且可操作的见解。 然而,随着越来越多的数据被摄取,如果不考虑利用 Elasticsearch 平台实现的数据架构和结构,它可能会变得笨重且昂贵。

使用 Elastic 解决常见数据挑战

作为一名 Elastic 顾问,我帮助许多客户加入多个数据源,这些数据源经过转换和关联,为业务决策、平台可用性和安全性提供支持。 以下是我帮助组织解决的一些挑战,特别是那些拥有多种数据源的挑战:

  • 按数据源对摄取量进行归因:如果没有适当的标签/标记策略和执行,这可能会很棘手。
  • 跨多个数据源的分析和关联:由于每个数据集中存在冲突的字段名称(例如,host_name、host.name、name),这通常很困难。
  • 存储成本:有时我会发现由于索引设计和对所摄取数据源的理解不周,导致无法利用存储分层。 有时我还发现客户不知道新的、节省成本的功能。

数据架构的开发和文档化通过组织内数据源的规划和设计来解决上述挑战。 数据架构详细介绍了如何收集、处理和存储数据以供组织内的系统和人员使用的策略和标准。 一旦定义完毕,以下四种工具可用于使用 Elastic Stack 在技术层解决这些挑战。

Elasticsearch 和数据架构:改进分析和存储的 4 个基本工具,Elasticsearch,Elastic,elasticsearch,架构,大数据,全文检索,搜索引擎,数据库 

 

1. 标记和标签

Agent、Beats 和 Logstash® 等 Elastic Stack 摄取工具都提供添加自定义标记和标签的功能,使每个文档在存储在 Elasticsearch 中后可以轻松识别。 与组织的数据架构保持一致的标记或标签标准可以清晰地说明如何处理数据源。

通过过滤特定标签来快速分离数据源,可以准确、快速地识别数据源。 这减少了重要数据管理所需的时间,例如容量规划、分析摄取量或在索引之间迁移数据源。

对于在多个团队之间共享 Elastic 部署的某些客户,可以使用符合特定消费者群体的标准轻松报告退款/许可证消耗数据的归属。 在高级情况下,标记和标签还可用于支持基于角色的访问控制的文档级安全性。

使用标记和标签标准还可以减少为跨多个数据源的应用程序或系统开发可视化和执行调查活动的时间。

2. Elastic 通用模式

如果跨数据源的字段命名不一致,则跨数据集的关联会变得更加复杂。 这种不一致可能会导致跨多个字段的复杂查询,这些字段都表示相同的信息(例如,host.name: "serverA" 或 host_name: "serverA" 或 name: "serverA")。

Elastic Common Schema (ECS) 提供了在 Elasticsearch 中存储基于事件的数据的标准蓝图。 默认情况下,Elastic 的集成和摄取工具(Agent、Beats 和 Logstash)遵循此标准,以跨多个数据源提供一致的字段名称和数据类型。 这使得你可以轻松查询所有数据,从而使组织能够利用预构建的开箱即用仪表板和我们的一站式解决方案,例如 Elastic Observability 和 Elastic Security。

ECS 补充了组织的数据架构,并且可以作为基础层来协助捕获每个数据源的一组通用标准字段,从而回答 “这个源为我提供了哪些数据?” 的问题。

事实上,ECS 已被 OpenTelemetry 项目接受,使用户在日志记录、分布式跟踪、指标和安全事件方面受益。

了解有关 Elastic Common Schema 优势的更多信息。

3. 数据流约定

Elastic 在 7.9 版本中引入了数据流,作为管理可观测性和安全性用例的时间序列数据的改进方法。 作为此功能的一部分,引入了命名方案,通过引入以下内容来更好地管理索引层的数据集:

  1. type:描述数据的通用类型
  2. dataset:描述摄取的数据及其结构
  3. namespace:用户可配置的任意分组

这三个部分通过 “-” 组合在一起,产生像 logs-nginx.access-Production 这样的数据流。 这意味着所有数据流都按以下方式命名:

{type}-{dataset}-{namespace}

特别是,命名空间选项的使用为组织提供了一种灵活的方法,可以根据数据架构所需的方式组织和存储数据。

阅读有关数据流的更多信息。

4. 数据层

Elasticsearch 提供了跨不同硬件配置文件传播数据的能力,以平衡数据存储的保留和基础设施成本。 随着数据老化,可以使用更便宜且性能较低的层来降低存储成本,同时保留对数据的访问。 这是通过使用数据流和索引生命周期管理策略以及在不同数据层之间自动移动数据的工具来完成的。

数据架构提供了正在摄取的数据源以及如何将它们存储在 Elasticsearch 中的清晰总体图景。 这是一个关键输入,可用于在 Elasticsearch 集群中设计可扩展的分层存储结构,以满足组织内的各种数据源和用例。

例如,某些安全用例需要长期存储日志,在这种情况下,冷层或冻结层应被视为一种具有成本效益的解决方案,它不仅可以保留数据,而且可以在出现以下情况时轻松搜索数据: 一项调查。 然而,对于可观察性用例,许多代理和 APM 数据源需要快速的热层来进行立即调查,以快速解决或通知任何性能问题。

阅读有关使用数据层管理数据的更多信息。

总之

上述注意事项将帮助您避免一些常见陷阱并从 Elastic 部署中实现更多价值:

  1. 标签和标记以及数据流命名约定使组织能够轻松地按数据源保护、聚合和过滤数据,以进行分析和管理。
  2. Elastic Common Schema 合规性使组织能够利用统包解决方案,使跨多个源的数据关联变得简单、无缝。
  3. 可扩展的数据层提供了可扩展的解决方案,可优化存储成本以增加数据量,使组织能够在不牺牲速度的情况下存储所需的数据。

开始免费试用 Elastic Cloud 14 天,了解如何应用这些工具。文章来源地址https://www.toymoban.com/news/detail-520578.html

到了这里,关于Elasticsearch 和数据架构:改进分析和存储的 4 个基本工具的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • (八) ElasticSearch数据可视化和分析工具Kibana安装和使用

    Kibana 是一个用于数据可视化和分析的开源工具,它是 Elastic Stack(包括 Elasticsearch、Logstash 和 Beats)的一部分。Kibana 提供了直观、交互式的用户界面,让用户能够以图表、表格、地图等形式实时探索和可视化存储在 Elasticsearch 中的数据。 前往 Elastic 官网(https://www.elastic.co/

    2024年02月11日
    浏览(65)
  • Elasticsearch系列组件:Logstash强大的日志管理和数据分析工具

    Elasticsearch 是一个开源的、基于 Lucene 的分布式搜索和分析引擎,设计用于云计算环境中,能够实现实时的、可扩展的搜索、分析和探索全文和结构化数据。它具有高度的可扩展性,可以在短时间内搜索和分析大量数据。 Elasticsearch 不仅仅是一个全文搜索引擎,它还提供了分布

    2024年02月08日
    浏览(47)
  • 【ElasticSearch】 ElasticSearch serverless架构介绍(查询写入分离,计算存储分离)

    ElasticSearch 推出了全新的serverless架构,将查询(search)和写入(indexing)分离,将计算(computing)和存储(storage)分离,极大提高了 ES 的可运维性,降低了学习成本。本文将先介绍下serverless含义,再介绍ElasticSearch serverless架构。 在serverless架构下,用户只需关注业务逻辑,无需管理服务

    2024年01月24日
    浏览(48)
  • Elasticsearch的基础知识和架构设计,以及一些常用的功能——面向对象编程和数据结构的高级应用场景,以及相应的代码实现方法和工具

    作者:禅与计算机程序设计艺术 2019年,Elasticsearch正式发布了7.0版本。在这个版本更新中,新增了许多新特性和功能,包括全文搜索、分类聚合、分析器、图形化数据可视化等。无论对于企业或个人来说,都意味着更好的应用场景。但是,掌握Elasticsearch并非易事,需要不断学

    2024年02月07日
    浏览(57)
  • 数据驱动成功:商城小程序分析与改进

    在当今数字化时代,商城小程序成为了企业与消费者之间互动的重要途径。然而,一个成功的商城小程序不仅仅是一个购物平台,更需要通过数据分析不断进行改进和优化,以提升用户体验和营销效果。本文将深入探讨如何利用数据驱动的方式进行商城小程序分析与改进,以

    2024年02月12日
    浏览(44)
  • 结合云计算的最新技术和现状,介绍云计算基础知识、开源分布式数据库Clickhouse、可视化数据分析工具、分布式链路跟踪系统Pinpoint、数据湖存储系统Pulsar等

    作者:禅与计算机程序设计艺术 2019年,“云计算”将成为“经济全球化”的热门词汇之一,2020年全球云计算市场规模预计达到1万亿美元。中国是继美国、英国之后,成为全球第四大云服务提供商。华为、腾讯、阿里巴巴等互联网巨头纷纷布局云计算领域,各家公司纷纷推出

    2024年02月08日
    浏览(56)
  • 使用阿里云试用Elasticsearch学习:1.3 基础入门——搜索-最基本的工具

    现在,我们已经学会了如何使用 Elasticsearch 作为一个简单的 NoSQL 风格的分布式文档存储系统。我们可以将一个 JSON 文档扔到 Elasticsearch 里,然后根据 ID 检索。但 Elasticsearch 真正强大之处在于可以从无规律的数据中找出有意义的信息——从“大数据”到“大信息”。 Elasticse

    2024年04月12日
    浏览(46)
  • 从 Elasticsearch 到 Apache Doris,10 倍性价比的新一代日志存储分析平台

    作者介绍:肖康,SelectDB 技术副总裁 日志数据的处理与分析是最典型的大数据分析场景之一,过去业内以 Elasticsearch 和 Grafana Loki 为代表的两类架构难以同时兼顾高吞吐实时写入、低成本海量存储、实时文本检索的需求。Apache Doris 借鉴了信息检索的核心技术,在存储引擎上实

    2024年02月03日
    浏览(62)
  • Elasticsearch数据存储与查询

    Elasticsearch数据存储与查询 Elasticsearch是一个分布式、实时的搜索和分析引擎,基于Lucene库开发。它可以处理大量数据,提供快速、准确的搜索结果。Elasticsearch支持多种数据类型的存储和查询,如文本、数值、日期等。它还提供了强大的分析功能,如词频统计、提取等。

    2024年02月19日
    浏览(39)
  • Elasticsearch数据存储优化方案

    优化Elasticsearch数据存储有助于提升系统性能、降低成本、提高数据查询效率以及增强系统的稳定性和可靠性。通常我们再优化Elasticsearch数据存储会遇到一些问题,导致项目卡壳。以下是优化Elasticsearch数据存储的一些重要作用: 1、问题背景 在某些场景中,我们可能会考虑绕

    2024年04月09日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包