管理 IBM Spectrum LSF

这篇具有很好参考价值的文章主要介绍了管理 IBM Spectrum LSF。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

管理 IBM Spectrum LSF

了解如何管理 IBM® Spectrum LSF 集群,控制守护程序,更改集群配置以及使用主机和队列。 管理 LSF 作业和作业调度策略。 查看作业信息和控制作业。 了解如何配置资源并将其分配给 LSF 作业。 了解如何在 LSF 集群中提交,监视和控制高吞吐量和并行工作负载。 了解 LSF 错误和事件日志记录以及 LSF 如何处理作业异常。 调整 LSF 集群的性能和可伸缩性。

IBM Spectrum LSF 集群管理要点

了解如何管理 LSF 集群,控制守护程序,更改集群配置以及使用主机,队列和用户。

  • 使用集群
    了解 LSF 目录和文件,用于查看集群信息的命令,控制工作负载守护程序以及如何配置集群。
  • 使用主机
    检查集群中主机的状态,查看有关主机的信息,控制主机。 在集群中添加和除去主机。
  • 作业目录和数据
    作业将临时目录用于工作文件和临时输出。 缺省情况下, IBM Spectrum LSF 使用缺省操作系统临时目录。 使用 LSF 当前工作目录 (CWD) 功能部件可根据配置参数以及路径中包含的任何动态模式来动态创建和管理作业 CWD。 使用灵活的作业输出目录来根据配置参数动态创建和管理作业输出目录。
  • 作业通知
    缺省情况下,当批处理作业完成或退出时, LSF 会通过电子邮件向提交用户帐户发送作业报告。

监视 IBM Spectrum LSF 集群操作和运行状况

了解如何监视集群性能,作业资源使用情况以及有关队列,作业和用户的其他信息。

  • 监视集群性能
    使用 badmin perfmon 来监视集群性能。 使用 badmin diagnose 对集群问题进行故障诊断。
  • 监视作业信息
    使用 bjobs 和 bhist 来监视作业和作业阵列的当前和过去状态。 bjdepinfo 命令显示作业具有的任何依赖关系,这些依赖关系可以是依赖于作业的作业,也可以是依赖于作业的作业。 使用 bhosts -l 和 bqueues -l查看暂挂条件。 运行 bjobs -lp 以查看暂挂作业的原因。 运行 bjobs -l 以查看控制何时恢复作业的调度阈值。
  • 使用外部脚本监视应用程序
    使用看守程序功能来定期运行外部脚本,以检查应用程序信息并将作业信息作为通知传递。
  • 查看有关资源的信息
    使用 bhosts 命令可查看有关主机上的共享资源和主机上的装入的信息。 使用 bjobs 命令可查看作业资源使用情况。 使用 lsinfo 命令可查看总体集群资源,使用 lshosts 命令可查看基于主机的资源和按资源划分的主机负载。
  • 查看用户和用户组信息
    使用 busers 和 bugroup 命令可显示有关 LSF 用户和用户组的信息。
  • 查看队列信息
    bqueues 命令显示有关队列的信息。 bqueues -l 选项还提供有关特定队列中的作业的当前统计信息,例如队列中的作业总数,正在运行的作业数和已暂挂的作业数。

管理 IBM Spectrum LSF 作业执行
了解如何管理 LSF 作业和作业调度策略。 查看作业信息,控制作业以及管理作业依赖关系,作业优先级,作业数组,交互式作业,作业执行前和执行后以及作业启动者。

  • 管理作业执行
    了解 LSF 作业状态,如何查看有关作业的信息,以及通过暂挂,恢复,停止和发送信号来控制作业执行。
  • 作业文件假脱机
    LSF 通过创建用于缓冲作业输入和输出的目录和文件来启用作业输入,输出和命令文件的假脱机。 当作业完成时, LSF 将除去这些文件。
  • 作业数据管理
    LSF 提供了不同的选项来管理作业数据。
  • 作业调度和分派
    了解如何调度作业并将其分派给主机以供执行。
  • 控制作业执行
    使用资源使用限制来控制运行作业可耗用的资源量。 根据执行主机上的装入条件自动暂挂作业。 在作业完成之前和之后,使用执行前和执行后处理在执行主机上运行命令。 使用作业启动程序为作业设置运行时环境。 作业提交和执行控件使用特定于站点的外部可执行文件来验证,修改和拒绝作业,传输数据以及修改作业执行环境。
  • 交互式作业和远程任务
    使用 bsub -I, bsub -Is和 bsub -Ip 命令运行交互式作业,以利用资源密集型作业的批处理调度策略和主机选择功能。 使用非批处理实用程序 (例如 lsrun 和 lsgrun) 以交互方式远程运行任务。

配置和共享 IBM Spectrum LSF 作业资源
了解如何配置资源并将其分配给 LSF 作业。 在用户和项目之间公平共享计算资源。 将资源分配限制应用于作业,管理主机和用户组,保留资源以及指定作业的资源需求。

  • 关于 LSF 资源
    LSF 系统使用内置和配置的资源来跟踪作业资源需求,并根据各个主机上的可用资源来调度作业。
  • 在 LSF 中表示作业资源
    了解如何在 LSF中表示作业资源。
  • 基于计划的调度和预留
    基于计划的调度极大地改进了 LSF中的原始调度和预留功能。 调度程序可以在不久的将来规划作业布置,而不是仅查看当前资源可用性。 然后,将根据这些计划的分配进行预留。 基于计划的调度旨在替代旧的 LSF 预留策略。 启用 ALLOCATION_PLANNER 时,将忽略与旧预留功能部件相关的参数。
  • 将作业资源分发给 LSF 中的用户
    了解用户如何通过 LSF共享作业资源。
  • 全局资源
    全局资源是在所有已连接集群之间共享的资源。

GPU 资源
了解如何为 LSF 作业配置和使用 GPU 资源。

NVIDIA GPU 资源在 x64 和 IBM Power LE (Little Endian) 平台上受支持。
AMD GPU 资源在 x64 平台上受支持。

  • 启用 GPU 功能部件
    了解如何在 IBM Spectrum LSF中启用 GPU 功能部件。
  • 监视 GPU 资源
    了解如何在 IBM Spectrum LSF中监视 GPU 资源。
  • 提交和监视 GPU 作业
    了解如何在 IBM Spectrum LSF中提交和监视使用 GPU 资源的作业。
  • 旧的-使用 ELIM 的 GPU 功能
    了解如何手动使用旧的 ELIM 来使用 IBM Spectrum LSF中的 GPU 功能。

使用 LSF 配置容器

针对容器配置和使用 LSF 集成。
容器是基于 Linux 控制组 (cgroups) 和名称空间的轻量级操作系统级别虚拟化。 容器高效运行,并根据预定义的映像启动。 您可以打包应用程序并将其作为容器映像发布。 容器是可移植的,可以在任何映像的任何 Linux 发行版上运行。 LSF 支持 Docker,奇异性和 Shifter 容器运行时。

与 LSF GPU 调度配合使用时, LSF 可以使用 nvidia-docker 运行时使分配的 GPU 在容器中工作以实现应用程序加速。 LSF 为作业启动基于作业的容器,并且该容器的生命周期与作业的生命周期相同。 对于并行作业, LSF 将为作业启动一组容器。 作业完成后, LSF 将销毁所有容器。

LSF 在应用程序概要文件中配置容器运行时控件。 LSF 管理员负责在应用程序概要文件中配置容器运行时,最终用户无需考虑将哪些容器用于其作业。 最终用户将其作业提交到应用程序概要文件, LSF 会自动管理容器运行时控件。

  • IBM Spectrum LSF with Docker
    配置并使用 LSF 以根据需要在 Docker 容器中运行作业。 LSF 管理在容器中作为公共作业运行的作业的整个生命周期。
  • IBM Spectrum LSF with Shifter
    配置并使用 LSF 根据需要在 Shifter 容器中运行作业。 LSF 管理在容器中作为公共作业运行的作业的整个生命周期。
  • 具有奇异性的IBM Spectrum LSF
    配置并使用 LSF 以根据需要在奇异性容器中运行作业。 LSF 管理在容器中作为公共作业运行的作业的整个生命周期。
  • 带有 Podman的IBM Spectrum LSF
    配置并使用 LSF 以根据需要在 Pod Manager (podman) OCI 容器中运行作业。 LSF 管理在容器中作为公共作业运行的作业的整个生命周期。
  • IBM Spectrum LSF with Enroot
    配置并使用 LSF 以根据需要在 Enroot 容器中运行作业。 LSF 管理在容器中作为公共作业运行的作业的整个生命周期。

管理 IBM Spectrum LSF 高吞吐量工作负载
了解如何在 LSF 集群中提交,监视和控制高吞吐量工作负载。 配置支持高效排队,分派和执行短时间运行的作业的调度策略。

  • 作业包
    使用 LSF 作业包来加速大量作业的提交。 通过作业包,您可以通过提交包含多个作业请求的单个文件来提交作业。
  • 作业数组
    作业数组是具有相同可执行文件和资源需求但不同输入文件的作业组。 可以将作业数组作为单个单元或作为单个作业或作业组进行提交,控制和监视。
  • 公平共享调度
    公平共享调度在用户和队列之间划分 LSF 集群的处理能力,以提供对资源的公平访问权,从而使任何用户或队列都无法垄断集群的资源,并且不会使任何队列处于饥饿状态。
  • 有保证的资源池
    有保证的资源池为一组用户或其他使用者提供最低限度的资源保证。
  • 保留内存和许可证资源
    使用 LSF 为高吞吐量工作负载保留内存和许可证资源。

管理 IBM Spectrum LSF 并行工作负载
了解如何在 LSF 集群中提交,监视和控制并行工作负载。 配置用于保留资源的调度策略,以支持高效执行大型并行作业。文章来源地址https://www.toymoban.com/news/detail-649339.html

  • 运行并行作业
    LSF 提供了并行编程包的通用接口,以便可以通过编写 shell 脚本或包装程序来支持任何并行包。
  • 提前预留
    提前预留可确保在指定时间内访问特定主机或插槽。 在提前预留处于活动状态的时间内,只有与预留关联的用户或组才有权在预留的主机或插槽上启动新作业。
  • 公平共享调度
    公平共享调度在用户和队列之间划分 LSF 集群的处理能力,以提供对资源的公平访问权,从而使任何用户或队列都无法垄断集群的资源,并且不会使任何队列处于饥饿状态。
  • 作业检查点并重新启动
    通过作业检查点优化资源使用情况,然后重新启动以停止作业,然后从作业停止的位置重新启动作业。
  • 可检查点和可重新运行的作业的作业迁移
    使用作业迁移将可检查点和可重新运行的作业从一个主机移至另一个主机。 作业迁移使用作业检查点并重新启动,以便已迁移的可检查点作业从作业在原始主机上停止的位置在新主机上重新启动。
  • 可处理作业
    可处理作业可以使用随时可用的任务数,并且可以在作业运行时通过请求额外任务 (如果需要) 或释放不再需要的任务来增大或缩小任务数。

到了这里,关于管理 IBM Spectrum LSF的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【小黑嵌入式系统第十一课】μC/OS-III程序设计基础(一)——任务设计、任务管理(创建&基本状态&内部任务)、任务调度、系统函数

    上一课: 【小黑嵌入式系统第十课】μC/OS-III概况——实时操作系统的特点、基本概念(内核任务中断)、与硬件的关系实现 下一课: 【小黑嵌入式系统第十二课】μC/OS-III程序设计基础(二)——系统函数使用场合、时间管理、临界区管理、使用规则、互斥信号量 1.1 任务概

    2024年02月04日
    浏览(47)
  • 【分布式任务调度】(一)XXL-JOB调度中心集群部署配置

    XXL-JOB是一款轻量级的分布式任务调度中间件,默认支持6000个定时任务,如果生产环境的任务数量在这个范围内,可以选择使用 XXL-JOB。 XXL-JOB由Quartz这款老牌的任务调度中间件演化而来,相对来说,具备以下优势: 操作更简单,学习成本更低 使用异步化调度,性能更好 有配

    2024年02月16日
    浏览(47)
  • 【后端-Quartz】Springboot整合Quartz支持集群环境-设计业务与框架分离及实现定时任务调度

    我们的各个服务需要改造支持集群,现在的授权、日程使用的是基于内存的spring scheduler定时任务,如果部署多个节点,那么到了时间点,多个节点都会开始执行定时任务从而可能引起业务和性能上的问题。 服务中的定时任务比较轻量,为了避免引入redis、zookeeper、单独的定时

    2023年04月09日
    浏览(43)
  • Quartz.NET配置文件:简便任务调度,轻松管理

      概述: Quartz.NET是一个强大的任务调度库,支持通过配置文件灵活配置任务和触发器。配置文件中定义了调度器、线程池、作业和触发器的相关信息。默认情况下,Quartz.NET在应用程序根目录查找名为 quartz.config 的配置文件。若配置文件位于其他路径或具有不同名称,可以通

    2024年03月09日
    浏览(56)
  • Hadoop YARN功能介绍--资源管理、调度任务

    YARN是一个通用 资源管理系统平台和调度平台 ,可为上层应用提供统一的资源管理和 调度。 他的引入为集群在利用率、资源统一管理和数据共享等方面带来了好处。 集群的硬件资源,和程序运行无关,比如内存、cup 资源如何分配 支持各种计算程序 ResourceManager(物理层面集群

    2024年02月07日
    浏览(40)
  • 分布式任务调度系统分析

    首先,我们来思考一些几个业务场景: XX 信用卡中心,每月 28 日凌晨 1:00 到 3:00 需要完成全网用户当月的费用清单的生成 XX 电商平台,需要每天上午 9:00 开始向会员推送送优惠券使用提醒 XX 公司,需要定时执行 Python 脚本,清理掉某文件服务系统中无效的 tmp 文件 最开始,

    2023年04月22日
    浏览(72)
  • 如何设计一个海量任务调度系统

    在日常开发中会经常遇到一些需要异步定时执行的业务诉求,典型的使用场景如:超时未支付订单关单、每隔 2h 更新好友排行榜、3.22 日 17 点《xx》剧上线等。目前业务侧多基于以下思路来快速搭建一个调度系统,mysql 或者 redis 队列存储待执行任务,通过 crontab 定时触发应用

    2024年02月09日
    浏览(39)
  • 告别手动调度,海豚调度器 3.1.x 集群部署让你轻松管理多机!

    转载自第一片心意 由于海豚调度器官网的集群部署文档写的较乱,安装过程中需要跳转到很多地方进行操作,所以自己总结了一篇可以直接跟着从头到尾进行操作的文档,以方便后续的部署、升级、新增节点、减少节点的相关操作。 JDK:下载JDK (1.8+),安装并配置 JAVA_HOME 环

    2024年04月24日
    浏览(35)
  • 系统设计面试指南之分布式任务调度

    任务是需要资源(CPU 时间、内存、存储、网络带宽等)在指定时间内完成的一段计算工作。 通过智能地将资源分配给任务以满足任务级和系统级目标的系统称为任务调度程序。 任务调度程序: 及时决定和分配资源给任务的过程称为任务调度。 当我们在 Facebook 发表评论时。我

    2024年02月05日
    浏览(61)
  • 使用Docker部署开源分布式任务调度系统DolphinScheduler

    🔥 博客主页 : 小羊失眠啦. 🎥 系列专栏 : 《C语言》 《数据结构》 《Linux》 《Cpolar》 ❤️ 感谢大家点赞👍收藏⭐评论✍️ 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。 本篇教程和大家分享一下DolphinSc

    2024年02月05日
    浏览(61)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包