linux主机宕机排查问题方法 1 排查思路

这篇具有很好参考价值的文章主要介绍了linux主机宕机排查问题方法 1 排查思路。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1 排查思路

1.1 查看宕机的时间记录和历史登陆还有重启时间

1)查看历史重启

last reboot
last -F |grep crash

2)查看历史异常登录用户

last

1.2 首先查看系统日志

linux下的/var/log/下的log日志,包括message,内核报错日志demsg等等,sa记录,是记录cpu,内存等运行的性能文件,记录着运行时的cpu的运行状态等。

1)利用sa文件查看宕机时CPU情况

sar -u -f /var/log/sa/sa27

2)利用sa文件查看宕机时内存情况

sar -r -f /var/log/sa/sa27

3)查看系统报错日志

tail -200 /var/log/messages |grep "Error"

cat /var/log/dmesg|grep "Error"

4)查看系统内核崩溃日志

tail -200 /var/log/messages |grep "crash"

5)查看是否出现OOM,一般会出现kill杀死进程的情况

cat /var/log/messages|grep -i "kill"

6)查看宕机时间段的日志

cat /vat/log/messages|grep "Feb 11 15*"

1.4 查看内存使用

free -m,查看swap的使用和内存剩余情况和缓存。如果swap用了,且available也不够了,具体还要查看参数cat /proc/sys/vm/swappiness,如果设置为0,说明内存不够了。

free -m

1.5 查看io和文件系统使用

观察idle和iowait。磁盘读写时会用到缓存,一般为系统内存的40%,但是中间有一个缓冲时间120秒,将要用完这个缓存时,且会等待120秒,才会写入磁盘,在读写频繁的时候容易造成hang住的情况。

iostat

查看IO的读写速度,如果很慢说明磁盘性能出现瓶颈。

1.6 查看安全日志

安全日志为/var/log/secure,查看history记录,查看是否有人登陆主机并做了恶意动作,例如关机。

1.7 利用kdump和crash工具分析内核

检查服务器开启了kdump服务,并在/var/crash目录找到了当天生成的vmcore文件,使用crash工具分析vmcore文件。

Kdump 用于对内存镜像的转储,它不但可以转储内存镜像到本地硬盘,还可以将内存镜像通过NFS,SSH 等协议转储到不同机器的设备上。

Kdump 分为两个组件:Kexec 和Kdump。

Kexec 是一种内核的快速启动工具,可以使新的内核在正在运行的内核(生产内核)的上下文中启动,而不需要通过耗时的BIOS 检测,方便内核开发人员对内核进行调试。

Kdump 是一种有效的内存转储工具,启用 Kdump 后,生产内核将会保留一部分内存空间,用于在内核崩溃时通过 Kexec 快速启动到新的内核,这个过程不需要重启系统,因此可以转储崩溃的生产内核的内存镜像。

1.8 查看服务日志和监控软件

如果在能找到宕机时进程的占用情况,可以根据占用异常的服务查看其日志。

服务日志一般有数据库和web服务,中间件,框架等。

2 总结

linux系统日志查看宕机原因,Linux常见问题,linux,服务器,运维

 文章来源地址https://www.toymoban.com/news/detail-603925.html

到了这里,关于linux主机宕机排查问题方法 1 排查思路的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Linux 应急响应-溯源-系统日志排查

    w 是一个命令行工具,它可以展示当前登录用户信息,并且每个用户正在做什么。它同时展示以下信 息:系统已经运行多长时间,当前时间,和系统负载。 第一行展示的信息和 uptime 命令运行结果一样。它包含了下列信息: 10:45:27 系统当前时间 up 3 min 系统上线时间 1 user 登录

    2024年01月25日
    浏览(41)
  • Linux开机rc.local不自启动执行脚本问题的排查思路及问题解决

    问题 Linux系统中,在rc.local里面配置的启动命令等不能能够在开机的时候进行自启动 问题解决 解决问题排查中最大的麻烦,需要进行reboot重启 查看rc-local的运行状态 systemctl status rc-local 如果是loaded或者是faild类似,说明启动确实出现了问题 首先查看检查是否还有rc.local的软连

    2024年02月16日
    浏览(39)
  • 使用Windbg分析从系统应用程序日志中找到的系统自动生成的dump文件去排查问题

    目录 1、尝试将Windbg附加到目标进程上进行动态调试,但Windbg并没有捕获到

    2024年02月14日
    浏览(39)
  • linux下系统问题排查基本套路

    top 查找cpu占用高的进程 ps 找到对应进程的pid top -H -p pid 查找cpu利用率较高的线程 printf ‘%xn’ pid 将线程pid转换为16进制得到 nid jstack pid |grep ‘nid’ -C5 –color 在jstack中找到对应堆栈信息进行分析 cat jstack.log | grep “java.lang.Thread.State” | sort -nr | uniq -c 对jstack有一个综合的把握

    2024年02月11日
    浏览(32)
  • Linux应急响应排查思路

    「作者简介」: CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者 「推荐专栏」: 对网络安全感兴趣的小伙伴可以关注专栏《网络安全入门到精通》

    2024年02月03日
    浏览(42)
  • 【当LINUX系统出现网络问题时该如何排查】

    因为网络问题产生的现象有无数种,但同一种现象的产生并不一定是由于网络问题引起的。比如页面卡顿,数据包无法处理这些现象,完全有可能是死锁或者进程异常终止产生的。 所以,结论不要下的太早,先问问自己,网络问题是什么,是不通,还是慢?现象是什么?一步

    2024年02月04日
    浏览(34)
  • JavaWeb初学项目的问题排查思路

       常说代码cv,遇到具体需求时,解决问题的思路有了才可以cv,特此根据浅薄经验记录思路,反思自己。         需求能不能做,确定好工期。       根据用户的需求设计数据库,这一步极为关键,表关系可以一对多,多对多等,只能根据项目经验去提升,有意识的思考,

    2024年02月09日
    浏览(37)
  • 【记一次线上事故的排查思路】- CPU飙升问题排查

    由于项目排期较紧,临时从其他组调来三个开发资源帮我一起做项目,难免上线的时候大家的需求一块上线。 问题来了,上线三天后,线上CPU总是莫名奇妙的突然飙升,飙升后CPU并未降下来,而是一直处在高点。 由于是线上导致的问题,CPU超限后,会自动重启项目,未能保

    2024年01月23日
    浏览(49)
  • 不要再说你不会了——网络性能问题排查思路

    服务监控系列文章 服务监控系列视频 网络问题往往是性能排查中最复杂的一个问题,因为网络问题往往涉及的链路比较长,排查起来不仅仅是看本地机器的指标就可以了。本文将展示一个比较系统的排查网络问题的思路。 我们往往都是通过类似prometheus,grafana搭建的监控平

    2023年04月13日
    浏览(33)
  • SQL执行慢的问题排查和优化思路

    待补充 待补充 大多数情况下都正常,偶尔很慢。 3.1.1 主要考虑原因 数据库在刷新脏页,例如redo log写满了需要同步到磁盘。 或者执行的时候,遇到锁,如表锁、行锁。 此次执行的SQL语句存在问题,且真实业务数据量大,便会导致速度极慢的问题。 【补充】 脏页 :当内存

    2023年04月24日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包