如何在Apache Arrow中定位与解决问题

这篇具有很好参考价值的文章主要介绍了如何在Apache Arrow中定位与解决问题。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

如何在apache Arrow定位与解决问题

最近在执行sql时做了一些batch变更,出现了一个 crash问题,底层使用了apache arrow来实现。本节将会从0开始讲解如何调试STL源码crash问题,在这篇文章中以实际工作中resize导致crash为例,引出如何进行系统性分析,希望可以帮助大家~

在最后给社区提了一个pr,感兴趣可以去查阅。

https://github.com/apache/arrow/pull/40817

背景

最近想修改一下arrow batch的大小,当调整为65536后发现crash,出现:

terminate called after throwing an instance of 'std::length_error'
  what():  vector::_M_default_append

然后通过捕获异常gdb找到异常位置,最后拿到堆栈,发现位置是在join里面构建哈希表侧的partition数组出了问题:

prtn_state.key_ids.resize(num_rows_before + num_rows_new);

即问题转化为:resize操作为何引发throw?

研究了一下STL代码发现,会遇到两种场景,先把STL代码精简一下贴出来给大家看看:

if (__navail < __n) {
   const size_type __len =
   _M_check_len(__n, "vector::_M_default_append");
 }

size_type _M_check_len(size_type __n, const char* __s) const {
 if (max_size() - size() < __n)
   __throw_length_error(__N(__s));
}

其中最核心的就是_M_check_len函数,看到这个判断能想起哪两种场景呢?

  • 场景1:内存确实不足了,超过了vector的max_size,此时会抛这个异常。

  • 场景2:__n传递的是一个负数,由于是size_t类型,则会变为超大值,从而抛出异常。

场景1在我们系统当中通过查看内存不会遇到,于是转到场景2,首先是猜测是个负数,然后搞了个log包,上去测试发现确实是这个问题,可以看到rows_new变为负数了。

part id 15, dop_ = 105,prtnid + 1 ranges = 0,prtnid ranges = 61434, part size:0, rows_new: -61434, cap: 0

既然这里知道原因了,那么下一步就得继续分析为何会产生负数?

num_rows_new是有分区的range决定的,下面有个公式计算产生了负数

int num_rows_new =
      locals.batch_prtn_ranges[prtn_id + 1] - locals.batch_prtn_ranges[prtn_id];

继续跟进找到PartitionSort的Eval,里面有几处非常需要注意:

ARROW_DCHECK(num_rows > 0 && num_rows <= (1 << 15));

首先第一个是这个断言,我明明传递的是65536,明显大于这里的32768,为何没有断言成功?事后发现这里是release包,只会报warning,不会fatal。

随后继续往下看,看到了一个比较明显的类型uint16_t,这个玩意就是在计算sum,而要让num_rows_new为负数,只有两种可能:

  • 场景1: locals.batch_prtn_ranges[prtn_id + 1] < locals.batch_prtn_ranges[prtn_id]

  • 场景2:  locals.batch_prtn_ranges[prtn_id + 1] 是负数且locals.batch_prtn_ranges[prtn_id]是负数或者locals.batch_prtn_ranges[prtn_id + 1] 是负数且locals.batch_prtn_ranges[prtn_id]也是负数并且大于前者。

uint16_t sum = 0;
for (int i = 0; i < num_prtns; ++i) {
  uint16_t sum_next = sum + prtn_ranges[i + 1];
  prtn_ranges[i + 1] = sum;
  sum = sum_next;
}

看了这段代码可以知道,场景1排除了,因为是自增的,最差情况是相等,那么就只能场景2,变为负数就不用说了,又碰到了溢出问题,所以可以推测uint16_t溢出了,这个值我们知道是65535,而65536刚好超过它,所以有问题!

至此,这一轮的debug调试与分析到此结束~


往期干货:

热度更新,手把手实现工业级线程池

快速拿下面试算法

如何在Apache Arrow中定位与解决问题,apache

如何在Apache Arrow中定位与解决问题,apache文章来源地址https://www.toymoban.com/news/detail-855484.html

到了这里,关于如何在Apache Arrow中定位与解决问题的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Go语言开发者的Apache Arrow使用指南:内存管理

    如果你看了上一篇《Go语言开发者的Apache Arrow使用指南:数据类型》 [1] 中的诸多Go操作arrow的代码示例,你很可能会被代码中大量使用的Retain和Release方法搞晕。不光大家有这样的感觉,我也有同样的feeling:**Go是GC语言 [2] ,为什么还要借助另外一套Retain和Release来进行内存管理

    2024年02月11日
    浏览(39)
  • Apache Arrow: The Definitive Guide to CrossLanguage Data Interoperability

    Apache Arrow 是一个跨语言的数据交换格式和计算引擎,旨在提高数据科学家和工程师在处理大数据集时的性能和效率。它为多种编程语言(如 Python、Java、C++、R、Julia 等)提供了一种共享内存的数据结构,以便在不同语言之间轻松共享和操作数据。 Apache Arrow 的核心设计思想是通

    2024年04月13日
    浏览(65)
  • Apache Doris 支持 Arrow Flight SQL 协议,数据传输效率实现百倍飞跃

    近年来,随着数据科学、数据湖分析等场景的兴起,对数据读取和传输速度提出更高的要求。而 JDBC/ODBC 作为与数据库交互的主流标准,在应对大规模数据读取和传输时显得力不从心,无法满足高性能、低延迟等数据处理需求。为提供更高效的数据传输方案,Apache Doris 在 2.

    2024年04月15日
    浏览(30)
  • Apache DolphinScheduler中ZooKeeperCDH不兼容问题的解决方案

    看到Apache DolphinScheduler社区群有很多用户反馈和讨论这块问题,针对不兼容的问题,不仅需要自己重新编译各一个新包,而且因为默认是使用zk-3.8的配置,所以会出现不兼容问题。使用zk-3.4配置即可适配3.4.x 上述命令解释 指定多线程编译,可以增加~ 拓展 Maven中-DskipTests和-D

    2024年02月19日
    浏览(31)
  • Apache Dolphinscheduler如何不重启解决Master服务死循环

    Apache Dolphinscheduler作为一个开源的调度平台,目前已经更新到了3.X版本,4.0版本也已经呼之欲出。3.0版本作为尝鲜版本,新添加了许多的功能,同时也存在非常多的隐患,本人使用3.0版本作为生产调度也踩了很多坑,到现在依然存在很多难以解决的问题,所以建议小伙伴们尽

    2024年02月06日
    浏览(28)
  • 完美解决:apache log4j cannot resolve问题

    引入下列pom文件

    2024年02月16日
    浏览(34)
  • 解决从官网下载apache-jmeter安装包超时的问题

    各位研究性能测试工具jmeter的小伙伴,可能会遇到去apache官网下载相关版本的jmeter,出现超时或网络中断等异常情况的问题。如下图: 明明本地网络网速飞快,为啥只有80几M的安装包,评估出来的下载时间却要2小时,8小时,甚至好几天!!!更要命的是会大概率遭遇网络出

    2024年02月07日
    浏览(41)
  • java.lang.NoClassDefFoundError: org.apache.poi.POIXMLDocument问题排查解决

    项目打包部署完成,用jar包在部署环境运行,在使用到poi相关的服务时报错 java.lang.NoClassDefFoundError: org.apache.poi.POIXMLDocument 然后我查找了些解决办法,对处理方法做了梳理: 使用XSSWorkbook,使用时出错 pom文件少引入依赖 包依赖冲突 使用模块没有声明所需依赖(这是我遇到的

    2024年02月06日
    浏览(75)
  • Apache poi xwpf word转PDF中文显示与页码问题解决

    目录 POM依赖 核心配置代码 PDF下载流问题 WPS模板问题 原问题解决方法:https://github.com/opensagres/xdocreport/issues/161 请记住,word转换如果没问题,那么就要设置pdf的字体,这个是铁律! 将PdfOptions提出来作为方法使用 注意前端PDF文件流空白问题参考以下方案进行处理 js下载PDF文件

    2024年02月07日
    浏览(44)
  • hadoop解决文件上传问题(DataStreamer Exceptionorg.apache.hadoop.ipc.RemoteException)

    完成Hadoop环境搭建后,使用Hadoop shell命令时---上传本地文件到HDFS的目录下,出现如下报错:          通过查资料,应该是我多次执行NameNode格式化导致的(因为多次格式化namenode会造成namenode和datanode 的 clusterID不一致 !每次格式化时,namenode会更新clusterID,但是datanode只会

    2023年04月24日
    浏览(24)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包