X

一线数据库工程师的精彩案例分享、新特性介绍、诊断工具和诊断方法、以及常用的测试案例 -- 欢迎光临Oracle数据库中文技术支持官方微博

一个IP packet reassembles failure导致的IPC Send timeout和实例驱逐

记一个IP packet reassembles failure导致的IPC Send timeout和实例驱逐案例
一般来说,对于IPC Send timeout,可能的情况有以下几种:
1、节点本地盘CPU等待队列超高或IO繁忙、空闲物理内存用尽等,这种情况往往是相互伴随发生的,可以从OSWatcher的vmstat和iostat来发现;
2、私网网络发生丢包或异常,从OSWatcher的netstat和trace route输出中可以看到;
3、DRM或skgxp等方面的Oracle Bug,如(Doc ID 1594578.1)
 
这个案例属于上述第二种,但由于处理过程比较反复,且最后一次重现时问题指向IP reassembles failure,而不是UDP packet drop,所以记录下来以备今后参考。详细信息请下载附件文档:

 

有客户可能会问:是不是LINUX所有的系统都需要调整上面的参数呢?
从后来在网上查到的类似案例来看,RHEL方面确认这个问题基本也就出现在LINUX6.6和部分6.7中,这个问题的根本原因是在linux6.6中引入了percpu counters计数器在内核 kernel-2.6.32-477.el6, 在后面的linux 6.8(kernel-2.6.32-642.el6)和linux 6.7.x(kernel-2.6.32-573.8.1.el6)已经修复了该问题, 所以在其它配置中没有影响。

Be the first to comment

Comments ( 0 )
Please enter your name.Please provide a valid email address.Please enter a comment.CAPTCHA challenge response provided was incorrect. Please try again.