zl程序教程

您现在的位置是:首页 >  IT要闻

当前栏目

DPDK 内存管理---malloc_heap和malloc_elem

2023-02-19 12:21:04 时间

博文是基于dpdk20.5代码阅读所写,如理解有错误或不当之处,烦请指正,不甚感激。也可以私信我一起探讨。

  • 两种数据结构体介绍

Malloc 库内部使用了两种数据结构类型(可以参考dpdk官方文档3.4.4章节介绍):

  • struct malloc_heap:用于在每个 CPU Socket 上跟踪和管理可用内存空间。

全局变量rte_config.mem_config->malloc_heaps[32],一个numa节点对应一个malloc_heaps[x],

  • struct malloc_elem:Malloc 库内部用于追踪分配和释放空间的基本要素。

管理内存的最小单位,是内存块的header,管理内存区域的大小。

  • 基本内存分布结构说明
  • malloc_elem介绍

elem是heap管理内存的基本单元,内存的添加和删除都是基于elem结构来操作的,内存块有三种状态,具体如下:

enum elem_state {
  ELEM_FREE = 0, /*表示当前elem块是空闲的*/ 
  ELEM_BUSY,     /*表示当前elem块已经被使用的*/
  ELEM_PAD       /*表示当前elem块已经使用并且是pad模式d的*/
};

一个elem被分为三个段,elem header(管理头)、data(存放数据部分)、Trailer cookie(debug打开时有效,主要用户检测内存是否存在越界) 三部分。具体分布如下:

当申请elem1块剩余空间小于elem最小内存时,会创建一个ELEM_PAD 类型的elem2块。ELEM_PAD 数据块内存状态如下,主要原因是rte_malloc 是返回data区域的首地址,通过数据首地址-malloc elem结构大小可以找到elem2块的地址,根据elem2的类型是ELEM_PAD,使用elem2地址-elem2->pad可以直接找到elem1的首地址,管理起来很方便;但是会造成内存的浪费,在频繁申请小内存时,空间浪费比较多。

malloc_elm结构还有两个比较关注的数据prev和next

这两个指针用于指向紧跟着当前 memseg 的头元素。当释放一个内存块时,该指针用于引用上一个内存块,检查上一个块是否也是空闲。如果空闲,则将两个空闲块合并成一个大块。双向链表的关系必须是前后内存连续的并且参数中msl和orig_elem,这样才能进行合并。

下面代码是判断是否在一个连续物理内存及msl块上的:

static int
next_elem_is_adjacent(struct malloc_elem *elem)
{
  return elem->next == RTE_PTR_ADD(elem, elem->size) &&
      elem->next->msl == elem->msl &&
      (!internal_config.match_allocations ||
       elem->orig_elem == elem->next->orig_elem);
}

下图是mem segs段对应连续物理内存,pre和next指针用于elem块的合并和拆分。

  • malloc_heap介绍

在EAL初始化时,所有预先分配的内存段都被设置成malloc heap的一部分,这种设置包括在每个几乎连续的内存段的开头放置一个带有free的elem内存块。然后将free 的elem内存块添加到malloc heap的free_head 链表中。

这种设置也会在运行时候发生如果支持的话(leacy mem是不支持的),在这种情况下,还会将新分配的页面添加到堆中,如果有空闲段,则与相邻的空闲段合并。

当应用程序调用类malloc函数时,malloc函数将首先索引调用线程的lcore_config结构,并确定该线程的NUMA节点。NUMA节点用于索引malloc_heap结构的数组,该数组作为参数传递给heap_alloc()函数,以及请求的大小、类型、对齐方式和边界参数。

heap_alloc()函数将扫描堆的free_list,并尝试找到适合存储所请求大小的数据的空闲块,该块具有所请求的对齐方式和边界约束。

heap堆是dpdk内存管理socket对应空间内存块,结构体中free_head[13],根据data数据部分的大小来划分的,下面也有说明,是通过双向链表来管理的。具体如下:

下面是debug下对heap结构的打印,存在内存异常的时候,可以通过串联关系来检查elem块是否存在写越界问题。

Rte_malloc 函数解读

/*这个函数从内存的大页区域分配内存。内存没有清0。在NUMA系统中,分配的内存驻留在与调用该函数的core相同的NUMA套接字上。
 * type:标识已分配对象类型的字符串(对于调试目的很有用,例如标识内存泄漏的原因)。可以为空。
 *size :申请内存的大小,单位字节
 *align:如果为0,则返回的指针对任何类型的变量都进行了适当对齐(与malloc()相同)。否则,返回的指针是align的倍数。
 *在这种情况下,它一定是2的幂。(最小对齐是cacheline大小,即64字节)
 */
void *rte_malloc(const char *type, size_t size, unsigned align)
---void *rte_malloc_socket(const char *type, size_t size, unsigned int align,int socket_arg)
  ---void *malloc_socket(const char *type, size_t size, unsigned int align,int socket_arg, 
             const bool trace_ena)
             最终调用malloc_heap_alloc()函数