持久化内存编程库libpmem源码阅读-3 lib初始化

C语言 | 2020-11-06 12:36:35 | 0 COMMENT

libpmem有一个初始化操作在函数pmem_init里, 里边有初始化的一系列操作，东西太多，主要就是查架构，定下以后使用的函数等。我这里根据当前CPU架构，只看了需要用到的内容. 首先通过pmem2_arch_init(&info);初始化info。在libpmem2/x86_64/init.c里，pmem_cpuinfo_to_funcs(info, &impl);这个函数是判断flush支持的指令，从最低级开始判断，如果高级的支持，就直接替换。这个我看过cpuinfo是支持clwb，所以info->flush = flush_clwb; info->flush_has_builtin_fence = 0; info->fence = memory_barrier;。这里边很多环境变量的获取判断，都是调试或者制定模式的，这里先不管这些。SIMD支持avx512f，所以也直接看这个了，初步看着这个好像是为了MOVNT准备的就是ntstore，主要就定义一个memmove_nodrain。然后这里info就初始化完了。 flush_clwb,为flush_clwb_nolog(addr, len);在libpmem2/x86_64/flush.h里定义的： static force_inline void flush_clwb_nolog(const void *addr, size_t len) { uintptr_t uptr; /* * Loop through cache-line-size (typically 64B) aligned chunks * covering the given range. */ for (uptr = (uintptr_t)addr & ~(FLUSH_ALIGN - 1); uptr < (uintptr_t)addr + len; uptr += FLUSH_ALIGN) { pmem_clwb((char *)uptr); } } FLUSH_ALIGN为64，所以其实数据结构能对齐64B应该是好的，但是想了想应该没办法对齐。所以还是得计算对齐地址，但是小数据可以不需要for了，这个可以定制。pmem_clwb为CLWB void _mm_clwb(void const *p);这个gcc应该是支持的，等查一查，官方为了兼容，直接汇编实现的。memory_barrier为_mm_sfence();这个clwb是必须的。回到pmem_init，初始化了Funcs系列函数，这些跟info里的一样的，不在写具体逻辑到这里了。最后pmem_os_init(&Is_pmem);这个就是第二篇里边的判断函数的初始化，暂时不细看了。 pmem_flush就是调用的flush_clwb,pmem_drain就是调用的memory_barrier,pmem_persist就是先flush后pmem_drain,pmem_memcpy就是先memmove_nodrain，然后drain，这里的特殊env控制就不管了。pmem_memcpy_nodrain就是只是少了pmem_drain这一步。pmem_memcpy_persist这个是不管env的肯定drain. flush_empty这个不干事，只是通知pmemcheck。还剩最后一块memmove_nodrain = memmove_nodrain_avx512f_clwb。这个我之前看的时候，搜代码都搜不到，还好统看了一下代码文件，发现是个模板搞的。MEMCPY_TEMPLATE(avx512f, clwb, /* */)。 pmem_memcpy_nodrain调用的时候，flag传了一个0，所以没有flag的，调用的是memmove_movnt_avx512f_clwb。长度小于256单位应该是Byte吧，因为是传过来的len，使用memmove_mov_avx512f_clwb,其他情况是通过flag来决定的，这个可以通过pmem_memcpy可以传参数，属于最灵活的调用方式了，也可以指定是否pmem_drain。 memmove_mov_avx512f_clwb在libpmem2/x86_64/memcpy/memcpy_t_avx512f.c里，先通过if ((uintptr_t)dest - (uintptr_t)src >= len)来判断两块内存是否相交，然后选择不同方法。这里可以优化，想了想我要写的代码没有重叠内存，所以可以优化。看memmove_mov_avx512f_fw里主要就是不同长度选择使用不同函数就复制数据。我查看小数据的复制，是用的转成uint来进行赋值拷贝的。也用了循环展开优化数据复制。这里边的持久化用的pmem_clwb，这个是为已经对齐的地址准备的，看来我能想到的官方肯定都想到了啊。mov的指令都是使用的avx指令load和store. memmove_movnt_avx512f_clwb在memcpy_nt_avx512f.c里，这里也判断了数据重叠问题，但是没看懂的是这里需要flush，但是不需要barrier.我觉得不应该正好反过来吗。。这里用的是load和stream指令来移动数据，移动完跟想的一样是没有flush的，flush是为的开头结尾的小数据准备的。两种移动数据都不需要barrier，可能是为了集中控制，把是否barrier的权限放到接口里决定。现在具体看看也没有多少可以优化的，一个是flush的for循环，一个是memcpy的判断内存重叠的问题。不过每次减少两个判断，收益也不少了。再一个确认一下初始化是否算时间，把初始化的时间也优化了。后期移植的时候又发现一个，在avx实现的拷贝过程中，是按2kb的数据块进行的ntstore。比赛最高1kb，所以这里可以去掉，从1kb开始判断就行了。

上一篇: 持久化内存编程库libpmem源码阅读-2初始化mmap
下一篇: 参加两次数据库比赛的总结

Categories: 博客记录

持久化内存编程库libpmem源码阅读-3 lib初始化

相关文章：

0 Responses so far.

Leave a Reply