Archive for 算法-编程

持久化内存编程库libpmem源码阅读-2初始化mmap

C语言 | 2020-11-06 12:35:54 | 0 COMMENT

libpmem主要通过pmem_map_file封装来进行mmap的映射，首先通过util_file_get_type获取文件类型，主要区分文件是否存在，DAX设备文件。比赛用的fsdax，这个主要通过mmap来实现的寻址操作,挂载路径为/dev/pmem/。还有devdax，这个好像是给虚拟机分配的时候用这个模式，挂载路径为/dev/dax/。还有sector和raw模式。文件支持的flag有(PMEM_FILE_CREATE|PMEM_FILE_EXCL|PMEM_FILE_SPARSE|PMEM_FILE_TMPFILE),dax设备支持的flag有(PMEM_FILE_CREATE|PMEM_FILE_SPARSE). 然后判断是dax后，判断len必须是0或者文件大小。open_flags默认有O_RDWR，如果flag有PMEM_FILE_CREATE则open_flags添加O_CREAT。后边判断传了len必须有PMEM_FILE_CREATE,len为0必须没有PMEM_FILE_CREATE.PMEM_FILE_TMPFILE必须有PMEM_FILE_CREATE.之后os_open(path, open_flags, mode)打开文件。如果flag带有PMEM_FILE_CREATE，则os_ftruncate文件，没有PMEM_FILE_SPARSE，则os_posix_fallocate(fd, 0, (os_off_t)len))文件。这里看不太懂，看手册这俩函数基本是等价的。如果没有PMEM_FILE_CREATE,则获取真是文件大小，重新复制len。然后pmem_map_register，在pmem_posix.c里，调用util_map,传了MAP_SHARED。在common/mmap.c里肯定有PROT_READ|PROT_WRITE，然后调用util_map_hint，这个主要就是确定mmap地址的，调试有参数可以固定虚地址的，这个看书看过。基本用不上。好像是通过mmap MAP_PRIVATE找一个mmap对齐的地址。 req_align为零，align = GIGABYTE。#define GIGABYTE ((uintptr_t)1 << 30)。这里脑袋有点浆糊了，不具体看就是找个一个对齐地址，然后后边用来mmap pmem文件使用，先这样吧。然后util_map_sync，地址是刚返回的地址，在这里mmap了。然后复制len和is_pmemp。关闭fd，就结束了。pmem_is_pmem里边东西还挺多，有调试相关，乱七八糟一堆，主要是在初始化指定默认判断函数，然后在这里如果有env或者其他情况进行函数转换，然后掉函数看结果，不细看了，因为比赛肯定为pmem。其实总结一下流程很简单，先打开文件，设置文件大小。然后mmap寻找一个对齐地址，最后真正mmap，返回。

持久化内存编程库libpmem源码阅读-1基础

C语言 | 2020-11-06 12:35:37 | 0 COMMENT

参加了个阿里的kv数据库比赛，接触到持久化内存的概率，到现在对这里理解的也不是太深入，只管总结一下。看了官方的书，还有一些代码和官方视频，但是为了参加比赛，还是觉得研究一下代码。初步看了看发现能在比赛上优化的地方还挺多的，所以决定慢慢总结和移植一下。持久化内存（Persistent Memory）我看网上好像概念已经老早就有了，我是第一次知道，也记不住讲不清。总的来说就是可以掉电不丢数据的内存，是嫌ssd慢了，又出来一个算是ssd和内存的中间层。还有两种模式，可以当普通内存用，相当于扩展普通内存的容量。或者当持久内存用，可以保证掉电不丢数据和快速的读写速度。 libpmem是intel开发的持久化内存开发组件（Persistent Memory Development Kit）里的一个库，属于底层库，libpmemobj等库都是在这基础上开发的。比赛用到，基本不考虑libpmemobj这库，集成太厉害了，libpmem我大体看了代码发现也可以修改移植，能优化不少。而且因为我c语言经验不多，看了源码后发现能学很多东西。所以决定阅读总结加移植代码。大体的使用思路就是，基于系统调用mmap进行pmem的进程空间地址的映射，这里是内核原生支持了。所以这玩意应该出了很久了，才刚听说，感觉阿里应该属于用的比较早的。之后就跟正常使用内存一样了，而这些操作都是在用户空间，所以效率理论上还有优势，虽然本身速度赶不上内存。持久化操作需要将cpu cache里的数据踢出到内存(evict)，刷新到持久内存上。基本情况就这样，下边看几个基础文件。学到很多代码 core/util.h util.c 这俩都是常用函数集合 #define force_inline __attribute__((always_inline)) inline #define NORETURN __attribute__((noreturn)) #define barrier() asm volatile("" ::: "memory") 第一个从名字就看出来是强制函数inline，第二个是有时候写的分支没有返回时编译器会有报错，这个可以告诉编译器不要报错。第三个是内存栅栏。 typedef uint64_t ua_uint64_t __attribute__((aligned(1))); 能够指定最少字节对齐数，受连接器限制，不会超过连接器大小。感觉没啥用，但是也可能以后用上，学到东西了。 util_setbit, util_clrbit这个是位操作，这个是会的 util_is_pow2, return v && !(v & (v - 1)); 判断是否是2的幂 __builtin_ctz，__builtin_clz，这个是判断一个数，从开头或者从结尾有多少个零的，厉害了。其他的就没啥了，看看util.c util_is_zeroed检查内存为0，应该用不到，记录下。util_checksum_compute,这是是计算一块内存的checksum，已移植，不知道会不会比hash快，这个应该比hash准确，但是比赛还是讲究速度，到时候试试。算法好像是Fletcher64。 valgrind好像能模拟cpu环境，调试程序的，好像书里有写，没太看内容，先记录。 Mmap_align好像用来分配对齐的，这里不知道干啥的，先跳过记录。linux下直接分配的Pagesize = (unsigned long) sysconf(_SC_PAGESIZE) util_concat_str连接字符串，没用记录.util_localtime获取时间，没用记录其他的基本用不上了，主要看书看到原理的地方，发现checksum相关内容，有用到，就搜了一下源码，看到这些代码。

R语言devtools包和单元测试testthat包

R | 2020-11-05 15:18:00 | 0 COMMENT

devtools包能够方便在开发R语言包时，测试，文档生成，安装包等操作。 testthat包是单元测试的包，这里要写单元测试了。 devtools的安装需要提前安装一些依赖，不然安装会报错，我的是ubuntu系统，需要安装一下依赖 apt install libxml2-dev libcurl4-openssl-dev 安装完这俩软件，再安装就可以了，具体是否依赖其他软件就不清楚了，我这里是少这俩，官方文档也不太友好。我是先创建的package在安装的devtools，发现现在没有好的方法添加test文件了，我是使用的testthis包进行创建的，这个三个包都是一个公司出的，testthis包的内容没看全，看起来是devtools所有相关功能都是在这里实现的。 use_test() 可以安装目录文件创建tests文件及内容，还有NAMESPACE文件依赖的修改等可以使用use_test('hello.R')生成制定文件的test文件，我看文件命名规则基本生成test-hello.R，context为hello。 test_that("multiplication works", { expect_equal(2 * 2, 4) }) 执行test()或者使用RStudio里的build菜单执行单元测试

R语言使用RMariaDB连接数据库获取数据

R | 2020-10-30 18:07:01 | 0 COMMENT

网上最常用的R语言连接数据库的包是RMySQL，但是我看RMySQL推荐使用RMariaDB，RMySQL以后会不在维护。所以使用RMariaDB了，这个使用上应该没啥区别，因为他们都使用了DBI包，规范了数据库接口的定义。结合上一篇讲全局变量的问题，我存在了options里代码如下 db_config <- getOption("db_config") con <- dbConnect(RMariaDB::MariaDB(), dbname=db_config$db, username=db_config$user, password=db_config$password, host=db_config$host) print(con) print(dbListTables(con)) dbDisconnect(con)

R语言自定义包编写安装

R | 2020-10-30 15:55:37 | 0 COMMENT

包初始化创建我是用的rstudio，创建的r package项目。然后可以build菜单选择build source package，右侧的build窗口可以check，install，非常快的点击就完成了也可以用命令做 R CMD build tpk R CMD CHECK R CMD INSTALL tpk 这里我傻了吧唧，命令行操作的时候， install 后面跟了个tar包全名，导致后边用install.package时候也是用的全名，导致查错误也每个结果。搞了半天发现名字不对。

R语言包中全局变量、常量问题

R | 2020-10-30 15:47:31 | 0 COMMENT

没有系统学过r的坏处体现出来了，现在想到什么就要去搜什么。常量好像在R中是不存在的，sof上看到一个例子，但是没啥用，还不如直接注释声明。 a <- 1 lockBinding("a", globalenv()) a <- 2 Error: cannot change value of locked binding for 'a' 非包中全局变量，可以使用<<-来保证局部变量引用的全局变量，但包内的不知道。通过查找，基本实现方式一个是通过myenv <- new.env()来实现，这个返回类型为environment，还没有细看。还有一种实现方式是使用.onLoad，在包加载的时候可以调用的一些列函数。一般声明在zzz.R文件中，这个文件名是约定俗成的。

R语言，项目目录设计，和一些代码规范

R | 2020-10-30 13:34:39 | 0 COMMENT

要写项目就需要想到这些，因为没有经验，只能网上找一些项目或者搜一些规范。大部分都是package的项目，所以我找文章找到一些规范。 https://www.r-bloggers.com/2018/08/structuring-r-projects/ 这篇文章介绍比较全面，目录结构大部分按他这个来了。其中对于library(package)载入包的情况进行了说明，可以使用package::function(arg1, arg2, ...)来调用不常用包的函数，这个方式的好处是不会打乱命名空间，除非知道这些包没有冲突，不然确实出现问题不一定好排查。（提前看文章避免了坑）还有一些代码规范，但是我应该之会借鉴一部分变量命名方式，像参数空格这种我就不准备用了。 http://stat405.had.co.nz/r-style.html 然而查了一大顿之后，我决定还是把项目组织成R语言 package的目录结构，因为那个比较规范，也有文档测试啥的目录，很清晰。具体需要参考https://cran.r-project.org/doc/manuals/R-exts.pdf官方文档了

R语言不明确的作用域机制和force函数的作用

R | 2020-10-30 12:32:00 | 0 COMMENT

刚研究了log4r的使用，就想着也不是什么大包，自己也没写r项目的经验，看看源码学习一下吧。然后在appender里看file_appender的时候，看到了一个force函数。本能的去Rstudio上查了一下文档，因为软件看文档比终端好一点。然后发现这个不简单啊。幸好之前写过python对这种坑机制有了解，感觉上R与Python很多地方相似。安装文档说明，R函数的参数在定义的闭包中使用的时候，比如在循环和apply函数的调用，会导致从变量作用域中获取这些参数变量，也就是所谓的惰性求值。虽然我现在看的文档中还没有涉及变量作用域的问题，感觉在R中应该和在Python中是差不多的，循环体是不具有变量作用范围的保证的。而force函数能保证这个参数被执行求值，从而保证闭包里作用域里的变量的值的变化。 ?force文档里有个例子很好的说明了这一点。

R语言日志包log4r

R | 2020-10-30 11:11:27 | 0 COMMENT

看log4r的名字就感觉跟log4j有渊源啊，其中还要好多个日志包，最后决定log4r和logging里边一个，logging是仿的python日志模块的包，但是我最后没选这个，主要是因为接口设计的不太好，就选择了log4r。安装包 install.packages("log4r") 使用 library(log4r) logger <- logger("INFO", appenders = file_appender("log/base.log")) info(logger, "info") debug(logger, "debug") error(logger, "error") 使用的时候有几个点需要注意，我目前安装最新的版本是 0.3.2，但是?log4r的文档版本是0.2，然后我用那个文档里的老接口和github上的新接口混用，导致日志文件没更新成功。后来才意识到文档不对。日志文件在输出第一条日志的时候才会创建。

R语言和Python简单对比

R | 2020-10-29 14:36:24 | 0 COMMENT

找了点关于python和r语言的对比文章看了看，总结了下边几条。 R 统计模型新可视化，动态报告稍微领先统计，数据分析，领域专用 Python 效率领先语言稳定规范数据清洗方便工程开发，领域广我刚开始学习R语言，还没有太多体会，不过从语言层面，感觉R语言的语法分析系统都不完善，不知道为啥函数参数的缺少只能运行时知道，不知道有没有别的作用。