FreeBSD下的工具(sysctl、netstat等)如何移植到F-Stack

F-Stack基于DPDK,绕过内核的协议栈,移植了FreeBSD协议栈到用户态,在大幅提高性能的同时,常规网络设置分析工具(如sysctl、netstat、ifconfig、route等)都无法直接使用。但是由于在用户态运行了FreeBSD的协议栈,我们可以移植FreeBSD下的这些工具到F-Stack。

移植的关键是这些工具要能与F-Stack进程通信,在之前的文章中,我们介绍了如何使用DPDK rte_ring来进行多进程的通信,tools/ipc目录就是基于rte_ring实现了一个简单的ipc框架。下面以sysctl为例,介绍一下如何移植到F-Stack。

查看FreeBSD 11.0.1 /sbin/sysctl的源码,可以发现是通过系统调用sysctl来与内核进行通信的,我们需要替换掉的就是这个函数。

首先在lib/ff_msg.h中,定义了用于通信的结构体struct ff_msg,暂时只实现了sysctl,后续会加上sysctlbyname、ioctl等其他工具移植需要的系统调用。

/* MSG TYPE: sysctl, sysctlbyname, etc.. */
enum FF_MSG_TYPE {
    FF_UNKNOWN = 0,
    FF_SYSCTL,
};

struct ff_sysctl_args {
    int *name;
    unsigned namelen;
    void *old;
    size_t *oldlenp;
    void *new;
    size_t newlen;
};

#define MAX_MSG_BUF_SIZE 10240

/* structure of ipc msg */
struct ff_msg {
    enum FF_MSG_TYPE msg_type;
    /* Result of msg processing */
    int result;
    /* Length of segment buffer. */
    uint16_t buf_len;
    /* Address of segment buffer. */
    char *buf_addr;

    union {
        struct ff_sysctl_args sysctl;
    };
} __attribute__((packed)) __rte_cache_aligned;

lib/ff_dpdk_if.c中,F-Stack初始化时会创建单个元素长度为MAX_MSG_BUF_SIZE的内存池message_pool,通信时从message_pool里取出元素,转换成struct ff_msg,这里有个要注意的地方,ff_msg.sysctl里的指针成员(name、old等)必须指向ff_msg.buf_addr到ff_msg.buf_addr+ff.msg_buf_len之间的地址(ff_msg.buf_len=MAX_MSG_BUF_SIZE-sizeof(struct ff_msg)),不能使用自己申请的内存地址,这是因为用于通信的数据必须使用rte_mempool中的共享内存,否则另一端会出现未知的错误。

处理流程:从ring中出队列,取出msg,判断是FF_SYSCTL类型,然后执行ff_sysctl函数获取或设置FreeBSD内核的状态参数,最后再把msg入队列。这里出入的ring是单生产者单消费者模式的,使用了两个,一个用于F-Stack出,工具入,一个用于F-Stack入,工具出。

static inline void
handle_sysctl_msg(struct ff_msg *msg, uint16_t proc_id)
{
    int ret = ff_sysctl(msg->sysctl.name, msg->sysctl.namelen,
        msg->sysctl.old, msg->sysctl.oldlenp, msg->sysctl.new,
        msg->sysctl.newlen);

    if (ret < 0) {
        msg->result = errno;
    } else {
        msg->result = 0;
    }

    rte_ring_enqueue(msg_ring[proc_id].ring[1], msg);
}

static inline void
handle_default_msg(struct ff_msg *msg, uint16_t proc_id)
{
    msg->result = EINVAL;
    rte_ring_enqueue(msg_ring[proc_id].ring[1], msg);
}

static inline void
handle_msg(struct ff_msg *msg, uint16_t proc_id)
{
    switch (msg->msg_type) {
        case FF_SYSCTL:
            handle_sysctl_msg(msg, proc_id);
            break;
        default:
            handle_default_msg(msg, proc_id);
            break;
    }
}

static inline int
process_msg_ring(uint16_t proc_id)
{
    void *msg;
    int ret = rte_ring_dequeue(msg_ring[proc_id].ring[0], &msg);

    if (unlikely(ret == 0)) {
        handle_msg((struct ff_msg *)msg, proc_id);
    }

    return 0;
}

然后看下sysctl中的处理,这里我们实现了一个新的函数sysctl_ipc用来替换原来的系统调用sysctl:

int sysctl_ipc(uint16_t proc_id, int *name, unsigned namelen, void *old,
    size_t *oldlenp, const void *new, size_t newlen);

因为F-Stack是多进程架构,并且每个进程都有一个独立的FreeBSD栈,所以新增了一个参数proc_id,用于指定与哪个F-Stack进程通信,这个算是一个不方便的地方。其他参数都与原生sysctl的一样。

sysctl_ipc的实现流程:从mempool中获取ff_msg对象,设置参数,入ring队列,出ring队列,输出返回信息。

struct ff_msg *msg = ff_ipc_msg_alloc();

char *buf_addr = msg->buf_addr;
msg->msg_type = FF_SYSCTL;
msg->sysctl.name = (int *)buf_addr;
msg->sysctl.namelen = namelen;
memcpy(msg->sysctl.name, name, namelen*sizeof(int));
buf_addr += namelen*sizeof(int);

........

ff_ipc_send(msg, proc_id);

ff_ipc_recv(&retmsg, proc_id);

.....

ff_ipc_msg_free(msg);

另外由于是移植的FreeBSD下的sysctl,所以它的头文件、结构体在Linux下可能没有,需要根据实际情况进行增删。 具体的代码可以查看tools/ipctools/sysctl目录。

运行效果:

除了新增加了一个-p参数用于指定与哪个F-Stack进程通信外,其他参数与原生FreeBSD一致,具体可参考man page。

根据这个例子,我们可以对其他工具进行移植,如ifconfig、route、netstat等。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏linux驱动个人学习

Linux CFS调度器之队列操作--Linux进程的管理与调度(二十七)

完全公平调度器CFS中有两个函数可用来增删队列的成员:enqueue_task_fair和dequeue_task_fair分别用来向CFS就绪队列中添加或者删...

962
来自专栏Java编程技术

UML建模(状态图)

状态机图是一种行为图,它通过使用有限的状态转移展示了一个系统中一个模块的一些离散的行为,在UML2.4里面有两种状态机图:行为状态机(behavioral st...

832
来自专栏用户2442861的专栏

牛人整理分享的面试知识:操作系统、计算机网络、设计模式、Linux编程,数据结构总结

牛人整理分享的面试知识:操作系统、计算机网络、设计模式、Linux编程,数据结构总结

1854
来自专栏闻道于事

vim命令

681
来自专栏大史住在大前端

webpack4.0各个击破(7)—— plugin篇

plugin机制是webpack中另一个核心概念,它基于事件流框架tapable,你可以参考浏览器环境中的【DOM事件模型】,【SPA模型中的生命周期钩子】或是...

1312
来自专栏非典型程序猿

从源码透析gRPC调用原理

gRPC是如何work的,清楚的理解其调用逻辑,对于我们更好、更深入的使用gRPC很有必要。因此我们必须深度解析下gRPC的实现逻辑,在本文中,将分别从客户端和...

2.1K8
来自专栏友弟技术工作室

vim精简版教程

vim编辑器 ? vim trree 编辑器的分类 文本编辑器,ASCII码 字处理器:word 全称 vi:Visual interface vim: Vis...

2205
来自专栏技术碎碎念

OS存储器管理(二)

离散分配 分页(Paging),分段,段页式 一、分页 一个进程的物理地址可以是非连续的; 将物理内存分成固定大小的块,称为块(frame); 将逻辑内存分为同...

3288
来自专栏python3

python xml模块

xml是实现不同语言或程序之间进行数据交换的协议,跟json差不多,但json使用起来更简单,不过,古时候,在json还没诞生的黑暗年代,大家只能选择用xml呀...

831
来自专栏牛客网

秋招java后端一些公司面经分享

oppo: 一面: java并发包,线程池相关 安全集合类 加密 网络问题:解决多次重复请求 socket编程 知道哪些设计模式 ... 二面: 64人  八跑...

3898

扫码关注云+社区