前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >openvswitch group hash实现代码分析

openvswitch group hash实现代码分析

作者头像
惠伟
发布2021-02-24 11:26:55
1K0
发布2021-02-24 11:26:55
举报
文章被收录于专栏:虚拟化笔记虚拟化笔记

https://zhuanlan.zhihu.com/p/273536550​zhuanlan.zhihu.com

https://zhuanlan.zhihu.com/p/337133528​zhuanlan.zhihu.com

写完设计和实现原理,现在写代码分析,为什么非得分析代码,一是因为不明白好搞明白,二是因为碰到了问题,只怪自己当时头脑一热给leader说自己有更好的方案,自己提的方案含着泪也得实现完,有克服不了的困难也得workaround。

代码分析

ovs版本是2.11.0,linux版本是linux-3.10.0-693.21.1.el7。

只拿ovs实现的group hash和dp_hash举例分析代码,通过一个点一个功能切入代码,漫无目的看代码是很难看懂的,必须带着一个疑问看代码,点多了全面开花,从点到面,慢慢就搞定代码了。

代码分析的场景就是一个虚拟机中curl一个vip。

ovs都说首包从datapath上送到vswitchd那就找找vswitchd从哪开始处理首包的。

代码语言:javascript
复制
main
 └─bridge_run
    └─bridge_reconfigure
       └─ofproto_create
          └─construct
             └─open_dpif_backer
                ├─udpif_create
                |   └─dpif_register_upcall_cb//kernel为NULL,用于DPDK
                ├─udpif_set_threads
                |  └─dpif_handlers_set
                └─udpif_start_threads
                   └─udpif_upcall_handler
                      ├─dpif_recv
                      |  └─dpif_netlink_recv
                      |     └─dpif_netlink_recv__
                      |        └─parse_odp_packet
                      └─recv_upcalls

vswitchd启动时创建了udpif_start_threads几个thread,这几个thread循环调用recv_upcalls处理上送的首包。

再找datapath首包是在什么地方上送的。

代码语言:javascript
复制
#linux kernel datapath
ovs_vport_receive
  ├─ovs_flow_key_extract
  |   └─key_extract
  └─ovs_dp_process_packet
      ├─if ovs_flow_tbl_lookup_stats
      |   └─ovs_dp_upcall
      |      └─queue_userspace_packet
      |          └─ovs_nla_put_key
      |              └─__ovs_nla_put_key
      └─else ovs_execute_actions
          ├─case OVS_ACTION_ATTR_OUTPUT
          └─do_output
              └─ovs_vport_send

首包来了先从skb上ovs_flow_key_extract生成flow key,再根据key查找 表ovs_flow_tbl_lookup_stats,查找不到,那就上送vswitchd。

vswitchd收到开始处理,包来的ofport是知道,这个ofport在哪个桥上是知道的,那就从这个桥的table 0开始查找,匹配上了就执行动作,如果碰到goto或者resubmit那么就换个table继续查找,如果碰到normal或者output patch port,那么就换桥了,现在假如到了br-tun桥了,继续从table 0开始查找,最后到了table 20,动作是group:1001,要执行pick_select_group。

如果是hash,找到bucket,然后xlate_group_bucket,安装流表,下发datapath执行动作。

如果是dp_hash,此时flow中在hash值为空,找不到bucket,找不到就触发ctx_trigger_recirculate_with_hash,来了一次freezing,而finish_freezing中给datapath下的消息中添加了两个动作OVS_ACTION_ATTR_HASH和OVS_ACTION_ATTR_RECIRC,安装一条流,这给条是这样的:

代码语言:javascript
复制
ufid:f4352588-1396-47a7-aff7-98ce54931e72, recirc_id(0),dp_hash(0/0),skb_priority(0/0),in_port(tap240cf299-12),skb_mark(0/0),ct_state(0/0),ct_zone(0/0),ct_mark(0/0),ct_label(0/0),eth(src=fa:16:3e:e5:cb:19,dst=fa:16:3e:ec:85:20),eth_type(0x0800),ipv4(src=0.0.0.0/0.0.0.0,dst=0.0.0.0/0.0.0.0,proto=0/0,tos=0/0,ttl=0/0,frag=no), packets:9, bytes:978, used:1.972s, flags:P., dp:ovs, actions:push_vlan(vid=30,pcp=0),hash(l4(0)),recirc(0x5a6)

包又下给了datapath。

代码语言:javascript
复制
recv_upcalls
 ├─odp_flow_key_to_flow
 ├─upcall_receive
 |  └─xlate_lookup
 |     └─xlate_lookup_ofproto_
 ├─process_upcall
 | └─upcall_xlate
 |   ├─xlate_in_init
 |   ├─xlate_actions
 |   |  ├─rule_dpif_lookup_from_table
 |   |  |  └─rule_dpif_lookup_in_table
 |   |  ├─rule_get_actions
 |   |  └─do_xlate_actions
 |   |     ├─freeze_unroll_actions
 |   |     |  └─freeze_put_unroll_xlate
 |   |     ├─xlate_group_action
 |   |     |  ├─pick_select_group//报文第一次找不到bucket
 |   |     |  |  └─pick_dp_hash_select_group
 |   |     |  |     └─ctx_trigger_recirculate_with_hash
 |   |     |  └─xlate_group_bucket//第二次找到bucket才执行这里
 |   |     |     ├─ofpacts_execute_action_set
 |   |     |     └─do_xlate_actions//相当于递归了
 |   |     └─finish_freezing//报文第一次来执行这里
 |   |        ├─xlate_commit_actions
 |   |        |  └─commit_odp_actions
 |   |        └─finish_freezing__
 |   |           ├─recirc_alloc_id_ctx
 |   |           ├─把OVS_ACTION_ATTR_HASH和OVS_ACTION_ATTR_RECIRC下给datapath 
 |   |           └─ctx_cancel_freeze
 |   └─ukey_create_from_upcall
 └─handle_upcalls
    └─dpif_operate
       ├─ukey_install
       └─dpif_operate//给datapath安装流表和把skb发回内核
          ├─if dpif_netlink_operate
          └─else dpif_execute_with_help
             └─odp_execute_actions
                ├─计算hash
                └─dpif_execute_helper_cb
                   └─dpif_operate         

继续看datapath接着怎么处理,匹配上刚才看的那条流了,计算hash值,执行recirc,又重头开始了,key要找不到了,再上送vswitchd。

代码语言:javascript
复制
ovs_packet_cmd_execute
  ├─ovs_flow_key_extract_userspace
  ├─ovs_nla_copy_actions
  └─ovs_execute_actions
     └─do_execute_actions
         ├─case OVS_ACTION_ATTR_HASH
         |   └─execute_hash
         |       └─skb_get_hash
         |           └─__skb_get_hash
         └─case OVS_ACTION_ATTR_RECIRC
             └─ovs_dp_process_packet

vswitchd重复刚才的处理,这次key中多了个hash值,终于找到bucket了,又下了一条流,包再下发给datapath。

代码语言:javascript
复制
ufid:ee6e45b0-4e62-43e9-8a6c-87573ece1cc7, recirc_id(0x5a6),dp_hash(0x9/0xf),skb_priority(0/0),in_port(tap240cf299-12),skb_mark(0),ct_state(0/0),ct_zone(0/0),ct_mark(0/0),ct_label(0/0),eth(src=00:00:00:00:00:00/00:00:00:00:00:00,dst=00:00:00:00:00:00/00:00:00:00:00:00),eth_type(0x8100),vlan(vid=30,pcp=0),encap(eth_type(0x0800),ipv4(src=0.0.0.0/0.0.0.0,dst=0.0.0.0/0.0.0.0,proto=0/0,tos=0/0x3,ttl=0/0,frag=no)), packets:7, bytes:816, used:1.971s, flags:P., dp:ovs, actions:set(tunnel(tun_id=0x3e8,src=10.145.69.26,dst=10.162.143.7,ttl=64,tp_dst=4789,flags(df|key))),pop_vlan,vxlan_sys_4789

这次datapath成功匹配上了,执行ovs_execute_actions中的OVS_ACTION_ATTR_OUTPUT,最终调用到ovs_vport_send就发送出去了,ovs vxlan实现留下次代码分析再写,最近一个任务就是测试和分析ovs vxlan和物理交换机vxlan性能对比。

几个回合之后没包需要再传输了,刚才安装的datapath flow需要老化,老化又就是怎么实现的。

代码语言:javascript
复制
udpif_start_threads
  └─udpif_revalidator
     ├─revalidate
     |   ├─dpif_flow_dump_next
     |   ├─udpif_get_n_flows
     |   ├─delete_op_init__
     |   └─push_dp_ops
     └─revalidator_sweep

问题

测试hash没有问题,但测试dp_hash时偶尔会出问题,tcp三次握手,syn包发送给了dpvs节点6,dpvs节点6给回复syn+ack,接着ack包居然发送给了dpvs节点7,后面就是两方不断重传,终于有一次push+ack发送到了dpvs节点6,后面又搞给了dpvs节点7,乱套了。

vswitchd的log中出现了两个hash时,并且recirc_id也在变,_recirc_id再变说明datapath流表老化,流中的报文又重新upcall到用户态了。

内核execute_hash->skb_get_hash调用到flow_dissector计算hash时没有用到tcp flag,hash值不会变,内核出错的概念也不大。

不断抓包观察到是重传间隔时间越来越长,终于有一次push+ack包才回到dpvs节点6上,说明是datapath流表老化了,又上用户态,难道一个hash值是用户态计算的,另一个hash值是datapath计算的,但OVS_ACTION_ATTR_HASH没有用到SLOW_ACTION,是在内核态执行的,ovs用户态代码实现太多了,难道我漏看了什么,怀疑大概率还是一个hash值是用户态计算的,另一个在内核态计算的,代码注释中说用户态OVS_ACTION_ATTR_HASH只用于bond,即使和datapath hash值不同也没有问题,可能会导致报文乱序,但交换机不在乎,但这儿的使用场景不行,包发给错的dpvs节点,dpvs节点没有session,包直接丢了,一条流只能hash到一个dpvs节点。在代码在还是没有看明白什么地方设置LOW_ACTION的。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 代码分析
  • 问题
相关产品与服务
腾讯云代码分析
腾讯云代码分析(内部代号CodeDog)是集众多代码分析工具的云原生、分布式、高性能的代码综合分析跟踪管理平台,其主要功能是持续跟踪分析代码,观测项目代码质量,支撑团队传承代码文化。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档