Linux双网卡绑定实现就是使用两块网卡虚拟成为一块网卡,这个聚合起来的设备看起来是一个单独的以太网接口设备,通俗点讲就是两块网卡具有相同的IP地址而并行链接聚合成一个逻辑链路工作。其实这项技术在Sun和Cisco中早已存在,被称为Trunking和Etherchannel技术,在Linux的2.4.x的内核中也采用这这种技术,被称为bonding。bonding技术的最早应用是在集群上,为了提高集群节点间的数据传输而设计的。

2024.05 摄于天津河东区·李公楼桥地道

概念

什么是bonding?需要从网卡的混杂(promisc)模式说起。我们知道,在正常情况下,网卡只接收目的硬件地址(MACAddress)是自身Mac的以太网帧,对于别的数据帧都滤掉,以减轻驱动程序的负担。但是网卡也支持另外一种被称为混杂promisc的模式,可以接收网络上所有的帧,比如说tcpdump,就是运行在这个模式下。bonding也运行在这个模式下,而且修改了驱动程序中的mac地址,将两块网卡的Mac地址改成相同,可以接收特定mac的数据帧。然后把相应的数据帧传送给bond驱动程序处理。

直接给两块网卡设置同一IP地址是不可能的。Kernels 2.4.12及以后的版本均供bonding模块,以前的版本可以通
过patch实现。而在RHEL7开始,Linux提供了一项新的实现技术Teaming,用来实现链路聚合的功能。

1
2
3
4
5
6
7
8
9
#临时加载bonding模块
modprobe bonding
#查看bonding模块
lsmod | grep bonding
#永久加载需要添加永久启动文件
vim /etc/sysconfig/modules/bonding.modules
cat /etc/sysconfig/modules/bonding.modules
modprobe bonding
chmod 755 /etc/sysconfig/modules/bonding.modules

对于bonding的网络负载均衡是我们在文件服务器中常用到的,比如把三块网卡,当做一块来用,解决一个IP地址,流量过大,服务器网络压力过大的问题。对于文件服务器来说,比如NFS或SAMBA文件服务器,没有任何一个管理员会把内部网的文件服务器的IP地址弄很多个来解决网络负载的问题。如果在内网中,文件服务器为了管理和应用上的方便,大多是用同一个IP地址。对于一个百M的本地网络来说,文件服务器在多个用户同时使用的情况下,网络压力是极大的,特别是SAMABA和NFS服务器。为了解决同一个IP地址,突破流量的限制,毕竟网线和网卡对数据的吞吐量是有限制的。如果在有限的资源的情况下,实现网络负载均衡,最好的办法就是bonding。

对于服务器来说,网络设备的稳定也是比较重要的,特别是网卡。在生产型的系统中,网卡的可靠性就更为重要了。在生产型的系统中,大多通过硬件设备的冗余来提供服务器的可靠性和安全性,比如电源。bonding也能为网卡提供冗余的支持。把多个网卡绑定到一个IP地址,当一块网卡发生物理性损坏的情况下,另一块网卡也能提供正常的服务。

在网卡绑定的七种模式下,其中mode=0、2、3需要交换机支持EtherChannel,要配置交换机静态聚合口;mode=4需要交换机同时支持EtherChannel和LACP,支持动态聚合;mode=1、5、6不需要交换机配置支持。

实现

模式

bongding

模式 模式名称 描述
0 平衡负载模式(balance-rr) 为容错和负载均衡设置轮询策略,从第一个可用的接口开始,在每个绑定成员接口上按顺序接收和发送传输。
1 主-备份策略(active-backup) 设置主动备份策略以实现容错,传输通过第一个可用的绑定成员接口接收和发送,仅当活动的绑定成员接口发生故障时,才使用另一个绑定成员接口
2 平衡策略(balance-xor) 为容错和负载均衡设置 XOR(排除 or)策略,使用此方法,接口将传入请求的 MAC 地址与其中一个成员 NIC 的 MAC 地址进行匹配,一旦建立了此链路,传输将从第一个可用接口开始按顺序发送出去
3 广播策略(broadcast) 设置容错的广播策略,所有传输都在所有成员接口上发送
4 IEEE 802.3ad 动态链路聚合策略(LACP) 设置 IEEE 802.3ad 动态链路聚合策略,创建共享相同速度和双工设置的聚合组,在活动聚合器中的所有成员上传输和接收。需要符合 802.3ad 标准的交换机支持
5 适配器传输负载均衡(balance-tlb) 为容错和负载均衡设置传输负载均衡 (TLB) 策略,传出流量根据每个成员接口上的当前负载进行分配。传入流量由当前成员 NIC 接收,如果接收成员发生故障,则另一个成员将接管发生故障的成员的 MAC 地址
6 适配器适应性负载均衡(balance-alb) 为容错和负载均衡设置主动负载均衡 (ALB) 策略,包括 IPV4 流量的传输和接收负载均衡,接收负载均衡是通过ARP协商实现的。

Team

运行模式 描述
循环(roundrobin) 依次通过所有端口传输数据。
活动备份(activebackup) 通过一个端口传输数据,而其他端口则作为备份保留。
负载均衡(loadbalance) 使用主动 Tx 负载均衡和基于 Berkeley 数据包过滤器 (BPF) 的 Tx 端口选择器在所有端口上传输数据。
广播(broadcast) 通过所有端口传输数据。
LACP(lacp) 实施 802.3ad 链路聚合控制协议 (LACP)。
随机(random) 在随机选择的端口上传输数据

详解

Round-robin

第一种模式:mod=0 ,即:(balance-rr) Round-robin policy(平衡抡循环策略)
特点:传输数据包顺序是依次传输(即:第1个包走eth0,下一个包就走eth1….一直循环下去,直到最后一个传输完毕),此模式提供负载平衡和容错能力;但是我们知道如果一个连接或者会话的数据包从不同的接口发出的话,中途再经过不同的链路,在客户端很有可能会出现数据包无序到达的问题,而无序到达的数据包需要重新要求被发送,这样网络的吞吐量就会下降.

Active-backup

第二种模式:mod=1,即: (active-backup) Active-backup policy(主-备份策略)
特点:只有一个设备处于活动状态,当一个宕掉另一个马上由备份转换为主设备。mac地址是外部可见得,从外面看来,bond的MAC地址是唯一的,以避免switch(交换机)发生混乱。此模式只提供了容错能力;由此可见此算法的优点是可以提供高网络连接的可用性,但是它的资源利用率较低,只有一个接口处于工作状态,在有 N 个网络接口的情况下,资源利用率为1/N

balance-xor

第三种模式:mod=2,即:(balance-xor) XOR policy(平衡策略)
特点:基于指定的传输HASH策略传输数据包。缺省的策略是:(源MAC地址 XOR 目标MAC地址) % slave数量。其他的传输策略可以通过xmit_hash_policy选项指定,此模式提供负载平衡和容错能力

broadcast

第四种模式:mod=3,即:broadcast(广播策略)
特点:在每个slave接口上传输每个数据包,此模式提供了容错能力

802.3ad

第五种模式:mod=4,即:(802.3ad) IEEE 802.3ad Dynamic link aggregation(IEEE 802.3ad 动态链
接聚合)特点:创建一个聚合组,它们共享同样的速率和双工设定。根据802.3ad规范将多个slave工作在同一个激活的聚合体下。

外出流量的slave选举是基于传输hash策略,该策略可以通过xmit_hash_policy选项从缺省的XOR策略改变到其他
策略。需要注意的 是,并不是所有的传输策略都是802.3ad适应的,尤其考虑到在802.3ad标准43.2.4章节提及的
包乱序问题。不同的实现可能会有不同的适应性。

必要条件:

  1. ethtool支持获取每个slave的速率和双工设定
  2. switch(交换机)支持IEEE 802.3ad Dynamic link aggregation
  3. 大多数switch(交换机)需要经过特定配置才能支持802.3ad模式

balance-tlb

第六种模式:mod=5,即:(balance-tlb) Adaptive transmit load balancing(适配器传输负载均衡)
特点:不需要任何特别的switch(交换机)支持的通道bonding。在每个slave上根据当前的负载(根据速度计算)分
配外出流量。如果正在接受数据的slave出故障了,另一个slave接管失败的slave的MAC地址。
该模式的必要条件:ethtool支持获取每个slave的速率

balance-alb

第七种模式:mod=6,即:(balance-alb) Adaptive load balancing(适配器适应性负载均衡)
特点:该模式包含了balance-tlb模式,同时加上针对IPV4流量的接收负载均衡(receive load balance,
rlb),而且不需要任何switch(交换机)的支持。接收负载均衡是通过ARP协商实现的。bonding驱动截获本机发送的ARP应答,并把源硬件地址改写为bond中某个slave的唯一硬件地址,从而使得不同的对端使用不同的硬件地址进行通信。

来自服务器端的接收流量也会被均衡。当本机发送ARP请求时,bonding驱动把对端的IP信息从ARP包中复制并保存下来。当ARP应答从对端到达 时,bonding驱动把它的硬件地址提取出来,并发起一个ARP应答给bond中的某个slave。使用ARP协商进行负载均衡的一个问题是:每次广播ARP请求时都会使用bond的硬件地址,因此对端学习到这个硬件地址后,接收流量将会全部流向当前的slave。这个问题可以通过给所有的对端发送更新(ARP应答)来解决,应答中包含他们独一无二的硬件地址,从而导致流量重新分布。当新的slave加入到bond中时,或者某个未激活的slave重新 激活时,接收流量也要重新分布。接收的负载被顺序地分布(round robin)在bond中最高速的slave上。

当某个链路被重新接上,或者一个新的slave加入到bond中,接收流量在所有当前激活的slave中全部重新分配,通过使用指定的MAC地址给每个 client发起ARP应答。下面介绍的updelay参数必须被设置为某个大于等于switch(交换机)转发延时的值,从而保证发往对端的ARP应答 不会被switch(交换机)阻截。
必要条件:

  1. ethtool支持获取每个slave的速率;
  2. 底层驱动支持设置某个设备的硬件地址,从而使得总是有个slave(curr_active_slave)使用bond的硬件地
    址,同时保证每个bond 中的slave都有一个唯一的硬件地址。如果curr_active_slave出故障,它的硬件地址将会被新选出来的 curr_active_slave接管

mod=6与mod=0的区别:mod=6,先把eth0流量占满,再占eth1,….ethX;而mod=0的话,会发现2个口的流量都很稳定,基本一样的带宽。而mod=6,会发现第一个口流量很高,第2个口只占了小部分流量

区别

功能 bonding Team
广播 Tx 策略
循环 Tx 策略
Active-backup Tx 策略
LACP(802.3ad)支持 是(仅活动)
基于 hash 的 Tx 策略
用户可以设置哈希功能
TX 负载均衡支持(TLB)
LACP 哈希端口选择
LACP 支持的负载均衡
ethtool 链接监控
ARP 链路监控
NS/NA(IPv6)链路监控
端口启动/关闭延迟
“端口优先级和粘性(主要选项增强” )
单独设置每个端口的链接监控设置
多个链路监控设置 有限
Lockless Tx/Rx 路径 否(rwlock) 是(RCU)
VLAN 支持
用户空间运行时控制 有限 full
用户空间中的逻辑
可扩展性
模块化设计
性能开销 非常低
D-Bus 接口
多设备堆栈
使用 LLDP 时零配置 (在计划中)
NetworkManager 支持

用例

设备信息

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
# 查看物理设备信息
[root@TestNode ~]# lspci |grep Ethernet
02:00.0 Ethernet controller: Intel Corporation 82545EM Gigabit Ethernet Controller (Copper) (rev 01)
02:02.0 Ethernet controller: Intel Corporation 82545EM Gigabit Ethernet Controller (Copper) (rev 01)
02:03.0 Ethernet controller: Intel Corporation 82545EM Gigabit Ethernet Controller (Copper) (rev 01)
02:04.0 Ethernet controller: Intel Corporation 82545EM Gigabit Ethernet Controller (Copper) (rev 01)
02:05.0 Ethernet controller: Intel Corporation 82545EM Gigabit Ethernet Controller (Copper) (rev 01)

# 查看网络接口
[root@TestNode ~]# nmcli device
DEVICE TYPE STATE CONNECTION
ens32 ethernet connected ens32
lo loopback connected (externally) lo
ens34 ethernet disconnected --
ens35 ethernet disconnected --
ens36 ethernet disconnected --
ens37 ethernet disconnected --

创建bonding

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
# 创建bond1,使用轮询模式
[root@TestNode ~]# nmcli connection add type bond ifname bond1 bond.options "mode=balance-rrp"
Connection 'bond-bond1' (9614ea8f-05a8-45b2-b6c6-ffdb6da4c2ac) successfully added.

# 将ens34添加到bond1
[root@TestNode ~]# nmcli connection add type ethernet ifname ens34 master bond1
Connection 'bond-slave-ens34' (db5db907-c9cd-498a-ac74-267ceec4d894) successfully added.

# 将ens35添加到bond1
[root@TestNode ~]# nmcli connection add type ethernet ifname ens35 master bond1
Connection 'bond-slave-ens35' (f92a360c-5e26-42d0-a328-4a43e814e037) successfully added.

# 激活物理接口
nmcli connection up bond-slave-ens34
nmcli connection up bond-slave-ens35

# 配置IP地址
nmcli c m bond-bond1 ipv4.meth man ipv4.add 192.168.10.10/24 ipv4.gate 192.168.10.2
# 配置生效
nmcli c d bond-bond1 && nmcli c u bond-bond1

# 查看bond模式
[root@TestNode ~]# cat /proc/net/bonding/bond1
Ethernet Channel Bonding Driver: v5.14.0-427.33.1.el9_4.x86_64

Bonding Mode: load balancing (round-robin)
MII Status: up
MII Polling Interval (ms): 100
Up Delay (ms): 0
Down Delay (ms): 0
Peer Notification Delay (ms): 0

Slave Interface: ens34
MII Status: up
Speed: 1000 Mbps
Duplex: full
Link Failure Count: 0
Permanent HW addr: 00:0c:29:b6:5b:84
Slave queue ID: 0

Slave Interface: ens35
MII Status: up
Speed: 1000 Mbps
Duplex: full
Link Failure Count: 0
Permanent HW addr: 00:0c:29:b6:5b:8e
Slave queue ID: 0

# 查看网络设备
[root@TestNode ~]# nmcli device
DEVICE TYPE STATE CONNECTION
ens32 ethernet connected ens32
bond1 bond connected bond-bond1
ens34 ethernet connected bond-slave-ens34
ens35 ethernet connected bond-slave-ens35
lo loopback connected (externally) lo
ens36 ethernet disconnected --
ens37 ethernet disconnected --

[root@TestNode ~]# nmcli c show
NAME UUID TYPE DEVICE
ens32 fb48d820-63d8-3e7c-a413-357b845004f3 ethernet ens32
bond-bond1 9614ea8f-05a8-45b2-b6c6-ffdb6da4c2ac bond bond1
bond-slave-ens34 db5db907-c9cd-498a-ac74-267ceec4d894 ethernet ens34
bond-slave-ens35 f92a360c-5e26-42d0-a328-4a43e814e037 ethernet ens35
lo 91555d90-2897-4c97-859e-d0968af34847 loopback lo

# 测试
# 双连接正常情况
正在 Ping 192.168.10.10 具有 32 字节的数据:
来自 192.168.10.10 的回复: 字节=32 时间=1ms TTL=64
来自 192.168.10.10 的回复: 字节=32 时间<1ms TTL=64

# 关闭ens34
[root@TestNode ~]# nmcli c d bond-slave-ens34
正在 Ping 192.168.10.10 具有 32 字节的数据:
来自 192.168.10.10 的回复: 字节=32 时间<1ms TTL=64
来自 192.168.10.10 的回复: 字节=32 时间<1ms TTL=64

[root@TestNode ~]# nmcli c u bond-slave-ens34

# 关闭ens35
[root@TestNode ~]# nmcli c d bond-slave-ens35
正在 Ping 192.168.10.10 具有 32 字节的数据:
来自 192.168.10.10 的回复: 字节=32 时间<1ms TTL=64
来自 192.168.10.10 的回复: 字节=32 时间<1ms TTL=64

[root@TestNode ~]# nmcli c u bond-slave-ens35

创建team

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
# 创建连接名称为team0、接口名称为team0的team
[root@TestNode ~]# nmcli connection add type team con-name team0 ifname team0
Connection 'team0' (ab7904ee-6ca7-4a3f-869a-5f22d006e291) successfully added.

# 创建连接名为team0-port1、接口名称为ens36的连接
[root@TestNode ~]# nmcli con add type ethernet con-name team0-port1 ifname ens36 slave-type team master team0
Connection 'team0-port1' (d79bd85f-e24a-4d2d-81c9-c13947e12dd5) successfully added.
[root@TestNode ~]# nmcli c u team0-port1

# 创建连接名为team0-port1、接口名称为ens37的连接
[root@TestNode ~]# nmcli con add type ethernet con-name team0-port2 ifname ens37 slave-type team master team0
Connection 'team0-port2' (b6ed515b-f510-49d8-8780-20552298e7d2) successfully added.
[root@TestNode ~]# nmcli c u team0-port2

# 给team0配置IP地址
[root@TestNode ~]# nmcli con modify team0 ipv4.method man ipv4.add 192.168.10.11/24 ipv4.gate 192.168.10.2
[root@TestNode ~]# nmcli c d team0 && nmcli con up team0

# 查看team0的信息
[root@TestNode ~]# teamdctl team0 state
setup:
runner: roundrobin
ports:
ens36
link watches:
link summary: up
instance[link_watch_0]:
name: ethtool
link: up
down count: 0
ens37
link watches:
link summary: up
instance[link_watch_0]:
name: ethtool
link: up
down count: 0

# 测试
正在 Ping 192.168.10.11 具有 32 字节的数据:
来自 192.168.10.11 的回复: 字节=32 时间<1ms TTL=64
来自 192.168.10.11 的回复: 字节=32 时间<1ms TTL=64
来自 192.168.10.11 的回复: 字节=32 时间<1ms TTL=64

# 关闭team0-port1
[root@TestNode ~]# nmcli c d team0-port1
来自 192.168.10.11 的回复: 字节=32 时间<1ms TTL=64
来自 192.168.10.11 的回复: 字节=32 时间<1ms TTL=64

# 关闭team0-port2
[root@TestNode ~]# nmcli c u team0-port1
[root@TestNode ~]# nmcli c d team0-port2
来自 192.168.10.11 的回复: 字节=32 时间<1ms TTL=64
来自 192.168.10.11 的回复: 字节=32 时间<1ms TTL=64
[root@TestNode ~]# nmcli c u team0-port2

其他

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
# 改变bond模式
[root@TestNode ~]# nmcli c m bond-bond1 bond.options "mode=active-backup"

# 删除bond
[root@TestNode ~]# nmcli connection delete bond-bond1
[root@TestNode ~]# nmcli connection delete bond-slave-ens34
[root@TestNode ~]# nmcli connection delete bond-slave-ens35

# 改变team模式
[root@TestNode ~]# nmcli connection modify team0 config '{"runner":{"name":"random"}}'
[root@TestNode ~]# nmcli connection reload
[root@TestNode ~]# nmcli con up team0

# 删除team
[root@TestNode ~]# nmcli connection delete team0
[root@TestNode ~]# nmcli connection delete team0-port1
[root@TestNode ~]# nmcli connection delete team0-port2