几行代码中的Linux容器

2020-05-13 19:02:54

这篇文章的意思是与上一篇KVM文章相对应，但它是关于容器的。我们的想法是通过在我们自己的小型容器运行器中运行Busybox Docker映像来显示容器的确切工作方式。

与VM不同，容器是一个非常模糊的术语。通常，我们将容器称为独立的代码包及其依赖项，它们可以一起发布，并在某个主机操作系统内的隔离环境中运行。如果它听起来仍然类似于VM，那么让我们深入研究一下，看看容器是如何实现的。

我们的最终目标是运行一个普通的Busybox Docker映像，但没有docker。Docker使用btrfs作为其映像的文件系统格式。让我们尝试拉取图像并将其解压到一个目录中：

现在，我们将busybox映像文件系统解压到rootfs文件夹中。当然，我们可以运行./rootfs/bin/sh并获得一个工作的shell，但是如果我们查看那里的进程、文件或网络接口的列表，我们将看到我们可以访问整个操作系统。

由于我们希望控制子进程可以看到的内容，因此我们将使用克隆(2)而不是分叉(2)。Clone的功能大致相同，但允许您传递标志，定义您想要共享的资源。

在我们的实验中，我们将尝试隔离进程、IPC、网络和文件系统，因此我们开始：

静态字符CHILD_STACK[1024*1024]；INT CHILD_MAIN(void*arg){printf("；Hello from Child！PID=%d\n"；，getPID()；return 0；}int main(int argc，char*argv[]){int flag=CLONE_NENS|CLONE_NEWUTS|CLONE_NEWPID|CLONE_NEWIPC|CLONE_NENet；INT PID=CLONE(CHILD_Main，CHILD_STACK+sizeof(CHILD_STACK)，FLAGS|SIGCHLD，argv+1)；if(PID<；0){fprintf。}waitpid(PID，NULL，0)；返回0；}。

这给出了一个已经很有趣的结果：子进程PID是1。我们都知道PID 1通常是init，但在本例中，我们看到子进程有自己的独立进程列表，其中它已成为第一个进程。

为了更容易地熟悉新环境，让我们在子进程中运行一个shell。实际上，让我们运行任意命令，很像docker run：

现在，使用“/bin/sh”参数运行我们的应用程序将打开一个真正的shell，我们可以在其中键入命令。这表明我们关于孤立的看法是多么错误：

#ECHO$$1#ps PID TTY时间CMD 5998分/31 00：00：00：00 sudo 5999分/31 00：00：00：00 Main 6001分/31 00：00：00 sh 6004分/31 00：00：00：00 ps。

正如我们所看到的，shell进程本身的PID为1，但实际上可以从主机操作系统查看和访问所有其他进程。原因是进程列表是从procfs读取的，它仍然是继承的。

现在，运行shell会中断ps、mount和其他命令，因为没有挂载procfs。还是比泄露父母的通行证要好。

在过去，chroot对于大多数用例来说是一个“足够好”的隔离，但是在这里，我们改用PIVOT_ROOT。此系统调用将现有的rootfs移到某个子目录中，并使另一个目录成为新的根目录：

int Child_main(void*arg){/*unmount procfs*/umount2("；/proc"；，mnt_disach)；/*透视根*/mount("；./rootfs"；，"；./rootfs"；，"；；bind"；，MS_bind|MS_REC，"；)；mkdir("；。./rootfs"；，"；./rootfs/oldrootfs"；)；chdir("；/"；)；umount2("；/oldrootfs"；，mnt_disach)；rmdir("；/oldrootfs"；)；/*重新挂载procfs*/mount("；proc"；，"；/proc。/*运行进程*/char**argv=(char**)arg；execvp(argv[0]，argv)；返回0；}。

将tmpfs挂载到/tmp中，将sysfs挂载到/sys中并创建一个有效的/dev文件系统是有意义的，但为了简短起见，我将跳过它。

不管怎么说，现在我们只看到busybox图像rootfs中的文件，就好像我们对其进行了chroot：

/#lsbin dev etc home proc root sys tmp usr var/#mount/dev/sda2 on/type ext4(rw，relatime，data=order)proc on/proc type proc(rw，relatime)/#psPID用户时间命令1 root 0：00/bin/sh 4 root 0：00 ps/#ps axPID用户时间命令1 root 0：00/bin/sh 5 root 0：00 ps ax。

在这一点上，它看起来或多或少是孤立的，也许太孤立了-我们无法ping通任何东西，网络似乎根本无法工作。

创建新的网络命名空间只是个开始。我们需要为其分配网络接口，并对其进行设置以执行正确的数据包转发。

如果您没有br0接口，让我们手动创建(brctl是Ubuntu上bridge-utils包的一部分)：

brctl addbr br0ip addr add dev br0 172.16.0.100/24ip链路集br0 upsudo iptables-A FORWARD-I wlp3s0-o br0-j ACCEPTsudo iptables-A ward-o wlp3s0-I br0-j ACCEPTsudo iptables-t nat-A POSTROUTING-s 172.16.0.0/16-j伪装。

在我的例子中，wlp3s0是我的主要WiFi网络接口，172.16.x.x是容器的网络。

我们的容器启动器应该做的是创建一对对等接口veth0和veth1，将它们链接到br0，并在容器内设置路由。

system("；IP link add veth0 type Veth Peer Name veth1"；)；system("；IP link set veth0 up"；)；system("；brctl add f br0 veth0"；)；

现在，如果我们在容器外壳中运行“ip link”，我们将看到一个环回接口和一些veth1@xxxx接口。但是网络仍然不起作用。让我们在容器中设置唯一的主机名，并配置路由：

int Child_main(void*arg){.。sethostname("；Example"；，7)；System("；IP link set veth1 up"；)；char IP_addr_add[4096]；snprintf(IP_addr_add，sizeof(IP_Addr_Add)，"；IP addr add 172.16.0.101/24 dev th1"；)；system(Ip_Addr_Add)；system("；route add default。execvp(argv[0]，argv)；返回0；}。

/#IP link1：LO：<；loopback>；mtu 65536 qdisk noop qlen 1 link/loopback 00：00：00：00：00：0047：veth1@if48：<；Broadcast，Multicast，Up，Low_Up，M-Down>；MTU 1500 qdisk noqueue qlen 1000链路/以太72：0A：f0：91：d5：11 brd ff：ff/#hostname示例/#ping 1.1.1.1 PING 1.1.1.1(1.1.1.1)：56数据字节1.1.1.1：SEQ=0 ttl=57 time=27.161 ms 64字节from 1.1.1.1：seq=1 ttl=57 time=26.048 ms 64 bytes from 1.1.1.1：seq=2 ttl=57 time from 1.1.1.1：seq=2 ttl=57 time：seq=1 ttl=57 time=26.048 ms64 byte from 1.1.1.1：seq=2 ttl=57 time。

完整的源代码可以在https://gist.github.com/zserge/4ce3c1ca837b96d58cc5bdcf8befb80e.上找到。如果您发现错误或有什么建议，请在此留言！

显然，Docker做的远不止这些。但令人惊讶的是，Linux内核拥有这么多方便的API，而且使用它们来实现操作系统级虚拟化非常容易。

https://zserge.com/posts/containers/

将图表作为代码

2020-5-12 23:37

剖析导致比特币减半的代码

2020-5-12 4:41

使用Draw.io在VS代码中创建图表

2020-5-11 13:13

查看最初的Apollo 12代码清单(以及1202修复程序)

2020-5-11 5:9

tags users