距离上次更新本文已经过去了 728 天,文章部分内容可能已经过时,请注意甄别

本篇博客让我们一起来了解一下网络的基本原理

1. 网络发展背景

关于网络发展的历史背景这种东西就不多 bb 了,网上很容易就能找到参考资料,我的专业性欠缺,文章参考意义也不大。这里只做简单说明。

网络发展经过了如下几个模式:

  • 独立模式:计算机之间相互独立,靠人移动数据
  • 互联模式:多台计算机连接到一起,实现数据共享
  • 局域网 LAN:计算机数量增多,通过交换机 / 路由器连接到一起
  • 广域网 WAN:将相隔距离非常远的计算机连在一起

交换机是啥?简单来说就是一个有很多网口的设备,将设备插上去后(一般用的都是 RJ45 网线)就能相互交流信息。我们家用的 WIFI 路由器其实已经集成了交换机的功能!

1983 年,TCP/IP 协议成为 ARPANET 上的标准协议,人们把 1983 年称为互联网的诞生时间。

1.1 计算机设备之间是怎么交流的?

计算机内部有非常多的设备,在设备和设备之间一定要用 “线” 进行连接。这样这些设备才能相互通信。比如主板上的总线,链接硬盘的 sata 线等等。

而这个计算机的结构本质上也能被看作一个小型网络。

此时我们将计算机 A 和 B 用数据线连接起来,就能在物理层面上,让 A 和 B 相互通信(此时暂且不考虑通过何种方式通信,只要用数据线连起来了,那就一定能通信)

  • 在主机内,线短
  • 跨主机,线长

当数据线长了之后,线路和线路之间就容易产生信号的干扰,导致数据的错误 / 丢失。此时我们就需要一个更可靠、高效的方式来实现远距离计算机之间的通信,这就是网络的意义

1.2 集群

进一步扩大,实际上,还可以用多台主机相连,实现单一的功能。这时候,这一堆主机被称为集群

  • 存储集群:硬盘
  • 缓存集群:内存
  • 计算集群:Cpu/Gpu

不同的集群干不同的事,再用数据线连起来,就成了一台由多个主机共同构成的 “电脑”

image-20230130191810628

在大型的数据中心里面,就是用这种方式来处理海量的数据的。

1.3 因特网

当前我们主要在计算机上使用的是 Internet,官方名称为因特网,日常说的互联网就是因特网。

但还有另外一个互连网,其概念是互相连接的网络,英文名是 internet(小写的 i),互联网 ≠ 互连网

1.4 ISP/IXP

ISP 的中文名是互联网服务提供者,在我们国内说的就是三大运营商

IXP 是狐狸那我交换点,允许两个网络直接相连并快速提供分组的转发。

2. 协议

协议是一种约定,约定好两台设备要用什么方式来交流。

比如我们都是中国人,可以用普通话这个协议来交流;而广东地区的人,可以用粤语来交流。

计算机之间想交流,肯定也需要确定好一个行业通用的协议

否则不同计算机的架构/操作系统/硬件设备不一样,若协议不统一,也就无法正常交流。这就好比一个说英语的人听不懂普通话一样。

2.1 分层

网络的协议是分层的

2.1.1 为什么要分层

软件分层,就好比将主代码和功能代码给分开

  • 此时只要功能代码提供的接口不变,主代码的调用方式就不变
  • 主代码无须关心功能代码是如何处理的,只关心其处理的结果(返回值)
  • 工程师修改代码的时候,只需要定位到具体模块进行修改,不会出现牵一发动全身的情况

这样,就实现了主模块和功能模块的解耦

由于网络涉及到了软件到硬件各种层面的设备操作,所以其必须采用分层的协议。不同设备采用不同的协议,才能最大层面的保证网络系统整体不出 bug

网络协议有一个特点:同层设备都可以认为自己在直接和对方通信

2.1.2 电话机例子

以下图为例,当俩个人用座机打电话的时候,他们会认为自己在直接和对方交流,而不会认为自己是在和电话机交流

image-20230130201915187

此时,就可以把这个系统分 3 层:分别是两人之间的语言协议,电话机和电话机之间读取数据的协议,以及最底层用于传输信号的通信协议

  • 用户不会去关心电话机用的是什么协议,而是关心自己应该用什么语言和对方交流
  • 电话机不会去关心用户是用什么语言交流的,其只负责把收到的声音转换成电信号
  • 通信协议不管电话机是怎么封装的,其只负责传输数据

这里就能看出来,不仅同层的设备可以认为自己是直接和对方交流,而且它还不需要管其他层用的是什么协议!

  • 电话机不会因为你说英语而用不了

这就是分层实现解耦的效果,也算是每一层都实现了自己的封装

2.2 OSI 七层模型

  • OSI(Open System Interconnection,开放系统互连)七层网络模型称为开放式系统互联参考模型, 是一个逻辑上的定义和规范;
  • 它把网络从逻辑上分为了 7 层。每一层都有相关、相对应的物理设备,比如路由器,交换机;
  • OSI 七层模型是一种框架性的设计方法,其最主要的功能使就是帮助不同类型的主机实现数据传输;
  • 它的最大优点是将服务、接口和协议这三个概念明确地区分开来,概念清楚,理论也比较完整。 通过七 个层次化的结构模型使不同的系统不同的网络之间实现可靠的通讯

image-20230130203221920

可以用下面的这个表格来简单了解一下每一层的功能

分层名称功能概览
应用针对特定应用的协议 STMP 邮件 / 远程登录 / 文件传输
表示数据固有格式和网络标准格式的转换接收不同表现形式的信息
会话通信管理,负责建立 / 断开通信连接,维持不同应用程序的通信何时建立 / 何时断开 / 建立多久
传输两个节点之间的数据传输维持传输可靠性
网络地址管理 / 路由选择(逻辑寻址确定最佳路径
数据链路互联设备之间传送和识别数据将数据组合成字节
物理以 01 二进制进行数据传输网线

但是 OSI 七层模型相对比较复杂,我们主要关注的还是 TCP/IP 模型

2.3 TCP/IP

TCP/IP 是一组协议的代名词,它其中包括很多协议,组成了一个整体。为了方便使用,TCP/IP 协议将 OSI 的上方 3 层统一称为应用层,由用户字节决定如何进行数据的序列化 / 反序列化,什么时候建立连接,什么时候断开连接

TCP/IP 模型可以认为是 4/5 层,每一层也有自己不同的功能。每一层都会调用另外一层,来实现自己的需求

  • 物理层:负责光 / 电信号的传递方式。 比如现在以太网通用的网线 (双绞 线)、早期以太网采用的的同轴电缆 (现在主要用于有线电视)、光纤,现在的 wifi 无线网使用电磁波等都属于物理层的概念。物理层的能力决 定了最大传输速率、传输距离、抗干扰性等。集线器 (Hub) 工作在物理层
  • 数据链路层:负责设备之间的数据帧的传送和识别。 例如网卡设备的驱动、帧同步 (就是说从网线上检测 到什么信号算作新帧的开始)、冲突检测 (如果检测到冲突就自动重发)、数据差错校验等工作。 有以太 网、令牌环网,无线 LAN 等标准。交换机 (Switch) 工作在数据链路层
  • 网络层:负责地址管理和路由选择。 例如在 IP 协议中,通过 IP 地址来标识一台主机,并通过路由表的方式规 划出两台主机之间的数据传输的线路 (路由)。路由器 (Router) 工作在网路层
  • 传输层:负责两台主机之间的数据传输。 如传输控制协议 (TCP), 能够确保数据可靠的从源主机发送到目标 主机
  • 应用层:负责应用程序间沟通,如简单电子邮件传输(SMTP)、文件传输协议(FTP)、网络远程访问 协议(Telnet)等。 我们的网络编程主要就是针对应用层。

为啥这里有 5 层,却有时候又说是 4 层呢?😏

因为物理层关注的较少,所以一般都只注重于剩下的 4 层

3. 网络和操作系统之间的关系

用户的网络请求要想成功发送给对方,那就一定要经过网卡这个硬件;而要经过网卡,那就肯定要经过操作系统 —— 只有操作系统能直接访问硬件!

所以,数据在主机内流动的时候,就一定会从用户走到内核,再最终走到物理层进行传输!

image-20230131175320289

因为计算机的体系结构决定了数据流动的时候,一定要经过操作系统,所以肯定会是自顶向下 / 自底向上进行流动的!

  • 这就引出了二者的关系

网络协议栈是属于操作系统的:在操作系统中,有一个模块就是专门来处理 tcp/ip 协议的。


前面提到,每一层都可以认为自己是在和对方同层的用户直接通信。这样做是有一定代价的,且听我细细道来。

3.1 快递例子

当我们网购商品的时候,我们作为用户,是直接和商家联系的。下了订单后,商家要去做一系列的操作,最终我们从快递小哥处拿到了商品

客户商家
在商家处下订单接收到用户订单
从快递员处收到货物将货物交给快递员
货物运输到集散点货物运输到集散点

但,我们收到的快递并不是只有我们要的商品,往往这里面都会多出一些东西

如图,我们的商品被一个盒子包裹着,外头还多了一个快递单

客户商家
在商家处下订单接收到用户订单给出收件地址
从快递员处收到货物将货物交给快递员添加外箱并填写邮寄单
货物运输到集散点货物运输到集散点开始运输

在这个例子中,每一层其实都给出了自己的独有协议。我们可以把最下面的运输当作物理层

快递小哥在包装快递的时候,就会给快递增加一个外箱,并填写好邮寄单。当另外一边的快递小哥收到这个货物的时候,就可以更具邮寄单上的信息,将快递送到用户手上。

3.2 报头 / 解包

此过程中,为了维护快递的出发地/终点地信息,快递员给货物添加上了客户不需要的东西。

  • 在网络协议中,每一层协议,都会给我们要传输的数据添加上独有的协议信息,再交付给下一层;这些信息是用来维护数据的(就好比快递单号上的地址)
    • 多出来的协议数据被称为:报头
  • 收到信息后,同层协议会取出自己的那份协议信息进行分析,再交付给上一层
    • 拆开数据的过程被称为:解包

image-20230131183936370

不知道快递的例子能否帮助你理解这个过程

QQ图片20220413084241

3.3 报头的作用

数据会有不同的应用,也对应了不同的协议。在封包的时候,添加的报头信息里面就应包含目标的协议信息

  • 比如我的信息是 SMTP 邮箱信息,那么在目标主机接收到进行解包了以后,也需要将这个信息交给支持 SMTP 的邮箱软件进行处理
  • 报头属性里面就需要包含支持分用👆的属性(还有一些公共属性)
  • 报头属性里面还需要包含区分有效载荷和报头的属性,也就是将要发送的数据,和这一层的报头给拆开,不能到时候分不出来,无法正常解包了

这个过程就是一个分用的过程,我们传送的信息,被称为有效载荷

image-20230131211927995

快递点也是一样,如果快递点收到的都是商品而没有快递单,快递小哥也就无法知道快递应该送给谁了

4. 局域网

以太网的命名来自物理学中的以太,这部分的故事可以百度😶‍🌫️大学物理课上也讲过。

  • 如果两台主机,处于同一局域网中,他们之间能通信吗?
  • 和同学开手机热点联机 MC 的经历告诉我😏,是可以的

4.1 MAC 地址

局域网就好比一个餐厅,里面有很多人在聊天。当你在餐厅里面和张三聊天的时候,旁边的人也能听到你们俩交流的内容。局域网内也是如此。

要想在局域网内准确地找到一个设备,那就需要一个唯一标识码。就好比想在教室里面找到一个人,需要知道名字一样(排除同名问题)

每台主机唯一的标识码,就是该主机对应的 MAC 地址

  • MAC 地址用来识别数据链路层中相连的节点
  • 长度为 48 位,及 6 个字节。 一般用 16 进制数字加上冒号的形式来表示 (例如: 08:01:27:04:fb:19)
  • MAC 地址在网卡出厂时就确定了,不能修改! 且 mac 地址通常是唯一的(虚拟机中的 mac 地址不是真实的 mac 地址,可能会冲突;也有些网卡支持用户配置 mac 地址)

局域网内没有发送限制,任何一台主机随时都可发送消息。此时还需要引入碰撞检测机制,在没有人发送信号的时候,本设备再发送信号。避免多台主机通信时,出现信号撞到一起(碰撞域)而导致的信息丢失。

以系统编程的角度来看,此时的局域网可以认为是一个临界资源。保证数据不被碰撞,就是保护临界资源的一致性!😛

4.2 通信原理

和前面提到的报头 / 解包一样,局域网内的数据,也是自顶向下、自底向上流动的。

每一层都有自己的协议,也需要加上自己的报头

5. 广域网

在广域网内通信就没有那么简单了。这就好比唐僧去西天取经,不是直接走到西天的,而是需要经过多个驿站(中途地点)

在广域网内通信,我们则是通过 ip 地址来做驿站,来查找目标主机的

  • 在局域网内用的是 mac 来标识目标的唯一性
  • 广域网内采用 ip 来标识目标的唯一性

5.1 IP 地址

IP 协议有两个版本,IPv4 和 IPv6(本文只关注 v4)

IP 地址是在 IP 协议中,用来标识网络中不同主机的地址;

对于 IPv4 来说,IP 地址是一个 4 字节,32 位的整数。通常使用 “点分十进制” 的字符串表示 IP 地址,例如 192.168.0.1;用点分割的每一个数字表示一个字节,范围是 0 - 255;

因 ipv4 的规定的局限性,ipv4 的 ip 现在已经逐渐枯竭,很多地方的运营商已经不提供家用宽带的公网 IP 地址。

5.2 通信过程

在广域网通信的时候,每次都需要提供源 IP 和目标 IP,这就是从哪儿来/到哪儿去;同时,还需要提供源 MAC 和目标 MAC 进行标识。

在通信过程中,会有路由器来告诉你应该去哪儿。在这期间,我们的数据会在不同的局域网内进行切换。

image-20230131211716493

在切换过程中,路由器会更新你的源 IP/MAC(目标 IP 不变)并提供目标的 MAC 地址

唐僧去西天取经,他的目的地是不会变的,但是上一站 / 下一站会不断变化

以下图为例,当我们的数据走到 IP 这一层时,就会加上 IP 协议的报头。并在路由器内进行解包,再换上新的 IP 报头。

此时 IP 一层就可以和其他层区分开,因为在 IP 层之上,发送/接收主机收到的数据是完全一样的!

IP 层是一个软件层,任何底层的差异,都可以通过加一层软件层来解决。这是一种软件虚拟化技术,linux 的文件系统也使用了这种技术

也就是说,通过 IP 层,可以屏蔽底层网络的差距。在通过 ip 通信的时候,不需要关注底层的路由等硬件信息以及数据传输的实现。

5.3 端口

一台主机里面有非常多的进程,每一个进程都能访问网络发送信息。

光用 IP 地址,我们实际上只能找到对应的主机,却无法确定是这台主机里面的 xx 应用发出的信息。

此时,就需要利用端口号来确定我们要访问的进程是什么了。

  • IP:确保主机唯一性
  • 端口 port:确保该主机上的进程唯一性

如果你有用过 docker,那肯定就知道端口号这一存在。大部分 docker 都需要映射一个端口以对外提供服务。

网络间的通信,本质上是不同主机上的进程通信

  • 端口号是一个 2 字节的整数,限定了端口范围(1-65,536)
  • 端口号用于标识一个进程,告诉系统,当前的数据应交给哪一个进程去运行
  • 同一个进程可以使用多个端口号
  • 但是一个端口号只能对应一个进程

网络通信中,有源 IP 和目标 IP,也有源端口和目标端口。我们把这一对 IP + 端口被称为 socket对

5.3.1 端口 / PID 的关系

在一台主机里面,PID 也可以用于标识唯一的进程。但是,端口号和 PID 是属于两个完全不同的概念。

假设餐厅里有一个扫把,餐厅雇了个保洁员 A,让他来打扫餐厅的卫生。此时就可以把扫把认为是端口,保洁员 A 是一个进程。

有一天,保洁员 A 生病了,请假一周。于是老板又请了一个保洁员 B,让他来打扫一周的卫生。此时,保洁员 B 也能使用餐厅里面已有的扫把,来进行打扫工作

  • 保洁员 A / 保洁员 B 干的工作是完全一致的
  • 他们使用的是同一个扫把

我们知道,在 linux 中,一个同一个可执行程序,每一次执行的时候,它的进程 PID 都是不同的;但同一个可执行程序,干的活肯定是一样的。

保洁员 A 和 B 就可以看作是同一个可执行程序,他们用的也是同一个端口(扫把),但保洁员 A 和 B 的进程 PID 是不一样的!

所以,在网络通信的时候,采用了端口这个扫把来标识需要进行网络通信的进程,而不是继续采用 PID 来标识👻

操作系统只需要维护一个端口号和进程的哈希表,就能快速地通过端口号找到对应的进程

5.4 TCP/UDP

TCP(Transmission Control Protocol 传输控制协议)

  • 传输层协议
  • 有链接(必须要和目标建立连接,才能开始数据传输)
  • 可靠传输(检查是否有丢包,需要保证数据完全被传输到目标主机)
  • 面向字节流

UDP(User Datagram Protocol 用户数据报协议)

  • 传输层协议
  • 无连接(无须建立连接,比如所有人都能给你的电子邮箱发送邮件)
  • 不可靠传输(不检查丢包)
  • 面向数据报

6. 网络字节序

在之前学习 int 类型的存储的时候,提到过大端/小端的概念

6.1 说明

在网络中,数据流同样有大端小端之分。TCP/IP 协议规定,网络数据流应该采用大端字节序(低地址高字节)后发出的数据是高地址

image-20211203231627550

如上图的 1 为例,当网络中发送这个数字 1 的时候,会先发送 00 00 00,最后发送的是 01。这样能够方便数据的拼接

  • 发送主机将缓冲区中的数据按内存地址从低到高的顺序发出
  • 接受主机把数据依次保存到缓存区中,也是按地址从低到高的顺序保存

这个规定更重要的意思是,如果不对网络字节数据的大小端做出限制,那么网络里面就会出现既有大端又有小端的情况,得写俩套代码来处理这个问题。

限制为大端之后,小端机器就需要在发送信息之前将数据转为大端,在接收到数据之后,将数据转换为小端。此时的处理就是操作系统的工作了,和 TCP/IP 协议本身没有关系了😛

6.2 转换接口

为了提高可以移植性,有以下的这个接口将网络字节序和主机字节序进行转换

c
1
2
3
4
5
6
#include <arpa/inet.h>

uint32_t htonl(uint32_t hostlong);
uint16_t htons(uint16_t hostshort);
uint32_t ntohl(uint32_t hostlong);
uint16_t ntohs(uint16_t hostshort);

在命名中,n 代表 network,h 代表 host,l 代表 long,s 代表 short。

如果主机就是大端,这些函数什么都不会做。如果主机是小端,则会将主机字节序转换成网络字节序(或反之)

更多…

关于网络原理的前置知识暂时就记录这么多,后续有新增会来更新本文