[TCP/IP] 传输层代表协议--TCP协议介绍(1): TCP协议 数据格式、可靠性的控制、标记位... 简单介绍
UDP
协议的格式、数据等内容做了一些简单的介绍. 并且提到, 在网络协议栈TCP/IP
模型的传输层中, 有两个最具代表性的协议: UDP
和TCP
TCP
协议TCP
协议, 完整的称呼其实叫: 传输控制协议(Transmission Control Protocol)TCP
协议 实际是可以对数据的传输进行详细控制的TCP
协议格式
TCP
协议进行通信, 操作系统会对数据添加TCP
的协议报头, 那么TCP
协议的格式是这样的:TCP
协议报头要比UDP
协议报头复杂的多UDP
协议时提到过, TCP/IP
协议栈的每一层在进行数据传输时, 都需要考虑三个内容: 封装、解包和分用TCP
协议报头中有两个熟悉的面孔: 16位源端口号 和 16位目的端口号, 这两个数据的作用就不用多做介绍了, 是为了解决 分用 的问题的TCP
协议的封装和解包
UDP
协议的报头采用了8字节的固定长度, 所以可以很好的解决封装和解包的问题TCP
报文中, 我们可以看到在前20字节
之外, 还有一个占有n字节
的选项. 这n字节
的部分是不固定的, 并且也属于TCP
报头的内容TCP
报头没有选项时一共20字节
, 这20字节的数据是必须的, 被称为标准长度TCP
协议在使用时, 报头的长度可能90%的情况都是标准长度(20字节). 即使选项不是必须的, 也不能忽略那n字节
的选项长度TCP
报头的长度最少为20字节
, 但是并不固定 可能会更大.TCP
报头长度不固定, 那么怎么解决封装和解包的问题呢?TCP
报文格式可以发现, 在报头的第13字节(4位空间)
处, 存储的数据表示的是 首部长度. 这个首部长度, 实际就表示TCP
协议报头的长度TCP
报头长度最少20字节
, 但是报头中表示首部长度的数据只有4位, 最多也就能表示16个数据(0000~1111), 好像不太够用4位空间:
0000
0001
0010
0011
0100
0101
0110
0111
1000
1001
1010
1011
1100
1101
1110
1111
4位 16个数据
的单位并不是1字节
, 而是4字节
. 那么也就是说, 这四位数据最多可以表示 60字节
, 即 TCP
首部长度最大为60字节
TCP
报头的标准长度为20字节
, 也就是说最少为20字节
. 那么, 实际上这 4位表示首部长度的数据 至少是0101(5)
TCP
报头中存储有表示报头长度的数据, 那么就可以很好的解决封装和解包的问题问题:
TCP
报头并没有表示报文总长度的数据, 那么接收端如何接收到报文中所包含的所有数据呢这个问题要等到介绍网络
IP
层才会有一个答案
TCP
的可靠性
UDP/TCP Socket
的介绍, 还是上一篇文章中关于UDP
协议的介绍, 文章中总提到: UDP
协议是不可靠的, TCP
协议是可靠的UDP
协议中可能会经常出现. 不过, 既然使用了那么这些不可靠一定就不会对服务造成很大的影响UDP
协议不会对丢包、检验失败等情况做出处理, 即使接收方没有正常收到数据, 接收方也不会有任何反应, 发送方更不会做出弥补. 我们说这是UDP
协议更简单的一些代价TCP
协议则不同. 使用TCP
协议通信时, 如果出现了丢包等接收方没有收到数据的情况, TCP
协议会有一些处理, 比如: 重传、控制流量等TCP
协议是如何维护数据传输的可靠性的呢?TCP
协议的确认应答机制
TCP
协议会对接收方没有正常收到数据的情况做出弥补. 但是要实现这样的功能的第一个问题就是: 在这样的长距离通信中, 发送方(A)该如何确认发送的数据是丢了还是接收到了?TCP
协议也不是完全的可靠, 并且没有协议可以做到完全百分百的可靠TCP
协议可以做到局部的可靠. 只要保证最新消息之前的消息都有了应答, 那么最新消息之前的数据就可以确定都已经接收到. 这就是TCP
协议的可靠性TCP
协议的确认应答机制(ACK)TCP
协议进行通信, 绝大多数情况下发送的报文是有很多个的. 那么, 发送方如何知道, 接收方应答的是哪一个报文呢?这个问题是什么意思呢?
TCP
协议为了维护可靠性, 是有确认应答机制的在使用
TCP
进行通信时, 发送方可能一下发送很多报文, 接收方可能会一下子收到很多报文, 并且 接收方可能会针对接收到的每一个报文都单独做出应答但是, 报文在网络中传输是充满不确定性的, 即使按照一定的顺序发送, 也不一定会按照顺序到达
所以, 发送方收到的 接收方的应答报文 很大可能是乱序 (接收方实际也是这样)
那么, 发送方如何确定对方的应答报文, 应答的是哪一个报文呢?
TCP
协议报头中, 有两个字段: 32位序号 和 32位确认序号. 这两个字段, 可以解决上面这个问题TCP
协议在 发送数据 填充报头时, 会填充序号. 那么, 接收方接收到报文之后, 会根据报文的报头中填充的序号, 做出对应的应答. 即, 接收方 会在应答报文的报头中, 填充对应的确认序号TCP
协议报头中 32位序号 和 32位确认序号 这两个字段的作用TCP
协议全双工 的一种体现, 因为同一个报文中的序号和确认序号是相互独立的, 所以同一个报文中可以同时填充序号和确认序号, 那么就表示这个报文在具有应答功能的同时, 还携带有数据进行发送
TCP
协议规定了, 收到应答报文之后 发送方可以认为 确认序号之前的所有序号的报文都已经接收到那么, 基于协议, 在实际实现时就可能会出现这样的情况:
这是种实现被称为 积累应答 或 延迟应答, 可以有效提高通信效率
按照这样, 如果发送端发送了
1~10
序号的报文, 但是接收端只收到了1~6
和8~10
, 没有收到7
那么, 接收端应答报文中的确认序号 最高也只能填充
7
, 因为只有7
之前序号的报文都收到了, 即使8~10
也收到了, 也不会对其做出应答
TCP
协议通信时, 报文的起始序号实际是随机的并且, 后续的序号与 初始序号和报文数据本身 有关
序号协定的规则是什么呢?
首先, 起始序号是在建立连接时协定好的, 是随机的
并且,
TCP
协议会针对 报文数据的每一个字节进行编号一个报文的序号, 就表示此 报文数据的第一个字节的编号
如果存在此次
TCP
通信的第一个报文:那么上图表示的这个报文中,
7214
表示此次TCP
通信的初始序号, 同样也表示此报文数据的第一个字节的编号,那么第二个报文应为:
再之后的报文, 同样会按照相同的规则进行编号
TCP
协议的缓冲区及流量控制
UDP
协议的文章中提到过, 无论是UDP
协议还是TCP
协议. 在发送报文时, 都不会直接将数据发送到网络, 而是将数据放入内核针对协议实现的 发送缓冲区 中(UDP
没有真正的发送缓冲区). 接收数据也是相同的, 操作系统会将报文放入 接收缓冲区 中UDP
协议 在内核中没有实现真正的发送缓冲区, 只有接收缓冲区TCP
协议 则在内核中真正实现了 发送缓冲区和接收缓冲区TCP
协议进行通信, 使用write()/send()
和read()/recv()
接口实现数据发送和接收所执行的操作, 简单理解可以看作:ssize_t write(int fd, const void *buf, size_t count); ssize_t send(int sockfd, const void *buf, size_t len, int flags); ssize_t read(int fd, void *buf, size_t count); ssize_t recv(int sockfd, void *buf, size_t len, int flags);
这4个系统调用, 都需要指定一个
buf
TCP
协议进行通信:write()/send()
发送数据 实际 是将数据 从进程指定的缓冲区中拷贝到了内核中TCP
的发送缓冲区read()/recv()
读取数据 实际 是将数据 从内核中TCP
的接收缓冲区拷贝到了进程指定的缓冲区中write()/send()
实际并没有将数据发送走, 而只是将数据从用户拷贝到了内核数据中实际上, 常用的
I/O
类函数, 本质上都是拷贝函数即使使用
write()
向文件内写数据, 也只是将拷贝数据交给了操作系统, 并不是直接就写入了文件内
TCP
协议在内核中实现拥有发送缓冲区和接收缓冲区并且互不干扰, 所以TCP
协议通信是全双工的TCP
协议发送数据, 是将数据拷贝到发送缓冲区, 然后由内核中的TCP
协议自行决策(比如: 什么时候发、发多少、要不要进行一些调整…), 所以这个协议叫做 传输控制协议(Transmission Control Protocol)TCP
的流量控制
TCP
协议在内核中是拥有发送缓冲区和接收缓冲区的, 那么 既然是缓冲区, 那就一定有一定的大小TCP
协议通信是可靠的, 那么对发送出去的数据就不能不管不顾, 不能像UDP
那样(如果接收缓冲区满了, 再发送过来的数据报就丢掉不管了)TCP
协议发送数据过快, 导致接受方的接收缓冲区满了, 怎么办? 继续快速的发送数据, 然后接收方来不及接收 直接丢包不管吗?TCP
协议并不会这样. TCP
协议为了保障通信效率, 拥有自己的流量控制功能TCP
协议可以获取接收方当前接收数据的能力, 来调节发送方发送数据的速率client
需要向server
发送数据, client
可以根据server
端的接收能力, 动态调控自己发送数据的速率client
该如何知道server
的接受能力呢? server
的接收能力又如何表示呢?server
的 接收能力 就可以通过 接收缓冲区的剩余空间大小来表示client
该如何获取server
的接收缓冲区剩余空间大小呢?TCP
协议报头中, 有一个字段是 16位窗口大小, 这个 窗口大小表示的就是接收缓冲区剩余空间的大小client
接收到server
的应答时, 就可以获取到server
的窗口大小, 就可以调节自己发送速率, 进而实现流量控制问题:
既然在使用
TCP
协议正常通信时, 发送方可以通过接收方的应答报文中的窗口大小, 来获取接收方的接收能力那么, 发送方在第一次发送数据的时候, 如何知晓接收方的窗口大小呢?
TCP
报文类型 标记位
TCP
协议进行通信的时候, 需要先”三次握手”建立连接, 然后才能实现正常的数据通信, 并且在通信结束的时候, 还需要”四次挥手”断开连接TCP
通信时需要做出一些特殊的处理, 实际上TCP
报文是存在类型的, 针对不同类型的TCP
报文TCP
协议会做出不同的处理和响应:- 建立连接过程中发送的报文,
TCP
协议需要分辨出这个报文是建立连接用的, 然后会做出对应的处理与响应 - 正常通信过程中发送的报文,
TCP
协议需要分辨出这个报文是正常通信用的, 然后会做出对应的处理与响应 - 断开连接过程中发送的报文,
TCP
协议需要分辨出这个报文是断开连接用的, 然后会做出对应的处理与响应 - …
TCP
报文的类型, 则是通过TCP
报头中的 6个标记位 来标识、分区的:1. SYN
Synchronize Sequence Numbers
, 叫做 同步标记位2. FIN
Finish
, 叫做 结束标记位SYN
和FIN
这两个标志位的具体使用方法, 在具体介绍 TCP
的”三次握手”和”四次挥手”时再进行介绍3. ACK
TCP
确认应答机制时见到过, 全称是Acknowledgement Number
, 叫做 确认标记位ACK
标记位的使用 不仅仅只能作确认用ACK
标记位的, 也就是说ACK
标记位也允许在传输数据时设置TCP
连接建立完成之后, 实际使用TCP
协议进行通信时, 大部分的TCP
报文都会将ACK
标记位设置为14. PSH
Push Function
, 叫做 推送标记位I/O
操作的特点TCP
协议是拥有接收缓冲区的, 而在TCP
通信 调用read()
是从TCP
的接收缓冲区内拿数据到进程设置的缓冲区中read()
是一个阻塞式的接口, 当TCP
接收缓冲区没有数据时, 调用read()
的进程也好、线程也好 都会阻塞住, 直到TCP
的接收缓冲区有数据了, read()
才会继续执行读取数据. 这个过程中, read()
只有主动调用 才会检测TCP
接收缓冲区是否有数据, 然后才会阻塞或读取数据 的. 但是, 这样的阻塞式I/O
并没有非常高效I/O
接口(暂时不具体介绍). 也就是说, 应用层可以非阻塞式的从TCP
接收缓冲区读取数据. 大概就是, 当TCP
接收缓冲区没有数据的时候, 即使调用了非阻塞式接口, 进程或线程也不会阻塞住, 会结束执行. 而, 当TCP
接收缓冲区中的数据大小达到一定阈值了(即让应用层读取数据的条件满足了), 内核会去通知进程或线程 可以读取数据了, 然后才会重新调用非阻塞式接口, 然后将数据读取到应用层. 也就是说, 这样的非阻塞式接口, 是不需要主动调用才能接收数据的(当然也可以主动调用), 它可以等待内核的通知, 然后再调用 实现读取数据PSH
标志位, 就是 让内核通知应用层马上、尽快读取TCP
接收缓冲区内的数据 的. 即使TCP
接收缓冲区中的数据大小 还没有达到需要让内核通知应用层的阈值(即, 即使让应用层读取数据的条件并没有满足)5. URG
Urgent Pointer
, 叫做 紧急指针标记位TCP
通信时, 即使是按照序号的大小顺序发送的报文, 但是报文到达接收方的顺序也不一定是发送时的顺序. 即, 报文按顺序发送, 却乱序到达. 这是不可靠的一种体现, 而TCP
协议是可靠的, 那么接收方就需要保证 接收到的数据是按照顺序的1 2 3 4 5 6 7 8
发送数据, 数据却按照3 2 4 1 5 7 8 6
的顺序到达了, 如果接收方当时只接受到了3 2 4 1 5 7 8
, 还没接收到6
, 那么就会对已经接收到的报文排序1 2 3 4 5 7 8
, 发现6
之前的报文都收到了, 那么接收方就会对1~5序号
报文进行解包, 并应答确认序号6
TCP
可以实现报文数据按照发送顺序到达URG
标记位了TCP
协议的发送方就会设置URG
标志位, 接收方接收到报文读取到URG
被设置为1时, 就会选择将紧急数据存入 外带缓冲区. 应用层可以直接从外带缓冲区读取紧急数据, 所以紧急数据也叫做外带数据TCP
报头的另一个字段有关: 16位紧急指针TCP
报头中的紧急指针字段, 实际上就是指紧急数据在本报文数据中的字节偏移量, 并且 只能保存一个偏移量, 也就是说, 一个TCP
报文中只能标识1个紧急数据. 这也是为什么紧急数据只能是1字节RST
RST
标记位, 需要结合TCP
“三次握手”的过程来解释作者: 哈米d1ch 发表日期:2024 年 1 月 8 日