linux下怎么设置tcp_系统运维

Socket的send函数在执行时报EAGAIN的错误当客户通过Socket提供的send函数发送大的数据包时，就可能返回一个EGGAIN的错误。该错误产生的原因是由于send 函数中的size变量大小超过了tcp_sendspace的值。tcp_sendspace定义了应用在调用send之前能够在kernel中缓存的数据量。当应用程序在socket中设置了O_NDELAY或者O_NONBLOCK属性后，如果发送缓存被占满，send就会返回EAGAIN的错误。为了消除该错误，有三种方法可以选择： 1.调大tcp_sendspace，使之大于send中的size参数 ---no -p -o tcp_sendspace=65536 2.在调用send前，在setsockopt函数中为SNDBUF设置更大的值 3.使用write替代send，因为write没有设置O_NDELAY或者O_NONBLOCK1. tcp 收发缓冲区默认值 [root@qljt core]# cat /proc/sys/net/ipv4/tcp_rmem 409687380 416153687380 ：tcp接收缓冲区的默认值[root@qljt core]# cat /proc/sys/net/ipv4/tcp_wmem 409616384 416153616384 ： tcp 发送缓冲区的默认值2. tcp 或udp收发缓冲区最大值[root@qljt core]# cat /proc/sys/net/core/rmem_max 131071131071：tcp 或 udp 接收缓冲区最大可设置值的一半。也就是说调用 setsockopt(s, SOL_SOCKET, SO_RCVBUF, &rcv_size, &optlen) 时rcv_size 如果超过 131071，那么getsockopt(s, SOL_SOCKET, SO_RCVBUF, &rcv_size, &optlen)去到的值就等于 131071 * 2 = 262142[root@qljt core]# cat /proc/sys/net/core/wmem_max 131071131071：tcp 或 udp 发送缓冲区最大可设置值得一半。跟上面同一个道理3. udp收发缓冲区默认值[root@qljt core]# cat /proc/sys/net/core/rmem_default 111616：udp接收缓冲区的默认值[root@qljt core]# cat /proc/sys/net/core/wmem_default 111616111616：udp发送缓冲区的默认值. tcp 或udp收发缓冲区最小值tcp 或udp接收缓冲区的最小值为 256 bytes，由内核的宏决定；tcp 或udp发送缓冲区的最小值为 2048 bytes，由内核的宏决定setsockopt设置socket状态1.closesocket（一般不会立即关闭而经历TIME_WAIT的过程）后想继续重用该socket：BOOL bReuseaddr=TRUEsetsockopt(s,SOL_SOCKET ,SO_REUSEADDR,(const char*)&bReuseaddr,sizeof(BOOL))2. 如果要已经处于连接状态的soket在调用closesocket后强制关闭，不经历TIME_WAIT的过程：BOOL bDontLinger = FALSEsetsockopt(s,SOL_SOCKET,SO_DONTLINGER,(const char*)&bDontLinger,sizeof(BOOL))3.在send(),recv()过程中有时由于网络状况等原因，发收不能预期进行,而设置收发时限：int nNetTimeout=1000//1秒//发送时限setsockopt(socket，SOL_S0CKET,SO_SNDTIMEO，(char *)&nNetTimeout,sizeof(int))//接收时限setsockopt(socket，SOL_S0CKET,SO_RCVTIMEO，(char *)&nNetTimeout,sizeof(int))4.在send()的时候，返回的是实际发送出去的字节(同步)或发送到socket缓冲区的字节(异步)系统默认的状态发送和接收一次为8688字节(约为8.5K)；在实际的过程中发送数据和接收数据量比较大，可以设置socket缓冲区，而避免了send(),recv()不断的循环收发：// 接收缓冲区int nRecvBuf=32*1024//设置为32Ksetsockopt(s,SOL_SOCKET,SO_RCVBUF,(const char*)&nRecvBuf,sizeof(int))//发送缓冲区int nSendBuf=32*1024//设置为32Ksetsockopt(s,SOL_SOCKET,SO_SNDBUF,(const char*)&nSendBuf,sizeof(int))5. 如果在发送数据的时，希望不经历由系统缓冲区到socket缓冲区的拷贝而影响程序的性能：int nZero=0setsockopt(socket，SOL_S0CKET,SO_SNDBUF，(char *)&nZero,sizeof(nZero))6.同上在recv()完成上述功能(默认情况是将socket缓冲区的内容拷贝到系统缓冲区)：int nZero=0setsockopt(socket，SOL_S0CKET,SO_RCVBUF，(char *)&nZero,sizeof(int))7.一般在发送UDP数据报的时候，希望该socket发送的数据具有广播特性：BOOL bBroadcast=TRUEsetsockopt(s,SOL_SOCKET,SO_BROADCAST,(const char*)&bBroadcast,sizeof(BOOL))8.在client连接服务器过程中，如果处于非阻塞模式下的socket在connect()的过程中可以设置connect()延时,直到accpet()被呼叫(本函数设置只有在非阻塞的过程中有显著的作用，在阻塞的函数调用中作用不大)BOOL bConditionalAccept=TRUEsetsockopt(s,SOL_SOCKET,SO_CONDITIONAL_ACCEPT,(const char*)&bConditionalAccept,sizeof(BOOL))9.如果在发送数据的过程中(send()没有完成，还有数据没发送)而调用了closesocket(),以前我们一般采取的措施是"从容关闭"shutdown(s,SD_BOTH),但是数据是肯定丢失了，如何设置让程序满足具体应用的要求(即让没发完的数据发送出去后在关闭socket)？struct linger {u_short l_onoffu_short l_linger}linger m_sLingerm_sLinger.l_onoff=1//(在closesocket()调用,但是还有数据没发送完毕的时候容许逗留)// 如果m_sLinger.l_onoff=0则功能和2.)作用相同m_sLinger.l_linger=5//(容许逗留的时间为5秒)setsockopt(s,SOL_SOCKET,SO_LINGER,(const char*)&m_sLinger,sizeof(linger))设置套接口的选项。 #include <winsock.h> int PASCAL FAR setsockopt( SOCKET s, int level, int optname, const char FAR* optval, int optlen) s：标识一个套接口的描述字。 level：选项定义的层次；目前仅支持SOL_SOCKET和IPPROTO_TCP层次。 optname：需设置的选项。 optval：指针，指向存放选项值的缓冲区。 optlen：optval缓冲区的长度。注释：setsockopt()函数用于任意类型、任意状态套接口的设置选项值。尽管在不同协议层上存在选项，但本函数仅定义了最高的“套接口”层次上的选项。选项影响套接口的 *** 作，诸如加急数据是否在普通数据流中接收，广播数据是否可以从套接口发送等等。有两种套接口的选项：一种是布尔型选项，允许或禁止一种特性；另一种是整形或结构选项。允许一个布尔型选项，则将optval指向非零整形数；禁止一个选项optval指向一个等于零的整形数。对于布尔型选项，optlen应等于sizeof(int)；对其他选项，optval指向包含所需选项的整形数或结构，而optlen则为整形数或结构的长度。SO_LINGER选项用于控制下述情况的行动：套接口上有排队的待发送数据，且 closesocket()调用已执行。参见closesocket()函数中关于SO_LINGER选项对closesocket()语义的影响。应用程序通过创建一个linger结构来设置相应的 *** 作特性： struct linger {int l_onoffint l_linger } 为了允许SO_LINGER，应用程序应将l_onoff设为非零，将l_linger设为零或需要的超时值（以秒为单位），然后调用setsockopt()。为了允许SO_DONTLINGER（亦即禁止SO_LINGER），l_onoff应设为零，然后调用setsockopt()。缺省条件下，一个套接口不能与一个已在使用中的本地地址捆绑（参见bind()）。但有时会需要“重用”地址。因为每一个连接都由本地地址和远端地址的组合唯一确定，所以只要远端地址不同，两个套接口与一个地址捆绑并无大碍。为了通知WINDOWS套接口实现不要因为一个地址已被一个套接口使用就不让它与另一个套接口捆绑，应用程序可在bind()调用前先设置SO_REUSEADDR选项。请注意仅在bind()调用时该选项才被解释；故此无需（但也无害）将一个不会共用地址的套接口设置该选项，或者在bind()对这个或其他套接口无影响情况下设置或清除这一选项。一个应用程序可以通过打开SO_KEEPALIVE选项，使得WINDOWS套接口实现在TCP连接情况下允许使用“保持活动”包。一个WINDOWS套接口实现并不是必需支持“保持活动”，但是如果支持的话，具体的语义将与实现有关，应遵守RFC1122“Internet主机要求－通讯层”中第 4.2.3.6节的规范。如果有关连接由于“保持活动”而失效，则进行中的任何对该套接口的调用都将以WSAENETRESET错误返回，后续的任何调用将以WSAENOTCONN错误返回。 TCP_NODELAY选项禁止Nagle算法。Nagle算法通过将未确认的数据存入缓冲区直到蓄足一个包一起发送的方法，来减少主机发送的零碎小数据包的数目。但对于某些应用来说，这种算法将降低系统性能。所以TCP_NODELAY可用来将此算法关闭。应用程序编写者只有在确切了解它的效果并确实需要的情况下，才设置TCP_NODELAY选项，因为设置后对网络性能有明显的负面影响。TCP_NODELAY是唯一使用IPPROTO_TCP层的选项，其他所有选项都使用SOL_SOCKET层。如果设置了SO_DEBUG选项，WINDOWS套接口供应商被鼓励（但不是必需）提供输出相应的调试信息。但产生调试信息的机制以及调试信息的形式已超出本规范的讨论范围。setsockopt()支持下列选项。其中“类型”表明optval所指数据的类型。选项类型意义SO_BROADCAST BOOL 允许套接口传送广播信息。SO_DEBUG BOOL 记录调试信息。SO_DONTLINER BOOL 不要因为数据未发送就阻塞关闭 *** 作。设置本选项相当于将SO_LINGER的l_onoff元素置为零。SO_DONTROUTE BOOL 禁止选径；直接传送。SO_KEEPALIVE BOOL 发送“保持活动”包。SO_LINGER struct linger FAR* 如关闭时有未发送数据，则逗留。SO_OOBINLINE BOOL 在常规数据流中接收带外数据。SO_RCVBUF int 为接收确定缓冲区大小。SO_REUSEADDR BOOL 允许套接口和一个已在使用中的地址捆绑（参见bind()）。SO_SNDBUF int 指定发送缓冲区大小。TCP_NODELAY BOOL 禁止发送合并的Nagle算法。setsockopt()不支持的BSD选项有：选项名类型意义SO_ACCEPTCONN BOOL 套接口在监听。SO_ERROR int 获取错误状态并清除。SO_RCVLOWAT int 接收低级水印。SO_RCVTIMEO int 接收超时。SO_SNDLOWAT int 发送低级水印。SO_SNDTIMEO int 发送超时。SO_TYPE int 套接口类型。IP_OPTIONS在IP头中设置选项。返回值：若无错误发生，setsockopt()返回0。否则的话，返回SOCKET_ERROR错误，应用程序可通过WSAGetLastError()获取相应错误代码。错误代码： WSANOTINITIALISED：在使用此API之前应首先成功地调用WSAStartup()。 WSAENETDOWN：WINDOWS套接口实现检测到网络子系统失效。 WSAEFAULT：optval不是进程地址空间中的一个有效部分。 WSAEINPROGRESS：一个阻塞的WINDOWS套接口调用正在运行中。 WSAEINVAL：level值非法，或optval中的信息非法。 WSAENETRESET：当SO_KEEPALIVE设置后连接超时。 WSAENOPROTOOPT：未知或不支持选项。其中，SOCK_STREAM类型的套接口不支持SO_BROADCAST选项，SOCK_DGRAM 类型的套接口不支持SO_DONTLINGER 、SO_KEEPALIVE、SO_LINGER和SO_OOBINLINE选项。 WSAENOTCONN：当设置SO_KEEPALIVE后连接被复位。 WSAENOTSOCK：描述字不是一个套接口。

[TOC]

TCP协议中的Nagle算法

TCP中的Nagle算法

Linux下TCP延迟确认(Delayed Ack)机制导致的时延问题分析

TCP-IP详解：Delay ACK

Nagle算法为了避免网络中存在太多的小数据包，尽可能发送大的数据包。定义为在任意时刻，最多只有一个未被确认的小段。小段为小于MSS尺寸的数据块，未被确认是指数据发出去后未收到对端的ack。

Nagle算法是在网速较慢的时代的产物，目前的网络环境已经不太需要该机制，该算法在linux系统中默认关闭。

1)如果包长度达到MSS，则允许发送；

2)如果该包含有FIN，则允许发送；

3)设置了TCP_NODELAY选项，则允许发送；

4)未设置TCP_CORK选项时，若所有发出去的包均被确认，或所有发出去的小数据包(包长度小于MSS)均被确认，则允许发送。

对于规则4)，就是说要求一个TCP连接上最多只能有一个未被确认的小数据包，在该分组的确认到达之前，不能发送其他的小数据包。如果某个小分组的确认被延迟了(案例中的40ms)，那么后续小分组的发送就会相应的延迟。也就是说延迟确认影响的并不是被延迟确认的那个数据包，而是后续的应答包。

tcp默认使用nagle算法，最大限度的进行缓存。

优点：避免网络中充斥着许多小数据块，降低网络负载，减少网络拥塞，提高网络吞吐

缺点：客户端的延迟会增加，实时性降低，不适合延时要求尽量小的场景；且对于大文件传输这种场景，会降低传输速度。

用TCP_NODELAY选项可以禁止Negale 算法。此时，应用程序向内核递交的每个数据包都会立即发送出去。需要注意的是，虽然禁止了Negale 算法，但网络的传输仍然受到TCP确认延迟机制的影响。

TCP在接收到对端的报文后，并不会立即发送ack，而是等待一段时间发送ack，以便将ack和要发送的数据一块发送。当然ack不能无限延长，否则对端会认为包超时而造成报文重传。linux采用动态调节算法来确定延时的时间。

TCP在何时发送ACK的时候有如下规定：

优点：减少了数据段的个数，提高了发送效率

缺点：过多的delay会拉长RTT（往返时延）

可以通过TCP_QUICKACK这个选项来启动快速ACK：

所谓的CORK就是塞子的意思,形象地理解就是用CORK将连接塞住,使得数据先不发出去,等到拔去塞子后再发出去。Cork算法与Nagle算法类似，也有人把Cork算法称呼为super-Nagle。Nagle算法提出的背景是网络因为大量小包小包而导致利用率低下产生网络拥塞，网络发生拥塞的时候性能还会进一步下降，因此Nagle算法通过ACK确认包来触发新数据包的发送(ACK确认包意味着对端已经接收到了一个数据包，即有一个数据包已经离开中间网络，此时可以在向中间网络注入一个数据包块，这称呼为self-clocking)。Cork算法则更为激进，一旦打开Cork算法，TCP不关注是否有收到ACK报文，只要当前缓存中累积的数据量不足以组成一个full-sized数据包就不会将数据包发出，直到一个RTO超时后才会把不满足一个full-sized的数据包发出去(实际上是通过一个persist timer来设置的这个RTO定时时间，persist timer超时的时候就会强制发送)。

linux中可以通过TCP_CORK选项来设置socket打开Cork算法。TCP_NODELAY选项和TCP_CORK选项在linux早期版本是互斥的，但目前最新的linux版本已经可以同时打开这两个选项了，但是TCP_CORK选项的优先级要比TCP_NODELAY选项的优先级要高。

Nagle算法和CORK算法非常类似,但是它们的着眼点不一样,Nagle算法主要避免网络因为太多的小包(协议头的比例非常之大)而拥塞,而CORK算法则是为了提高网络的利用率,使得总体上协议头占用的比例尽可能的小.如此看来这二者在避免发送小包上是一致的,在用户控制的层面上,Nagle算法完全不受用户socket的控制,你只能简单的设置TCP_NODELAY而禁用它,CORK算法同样也是通过设置或者清除TCP_CORK使能或者禁用之,然而Nagle算法关心的是网络拥塞问题,只要所有的ACK回来则发包,而CORK算法却只关心内容,在前后数据包发送间隔很短的前提下(很重要,否则内核会帮你将分散的包发出),即使你是分散发送多个小数据包,你也可以通过使能CORK算法将这些内容拼接在一个包内,如果此时用Nagle算法的话,则可能做不到这一点.

优点：提高网络的利用率

缺点：对实时性有影响

使用TCP_CORK参数进行配置

百度nginx，就有很多配置安装技巧了。问题的涉及范围太广了，不好回答。

仅作参考：

#运行用户

user nobody

#启动进程,通常设置成和cpu的数量相等

worker_processes 1

#全局错误日志及PID文件

#error_log logs/error.log

#error_log logs/error.log notice

#error_log logs/error.log info

#pid logs/nginx.pid

#工作模式及连接数上限

events {

#epoll是多路复用IO(I/O Multiplexing)中的一种方式,

#仅用于linux2.6以上内核,可以大大提高nginx的性能

use epoll

#单个后台worker process进程的最大并发链接数

worker_connections 1024

# 并发总数是 worker_processes 和 worker_connections 的乘积

# 即 max_clients = worker_processes * worker_connections

# 在设置了反向代理的情况下，max_clients = worker_processes * worker_connections / 4 为什么

# 为什么上面反向代理要除以4，应该说是一个经验值

# 根据以上条件，正常情况下的Nginx Server可以应付的最大连接数为：4 * 8000 = 32000

# worker_connections 值的设置跟物理内存大小有关

# 因为并发受IO约束，max_clients的值须小于系统可以打开的最大文件数

# 而系统可以打开的最大文件数和内存大小成正比，一般1GB内存的机器上可以打开的文件数大约是10万左右

# 我们来看看360M内存的VPS可以打开的文件句柄数是多少：

# $ cat /proc/sys/fs/file-max

# 输出 34336

# 32000 < 34336，即并发连接总数小于系统可以打开的文件句柄总数，这样就在 *** 作系统可以承受的范围之内

# 所以，worker_connections 的值需根据 worker_processes 进程数目和系统可以打开的最大文件总数进行适当地进行设置

# 使得并发总数小于 *** 作系统可以打开的最大文件数目

# 其实质也就是根据主机的物理CPU和内存进行配置

# 当然，理论上的并发总数可能会和实际有所偏差，因为主机还有其他的工作进程需要消耗系统资源。

# ulimit -SHn 65535

}

http {

#设定mime类型,类型由mime.type文件定义

include mime.types

default_type application/octet-stream

#设定日志格式

log_format main '$remote_addr - $remote_user [$time_local] "$request" '

'$status $body_bytes_sent "$http_referer" '

'"$http_user_agent" "$http_x_forwarded_for"'

access_log logs/access.log main

#sendfile 指令指定 nginx 是否调用 sendfile 函数（zero copy 方式）来输出文件，

#对于普通应用，必须设为 on,

#如果用来进行下载等应用磁盘IO重负载应用，可设置为 off，

#以平衡磁盘与网络I/O处理速度，降低系统的uptime.

sendfile on

#tcp_nopush on

#连接超时时间

#keepalive_timeout 0

keepalive_timeout 65

tcp_nodelay on

#开启gzip压缩

gzip on

gzip_disable "MSIE [1-6]."

#设定请求缓冲

client_header_buffer_size 128k

large_client_header_buffers 4 128k

#设定虚拟主机配置

server {

#侦听80端口

listen 80

#定义使用 www.zz04.com访问

server_name www.zz04.com

#定义服务器的默认网站根目录位置

root html

#设定本虚拟主机的访问日志

access_log logs/nginx.access.log main

#默认请求

location / {

#定义首页索引文件的名称

index index.php index.html index.htm

}

# 定义错误提示页面

error_page 500 502 503 504 /50x.html

location = /50x.html {

}

#静态文件，nginx自己处理

location ~ ^/(images|javascript|js|css|flash|media|static)/ {

#过期30天，静态文件不怎么更新，过期可以设大一点，

#如果频繁更新，则可以设置得小一点。

expires 30d

}

#PHP 脚本请求全部转发到 FastCGI处理. 使用FastCGI默认配置.

location ~ .php$ {

fastcgi_pass 127.0.0.1:9000

fastcgi_index index.php

fastcgi_param SCRIPT_FILENAME $document_root$fastcgi_script_name

include fastcgi_params

}

#禁止访问 .htxxx 文件

location ~ /.ht {

deny all

}

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/7263857.html

linux下怎么设置tcp

发表评论

评论列表（0条）