Nginx负载均衡使用心得－应用技巧(2)

三、测试发现的问题及解决办法

1、当后端两台PHP应用服务器都正常时，访问速度非常快，查看日志，原来一个请求，是后端两台服务器同时响应的；

2、为了模仿故障测试，停掉一台PHP应用服务器，这时再访问，请求打开一页面时，发现有一半响应比较快，另一半响应很慢，最后页面是可以打开，但速度不理想，很慢，查看error日志，发现nginx还是把请求的一半发往已停掉的那台服务器，难怪会这么慢；但当很快（10秒内）再打开一个请求页面时，速度又非常快了，查看日志，发现nginx不会把请求的一半发往已停掉的那台服务器；过一会再发起一个请求时，又出现有一半响应比较快另一半响应很慢的现象了，查看日志，nginx又把请求的一半发往已停掉的那台服务器；

3、到这里，我明白了nginx检查后端应用服务器的健康时是有一个时间间隔的，应该怎样处理这个问题呢，当后端有一台服务器down机时，用户访问感觉不出有慢的现象？原来在nginx负载均衡配置里加上下面两个参数时可以有效的解决这个问题：

upstream phpserver {

server 192.168.0.20:80 weight=5 max_fails=2 fail_timeout=600s;

server 192.168.0.21:80 weight=5 max_fails=2 fail_timeout=600s;

}

3.1）max_fails = NUMBER ---- 在一定时间内（这个时间在fail_timeout参数中设置）检查这个服务器是否可用时产生的最多失败请求数，默认为1，将其设置为0可以关闭检查，这些错误在proxy_next_upstream或fastcgi_next_upstream（404错误不会使max_fails增加）中定义；

3.2）fail_timeout = TIME ---- 在这个时间内产生了max_fails所设置大小的失败尝试连接请求后这个服务器可能不可用，同样它指定了服务器不可用的时间（在下一次尝试连接请求发起之前），默认为10秒，fail_timeout与前端响应时间没有直接关系，不过可以使用proxy_connect_timeout和 proxy_read_timeout来控制。

我设置当有2个请求失败，就表示后端的服务器不可用，在以后的600S时间内nginx不会再把请求发往已检查出标记为不可用的服务器，再次测试时，把后端一台PHP应用服务务器停掉，只是有一个请求打开页面时出现上面的现象，以后10分钟内都不会出现了，请求页面打开速度正常，fail_timeout的值可以根据你的实际情况而定。