三、测试发现的问题及解决办法
1、当后端两台PHP应用服务器都正常时,访问速度非常快,查看日志,原来一个请求,是后端两台服务器同时响应的;
2、为了模仿故障测试,停掉一台PHP应用服务器,这时再访问,请求打开一页面时,发现有一半响应比较快,另一半响应很慢,最后页面是可以打开,但速度不理想,很慢,查看error日志,发现nginx还是把请求的一半发往已停掉的那台服务器,难怪会这么慢;但当很快(10秒内)再打开一个请求页面时,速度又非常快了,查看日志,发现nginx不会把请求的一半发往已停掉的那台服务器;过一会再发起一个请求时,又出现有一半响应比较快另一半响应很慢的现象了,查看日志,nginx又把请求的一半发往已停掉的那台服务器;
3、到这里,我明白了nginx检查后端应用服务器的健康时是有一个时间间隔的,应该怎样处理这个问题呢,当后端有一台服务器down机时,用户访问感觉不出有慢的现象?原来在nginx负载均衡配置里加上下面两个参数时可以有效的解决这个问题:
upstream phpserver {
server 192.168.0.20:80 weight=5 max_fails=2 fail_timeout=600s;
server 192.168.0.21:80 weight=5 max_fails=2 fail_timeout=600s;
}
3.1)max_fails = NUMBER ---- 在一定时间内(这个时间在fail_timeout参数中设置)检查这个服务器是否可用时产生的最多失败请求数,默认为1,将其设置为0可以关闭检查,这些错误在proxy_next_upstream或fastcgi_next_upstream(404错误不会使max_fails增加)中定义;
3.2)fail_timeout = TIME ---- 在这个时间内产生了max_fails所设置大小的失败尝试连接请求后这个服务器可能不可用,同样它指定了服务器不可用的时间(在下一次尝试连接请求发起之前),默认为10秒,fail_timeout与前端响应时间没有直接关系,不过可以使用proxy_connect_timeout和 proxy_read_timeout来控制。
我设置当有2个请求失败,就表示后端的服务器不可用,在以后的600S时间内nginx不会再把请求发往已检查出标记为不可用的服务器,再次测试时,把后端一台PHP应用服务务器停掉,只是有一个请求打开页面时出现上面的现象,以后10分钟内都不会出现了,请求页面打开速度正常,fail_timeout的值可以根据你的实际情况而定。