在长时间的网站开发过程中能作一个百万IP的网站对我来说真是一个新的挑战由于本人的水平有限所以一直就职于一个小公司在这里也只是抱着重在参与的想法在以后我所讲述到的内容知识点上如有不适之处请大家多多批评指教
在一开始接触PHP接触MYSQL的时候就听不少人说Mysql就跑跑一天几十万IP的小站还可以要是几百万IP就不行了原话不记得了大体就是这个意思一直也没有好的机会去验证这个说法一是从没有接手过这么大流量的网站二是平时工作也比较忙懒得去管这些反正现在用不着抱着这个想法把这个问题一直留到了最近才把这个问题搞明白
就在前几天公司旗下一网站(由于这是公司的商业内容我就不说是那个网站了免得有兄弟说是AD)以下简称A站这A站在年后流量猛增从一天的七八十万猛跑到了好几百万的IP一天下来接近一千万的Pv让整个服务器在高压下超负荷的工作着时不时的服务就出现当机
最首先反映出情况的是数据统计一天下来一个数据也没有统计上原来是mysql挂了
本文就围绕这个问题来讲讲我们公司几个技术人员的解决方案
Mysql服务器集群
由于是小公司在资金和成本上都有所限制而且在技术上也没有几个技术员接触过所以这个方法自然就让大伙否决了
这里说说我个人的理解!做集群不但添加资费的开销而且在技术上也有很大的挑战对于我们公司目前的情况是不大现实的集群无非就是把一台服务器的压力转接到两台或是多台服务器上我是这么理解的也许我理解有误还请大家指教
分而治之
这个方法和集群差不多不过是把统计的代码放在不同的服务器上跑由于公司有不少配置低的服务器跑几万到几十万IP还是没有问题的我们可以把几百万流量分成十来个几十万的量分而统计
优点充分的利用了现在的资源解决了目前的问题
缺点这样的方法不是长久之计迟早还是会出问题的而且在统计数据的时候比较麻烦
统计代码的修改
由于之前采用的是在插入数据之前加以判断这个IP是否存在来路等的处理无形中增加了服务器的压力所以大伙把统计代码改成来一个就插入数据库不管三七二十一等以后在处理
这个方法基本上把当天的数据保留下来了可是在处理的时候由于数据量的庞大来来回回还是把服务器跑死了而且在插入的时候由于当时设计数据结构的时候留有的索引也大大的消耗了不少的服务器资源
那么把索引去掉到最后处理的时候又是老慢的得不偿失
统计方式的修改
最后这一个方法效果非常的明显那是什么方法呢!
这里就主要介绍这个方法
A 保留原用的数据结构不变并把所有的数据按一定的结构存入文件
结构可以是xmljson也可以是你自己想的任何有规律的数据排放
例如
windowxp\r\n
windowxp\r\n
写入文件:fopenfwrite??no 这里介绍一个非常好用的技巧也许大家都知道但是像我这样的菜鸟大概都不知道那就是用error_log这不是写错误日志的吗?对就是他非常方便
格式
error_log(内容 /datedat);
这里我就不说他的具体用了不明白的朋友可以查一下手册
B数据文件的命名
为什么这里要讲文件的命名呢?如果就一味的把数据的写入文件不作任何的处理那么他和直接插入数据库有多大的区别呢?那么我们所作的一切都是无用功了
首先是在时间的利用上:date(YmdH)得到的值是如这有什么好入这样一来这个数据就是一个小时一个文件必免了文件过大而且不用去判断自动生成
IP的应用由于在很多数据上都是一个IP操作的所以把相同IP的数据放在一个文件里在后面的处理就非常方便处理请看后面的介绍这里我们取IP成三位为文件名字的一部分
C 数据的导入处理
通过以上两位的操作当天的数据会一个不少的保留下来接下来怎么处理其实并不是很重要了但是这里还是讲讲我的想法
入库前处理
前面讲到把IP三位相同的放一个文件就是为了入库前到它们进行处理首先可以用最笨的方法把数据拆成N个数据在进行重复数据的删除
如果一个IP浏览多页那么PV在这里就可以得到统计并把访问的页面进行处理组成新的数据
导入方法
这里要介绍一下数据的导入方法
$sql=LOAD DATA INFILE $file INTO TABLE `test` FIELDS TERMINATED BY LINES TERMINATED BY \r\n(
`time` `md`
);
就这一个语句在导入几十万数据的时候可以说是刷刷的用法我这里也不过多介绍了大家有不明白的可以查手册所以说解决数据库的瓶颈的办法不定要加设备也不一定要换数据库只要换一个思路就能解决不少问题
至此所以有数据也就讲的差不多了由于我肚子里的墨水太少如有不得当之处还请大家见谅