服务器日志网站分析的原理及优缺点(3)

发表于:2013-08-05来源:IT博客大学习作者:不详点击数: 标签:日志
3. 不精确的访问者记录 日志方法辨别独立访问者需要依靠客户端的IP地址,也只能依靠它。不过,IP地址显然不代表真正的访问者。上班族的整个办公室的

  3. 不精确的访问者记录

  日志方法辨别独立访问者需要依靠客户端的IP地址,也只能依靠它。不过,IP地址显然不代表真正的访问者。上班族的整个办公室的IP地址都可能是一个(使用代理服务器),而这个办公室可能坐着十多个人。这可能使访问者的数量被低估。

  同样,在家中,如果你购买了公共网络服务,那么你的IP地址存在动态分配的问题。你今天上网的IP地址和明天的可能就会不同,这个时候日志方法只能判断为两个不同的访问者。这又可能使访问者的数量被高估。

  此外,前面提到过日志是能够忠实记录机器(非人为)的访问活动的,但是机器不是人,它们的活动混在真实的人的访问之中,同样会使真实访问者的数量,或者访问数本身被高估。

  在这正反两相反方向的共同作用下,结果只能一个,那就是对于访问者数量的估算是非常模糊的。当然,我们必须要承认,无论用什么方法,网站访问者的精确数量都无法获得,但相对而言,日志方法要更不准确些。

  4. 较弱的实时性

  没错,网站服务器日志是记录服务器运行的实时数据的,但是这些数据想要被取出分析,实时性就没有那么好了。常见的情况是,你必须首先把服务器日志文件(log file)从服务器中取出来,而这些文件肯定不会是服务器正在运行过程中的数据,一般都是隔天的(需要验证),然后再把这些日志文件导入到专门针对日志分析的工具中才能进行分析。这个过程的快慢依赖于你的熟练程度,但要追求实时,颇有难度。

  有技术高超的站长或者工程师通过架设内部网络、组建专门的日志分析服务器,并且编写特定的程序来解决日志分析的实时性问题(http://www.phparticle.net/htmldata/36462/1/),但是,对于普通的中小网站,这种方法难度颇大,花费不菲,所以可行性不强。因此,实时性是绝大部分通过日志方法来分析网站数据时要面对的问题。

  5. 海量的数据存储

  服务器日志是忠实的,所以它会如实记录下来每一分每一秒发生的每一条服务器响应。对于一些流量稍大的网站,一天的网站日志记录超过数个G(Gigabytes)是非常正常的,而那些最大的网站,一个小时就可能产生数G的记录。我们没有詹姆斯・卡梅隆的超级团队(他的《阿凡达》特效需要处理超过500,000G的数据),所以如果要回溯网站一个月的流量就可能变成一个相当棘手的问题,需要投入相当的时间和耐心,如果你没有相当的技术和经验,效率就会很低。

  6. 日志文件获取繁琐

  我们不能把日志文件的获取想象的太简单,毕竟这不是在自己卧室的电脑中点开一个MP3文件那么容易。有些网站有镜像服务器,有些服务器在境外,有些服务器是由处在多个不同地理位置的物理服务器逻辑组合而成。这些情况下,在进行日志分析之前需要集中所有的日志文件,这是一个很有些麻烦的事情,尤其是当日志文件的体积极为庞大的时候。另外,如果是租用的ISP服务器空间,如果没有权限获取日志数据,那么实际上连进行分析的可能性都没有了。

  现在,你完全了解了日志方法收集网站分析数据的优缺点,那么,什么情况下你应该选择这种方法进行网站分析呢?

  4. 什么情况下该用日志分析方法

  如果你有如下的数据监测和分析的需要,你应该用日志分析方法:

  1. 需要了解搜索引擎机器人或者其他非人为访问流量,并且希望据此对网站进行针对性的优化,如通过分析搜索引擎的访问行为来进行SEO;

  2. 需要了解除了普通的PC客户端之外的上网设备对网站的访问情况;

  3. 需要了解网站的文件资源是否被用户完整的下载索取;

  4. 对网站流量信息具有极高的保密需要,不允许让任何第三方染指或帮忙;

  5. 对于网站服务器的安全性和可维护性有要求,以及有非常显著的反抗黑客或其他非授权访问需求的。

  如果有如下需求,你不应该用日志分析方法:

  1. 你的网站有重要的Flash之类的“非网页类型的互动”,用户和这些内容的互动是你想要了解的内容;

  2. 不喜欢麻烦,对大数据量文件的处理不擅长,对日志文件不熟悉,没有好的日志数据处理软硬件资源;

  3. 需要更精确的了解网站被真正的人访问的情况,而不需要了解“非人”的机器对网站的访问并且不希望受到网页缓存的干扰;

  4. 需要更好的实时性、更规律更直观的数据呈现。

  现在,拿着这个清单,你可以做出容易的选择了。因为我的博客(http://www.chinawebanalytics.cn)的流量很多来自搜索引擎,因此分析服务器日志并了解搜索引擎爬虫的工作其实是非常必要的一个分析工作之一。

  就我的经验而言,我们国家使用日志来分析网站仍然占有相当的比例,尤其是对于一些大型网站,他们会开发专门的软件,划拨专门的硬件资源来分析网站日志。不过,这不仅仅是从分析访问者行为的角度来考虑,更是从网站服务器的安全性和可维护性角度来考虑的。

  不过,如果你把网站分析的重心放在对于网站真实访问者行为的追踪和分析上,那么,通过日志方法来实现相对而言难度相对比较大,操作也比较繁琐,我们可以利用另一种方法,即页面标记法(Page Tag)来实现对网站访问数据的收集。

  [版权归Sidney Song(宋星)所有,欢 迎转载,但请事先告知作者并注明出处]

  好了,介绍完了,希望大家觉得看完后还算愉快!现在是大家的时间了,请您留言,任何问题,想法,不确切之处,都非常欢迎!谢谢!

原文转自:http://blogread.cn/it/article/1891?f=wb