如何查看服务器日志进行网站分析 服务器日志分析方法

大标 2022年9月8日13:39:12网络推广评论0阅读模式

分析服务器日志并不容易。新手,在大多数情况下,专注于用户行为分析的web分析不使用服务器日志,而是使用流量统计工具。然而,作为web分析历史上不可分割的一部分和重要的基础章节,服务器日志方法仍然值得学习。


真正的web分析从服务器日志开始。直到今天,分析服务器日志文件仍然是web分析中的一种重要方法。
1.什么是服务器日志?

这里的服务器指的是web服务器。服务器日志就像飞机的黑盒子,用于记录web服务器的操作信息,或者简单地记录服务器中的哪些页面在什么时间被谁访问。

简而言之,服务器日志是包含的日志。记录各种原始信息,如web服务器接收的处理请求和运行时错误。

网站日志的最大意义是记录网站操作,如空间操作和访问请求。通过网站日志,我们可以清楚地知道IP用户在哪里。什么时候使用什么操作系统?什么是浏览器?以何种分辨率显示访问您网站的哪个页面?访问成功吗?

例如,您访问我的网站:http://www.jiaidc.com一般来说,网站服务器的日志将记录某个IP的访问者在某个时间索引了网页“/index.PHP"。当然,网站服务器的日志还记录了许多其他内容,可以帮助我们分析网站的流量和访问者在网站上的行为。

Web分析从网站服务器日志开始,或者更准确地说,网站服务器日志自诞生以来一直被Web分析使用。

最早,人们取出所有记录,然后将它们导入数据软件进行分析。不用说,这很难。但这一痛苦阶段不会持续太久。哪里有痛苦,哪里就有生意。于是,网站日志分析软件应运而生。它解决了所有规模的互联网服务提供商(ISP)为租用其空间的用户提供免费网站日志分析软件的大问题。

尽管如此,马觉得一直分析网站日志并不容易,人们必须找到一些更方便的方法,因此他在网络分析中发明了一种新的数据采集方法,这将在后面讨论。

2.如何生成服务器日志?

上图说明了如何生成web服务器日志。当用户访问网站时,他实际上是在访问网站的特定页面。让我们假设这个页面被称为第一页。此时,我们的访问行为将请求服务器中page1的实际文件,然后将文件下载到浏览器。由于请求和下载行为都会导致服务器响应并采取相应的操作,因此有必要记录服务器的这些操作。

为什么需要记录服务器的操作?原因很简单,因为我们不希望这个服务器变成“Hal 9000"(Hal 9000是库布里克2001年太空漫游中的一台自我意识计算机,直接威胁到电影中的宇航员)!当然,这只是一个玩笑。

但其目的是一样的,即可以通过服务器日志记录服务器的运行历史,以便在出现任何异常情况时通过日志找到问题的原因,这与记录飞机运行状态的黑匣子的功能非常相似。

3.服务器日志中包含的信息

原理似乎并不复杂,但日志文件并不简单。为了使日志文件可读,日志文件不能根据每个网站管理员的偏好随意记录,而是有自己的规范。W3C定义了服务器日志文件的通用格式,而其他组织或个人根据自己的需要扩展了这种格式,以便日志文件可以全面记录web服务器的各种活动。

标准web服务器日志记录通常包含以下信息:

① 远程主机的IP地址/名称

② , 登录(登录名)和完全登录(全名)

③ 请求日期(日期)

④ 请求发生的时间(时间)

⑤ , 标准格林尼治平均时间(GMT时差)

⑥ 请求方法(请求方法)

⑦ 请求文件的地址(文件)

⑧ 需要遵守的协议。

⑨ , 请求状态

⑩ , 请求文件的长度(长度)

4.如何分析和查看服务器日志文件?

以下是标准日志文件记录:

202.71.113.38-[2014年1月3日:01:56:12+0800]”获取/HTTP://www.jiaidc。com HTTP/1.0;200 5122

马的博客注释分析;

从左到右,202.71.113.38是

有时,一个小时的记录可能超过几千兆字节的容量。如果你的网站的服务器日志每月只有100万,你需要加油。没有人气的网站就没有生命力。

5.使用网站服务器日志分析网站的优势。

如果你问我在什么情况下选择使用网站服务器日志进行web分析,我建议,如果没有必要,那么找到一些更简单的方法,以事半功倍的效果。看看下面的内容,你就会知道我为什么这么说。

虽然这是一项技术活动,但通过使用网站服务器日志进行网络分析仍有许多优势。

(1) 网站服务器的日志是您完全控制的数据。

所谓把它握在手心是最让人放心的。这些日志都在您的服务器中。如果他们没有被黑客攻击,数据就无法被你不想要的人获得(详情请参阅马的博客“如何通过IIS日志分析网站的无形信息"的相关介绍)。

只要你不删除它们,它们就会一直存在。任何时候,你都可以追溯历史数据,无论它有多古老。总有一天,你的网站会取得巨大成功。这些日志也是斗争历史的见证。

(2) 它可以记录机器人或自动程序访问网站的情况。

第二,如上所述,网站服务器的日志记录了网站服务器的行为,因此将记录服务器响应的任何请求。这些响应可以是对用户请求的响应,或者是对互联网上某些自动程序的请求的响应。

互联网上最常见的自动化程序是搜索引擎机器人,如百度的百度蜘蛛和谷歌的谷歌机器人,这意味着我们可以通过使用网站服务器日志来分析搜索引擎的访问,帮助我们优化搜索引擎对网站的访问。

对此,马向海要求大家注意,并非每一种网络分析方法都能做到这一点。向网站页面添加标签最常见的方法是不获取搜索引擎流量。

(3) 每个终端接入的详细记录

网站的日志可以记录网站服务器的所有响应行为,这也扩展了另一个优势,即无论哪个终端访问服务器,都可以记录相关数据。

现在,越来越多的终端可以访问网站。当您感到无聊时,尝试使用索尼PSP上网,您可以使用移动GPRS轻松浏览网络。这些不同终端的访问和服务器日志将被真实记录,但在页面上添加标签的方法可能根本不起作用。

(4) 您可以查看文件是否已完全下载。

日志方法的另一个优点是它可以记录文件的下载。如果您在线下载MP3音乐,当您发送此响应时,日志将记录状态;下载后,日志仍将记录状态;如果下载未完成,仍将记录日志。我认为,这对于提供下载服务的网站非常有用。

(5) 数据收集不依赖于第三方。

通过日志本身获取数据不需要其他第三方的帮助。只要服务器在运行,它就会不断创建和保存日志。

然而,请注意,我这里的意思是,数据收集不需要额外的支持,但一般来说,数据分析仍然需要第三方的帮助。直接读取日志文件中的数据进行分析是不可想象的。

(6) 我不怕防火墙。

最后,日志方法不怕被防火墙或客户端安全软件屏蔽,因为所有数据都是从服务器获取的。

这看起来不错,但每件事都有它的优点和缺点。当然,日志方法也有无法克服的缺点。

6.使用网站服务器日志分析网站的缺陷。

日志方法工作的先决条件是服务器应该响应客户端的请求。如果客户机的请求没有经过服务器就得到响应(这在实践中经常发生),服务器日志记录方法对此无能为力。

(1) 对Web缓存的恐惧

为了提高网页的加载速度,人们发明了web缓存。在台湾省,cache被翻译为“cache",似乎既有声音又有意义。

Web缓存的原理很容易理解,但它是一项伟大的发明。在缓存出现之前,每次人们访问一个网站时,他们都必须将网页从网站的服务器传输到客户端的浏览器,这当然是

同样,在家里,如果您购买公共网络服务,则存在动态分配IP地址的问题。您今天的在线IP地址可能与明天的不同。此时,日志方法只能判断两个不同的访问者。

此外,如上所述,日志可以真实记录机器(非人类)的访问活动,但机器不是人类,其活动与真人的访问混合在一起,这也会使真人访问人数或访问次数被高估。

在积极和消极方向的共同作用下,只有一个结果,那就是游客数量的估计非常模糊。

当然,我们不得不承认,网站访问的确切数量无法通过任何方法获得,但相对而言,日志法更不准确。

(4) 实时性能差。

网站日志记录了服务器运行的实时数据,但如果要将这些数据取出进行分析,实时性能就不那么好。

通常,您必须首先从服务器中取出服务器日志文件,这些文件在服务器运行期间肯定不是数据。通常每隔一天(需要验证),然后您可以在分析之前将这些日志文件导入专门为日志分析设计的工具。这一过程的速度取决于您的熟练程度,但追求实时性非常困难。

熟练的站长或工程师应建立内部网络,设置专门的日志分析服务器,并编写特定程序来解决日志分析的实时问题。但对于普通中小型网站来说,这种方法难度更大,成本更高,因此不可行。

因此,实时性是大多数网站数据采用日志方法分析的问题。

(5) 海量数据存储

服务器日志是可靠的,因此它忠实地记录每分钟每秒发生的每个服务器响应。

对于一些流量稍大的网站,网站日志每天记录超过几GB是非常正常的,而最大的网站可能在一小时内生成几GB的记录。

我们没有詹姆斯·卡梅隆的超级团队(他的阿凡达效果需要处理超过50000g的数据),因此如果我们想跟踪网站的流量一个月,这可能会成为一个非常困难的问题,需要相当长的时间和耐心。如果你没有足够的技能和经验,你的效率就会很低。

(6) 获取日志文件很乏味。

我们无法想象日志文件的获取过于简单。毕竟,这并不像在我们自己的电脑上点击MP3文件那么简单。有些网站有镜像服务器,有些服务器在国外,有些服务器逻辑上由位于许多不同地理位置的物理服务器组成。

在这些情况下,需要在日志分析之前收集所有日志文件,这是一件非常麻烦的事情,尤其是当日志文件的数量特别大时。

此外,如果您租用ISP服务器空间,如果您无法访问日志数据,则不可能进行分析。

7.在什么情况下我需要分析服务器日志?

由于服务器日志的分析非常复杂,我们不需要每天分析服务器日志。在什么情况下我们需要分析服务器日志?对此,马建议,如果您有以下数据监测和分析需求,应使用日志分析方法。

(1) 你需要了解搜索引擎机器人或其他非人类访问者的流量,并希望相应地优化网站,例如,通过分析搜索引擎搜索引擎优化的访问行为。

(2) 有必要删除除普通PC客户端之外的互联网设备对网站的访问。

(3) 需要知道网站的文件资源是否被用户完全下载和请求。

(4) 网站流量信息需要保密,不允许第三方介入或帮助。

(5) 对网站服务器的安全性和可维护性有要求,并且非常需要抵御黑客或其他未经授权的访问。

8.在什么情况下不需要分析服务器日志?

如果存在以下要求,则不应使用日志分析方法:

(1) 您的网站具有重要的“非网络互动",如flash,用户与这些内容之间的互动是您想要了解的;

(2) 不喜欢麻烦,不擅长处理大数据文件,不熟悉日志文件,没有良好的软硬件资源

weinxin
我的微信
微信扫一扫
大标
  • 本文由 发表于 2022年9月8日13:39:12
  • 转载请务必保留本文链接:https://www.tanhuibiao.com/3461.html
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: