web日志中的频繁访问日志挖掘

web访问日志

主要是指用户在访问某网站的时候产生的日志信息,采集方式包括前端Javascript埋码采集和后端服务器日志采集两种。

前端采集目前主要以javascript为主,收集用户数据。

后端服务器日志根据网站架构,一般以nginx和tomcat等加上业务日志的采集为主。

对于数据的权威和准确性而言,应该首先以后端服务器产生的数据为主,配合前端采集的数据来进行整体的分析和挖掘。

日志分析流程

web日志中的频繁访问日志挖掘

日志分析流程如下:

  1. 数据采集:包括埋码和业务数据收集两种。
  2. 数据传输:包括实时和离线传输两种。
  3. 存储:建立统一的数据仓库。
  4. 分析和建模:数理统计和数据挖掘。
  5. 可视化展示:分析结果、挖掘结果及分析报告。

nginx样例数据

样例数据格式:

      124.42.13.230 - - [18/Sep/2013:06:57:50 +0000] "GET /shoppingMall?ver=1.2.1 HTTP/1.1" 200 7200 "http://www.baidu.com.cn" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; BTRS101170; InfoPath.2; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727)"
格式分析: 
        1、访客ip地址:124.42.13.230
        2、访客用户信息: - -
        3、请求时间:[18/Sep/2013:06:57:50 +0000]
        4、请求方式:GET
        5、请求的url:/shoppingMall?ver=1.10.2
        6、请求所用协议:HTTP/1.1
        7、响应码:200
        8、返回的数据流量:7200
        9、访客的来源url:http://www.baidu.com.cn
       10、访客所用浏览器:Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; BTRS101170; InfoPath.2; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727)

对于这种数据,可以交叉组合,开成多维度的数据分析与挖掘。

web日志挖掘的目标

web日志挖掘的目标:

1、以改进站点设计为目标,根据挖掘到的用户频繁访问路径重新调整链接关系。

2、以分析网站性能为目标,统计出用户经常浏览的页面及访问时间等。

3、以理解用户意图为目标,根据这些信息对用户的请求做专门的定制,然后将页面返回给用户。

使用分为:

1、web结构挖掘。

2、web内容挖掘。

3、web使用挖掘。

web日志中的频繁访问日志挖掘

web日志挖掘流程

分为数据收集、数据预处理、模式发现和模式分析几部分。


web日志中的频繁访问日志挖掘

作者:skyme

联系方式:

邮箱【cloudskyme@163.com】

QQ【270800073】

本文版权归作者和云栖社区共同所有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

上一篇:《MapReduce 2.0源码分析与编程实战》一1.1 大数据时代


下一篇:5月21日 Spark 社区直播【Spark on Zeppelin】