web日志中的频繁访问日志挖掘

2022-05-16 00:48:12

web访问日志

主要是指用户在访问某网站的时候产生的日志信息，采集方式包括前端Javascript埋码采集和后端服务器日志采集两种。

前端采集目前主要以javascript为主，收集用户数据。

后端服务器日志根据网站架构，一般以nginx和tomcat等加上业务日志的采集为主。

对于数据的权威和准确性而言，应该首先以后端服务器产生的数据为主，配合前端采集的数据来进行整体的分析和挖掘。

日志分析流程

日志分析流程如下：

数据采集：包括埋码和业务数据收集两种。
数据传输：包括实时和离线传输两种。
存储：建立统一的数据仓库。
分析和建模：数理统计和数据挖掘。
可视化展示：分析结果、挖掘结果及分析报告。

nginx样例数据

样例数据格式:

      124.42.13.230 - - [18/Sep/2013:06:57:50 +0000] "GET /shoppingMall?ver=1.2.1 HTTP/1.1" 200 7200 "http://www.baidu.com.cn" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; BTRS101170; InfoPath.2; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727)"
格式分析:
        1、访客ip地址:124.42.13.230
        2、访客用户信息： - -
        3、请求时间：[18/Sep/2013:06:57:50 +0000]
        4、请求方式：GET
        5、请求的url：/shoppingMall?ver=1.10.2
        6、请求所用协议：HTTP/1.1
        7、响应码：200
        8、返回的数据流量：7200
        9、访客的来源url：http://www.baidu.com.cn
       10、访客所用浏览器：Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; BTRS101170; InfoPath.2; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727)

对于这种数据，可以交叉组合，开成多维度的数据分析与挖掘。

web日志挖掘的目标

web日志挖掘的目标：

1、以改进站点设计为目标，根据挖掘到的用户频繁访问路径重新调整链接关系。

2、以分析网站性能为目标，统计出用户经常浏览的页面及访问时间等。

3、以理解用户意图为目标，根据这些信息对用户的请求做专门的定制，然后将页面返回给用户。

使用分为：

1、web结构挖掘。

2、web内容挖掘。

3、web使用挖掘。

web日志挖掘流程

分为数据收集、数据预处理、模式发现和模式分析几部分。

作者：skyme

联系方式：

邮箱【cloudskyme@163.com】

QQ【270800073】

本文版权归作者和云栖社区共同所有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。

码农公寓

web访问日志

日志分析流程

nginx样例数据

web日志挖掘的目标

web日志挖掘流程

相关文章