大数据笔记-1(日志采集)

  • 日志采集

    • 埋点一般有JS执行,日志采集节点设置在client端的HTML文档中。当client向服务器发送的get请求被服务器接收到时,服务器确认埋点已经触发。
  • 页面日志的清洗和预处理

    • 流量攻击、作弊和爬虫等流量的过滤。(依托算法识别)
    • 数据缺项补正。如:反向补正:用户登录后对登录前的身份信息进行补正
    • 无效数据剔除。对因业务变更导致的无效数据进行剔除
    • 数据隔离分发。对不同等级的敏感数据,进行不同的加密、分发处理。如,对身份证、手机号的加密。
  • 流量数据关键点

    • 大数据冲击
      • 页面复用,引用页面生命周期(每个曝光的元素属于一个页面,利用页面生命周期进行聚合和发送操作)
      • 路由前置
    • 数据完整性
      • 引用规则校验
      • SPM埋点、Hybrid整合
    • 数据归因
      • SPM埋点、Hybrid整合
上一篇:传统二三层转发融合SDN的Hybrid交换机转发流程


下一篇:Boostrap之模拟框使用