计算广告学笔记1-计算广告核心问题和挑战

注:内容整理自师徒网:刘鹏 计算广告学

广告中的计算问题

Find the best match between a given user u, in a given context c, and s suitable ad a.

从优化角度来看

  • 特征提取:受众定向. 把u和c打上标签的过程
  • 微观优化:CTR预测. 投是按照ecpm来投
  • 宏观优化:竞价市场机制
  • 受限优化:在线分配
  • 强化学习:探索与利用。试的过程是探索,优化的过程是利用
  • 个性化重定向:推荐技术

从系统角度来看:

  • 候选查选:实时索引。新的广告能很快上线,超预算的广告能很快的下线
  • 特征存储:No-sql技术
  • 离线学习:Hadoop
  • 在线学习:流计算。如上一个搜索词是什么
  • 交易市场:实时竞价

在线广告计算的主要挑战

大规模

  • 百万量级的页面,十亿量级的用户,需要被分析处理
  • 高并发在线投放系统(几乎是最高的)
  • latency的严格要求。如Ad exchange要求竞价在100ms内返回

动态性

  • 用户的关注和购物兴趣非常快速的变化。

丰富的查询信息

  • 需要把用户和上下文中多样的信号一起用于检索广告候选

探索与发现

  • 用户反馈数据局限于在以往投放中出现的(a,u,c)组合,需要主动探索未观察到的领域,以提高模型正确性

在线广告系统的ROI

eCPM=CTR*CPC*1000

搜索、广告与推荐的比较

比较项 搜索 搜索广告 显示广告 推荐
首要准则 相关性 投资回报率 投资回报率 用户兴趣
其他需求 各垂直领域独立定义 质量、安全性 质量、安全性 多样性,新鲜度
索引规模 十亿级 百万级–千万级 百万级 百万级-亿级
个性化 较少的个性化需求 较少的个性化需求 亿级用户规模上的个性化 亿级用户规模上的个性化
检索信号 较为集中 较为集中 较为丰富 较为丰富
DownStream优化 不适用 不适用 不适用 适用

在线广告系统结构

在线部分:

  • 高并发投送系统。十毫秒级别的实时决策,百亿次/天的广告投放系统

离线部分:

  • 受众定向平台。灵活的海量数据挖掘平台。前沿机器学习算法的分布式架构
  • 数据高速公路:内部及外部TB级数据实时收集处理。快速给线上系统反馈,另以方便给BI人员分析。
  • 流式计算平台:日志的准实时挖掘和反馈,反作弊和计价

在线广告系统模块

  1. Ad serving 来自用户和来自ad exchange的ad call
  2. Ad retrieval
  3. Ad ranking
  4. Stream computing
  5. Data highway
  6. Session log generation 根据用户的search、browse的信息做targeting,基础性日志. 应用:Data warehouse/BI, audience targeting, CTR/eCPM预测模型
  7. Data warehouse
  8. Customized audience segmentation
  9. Page attributes system
  10. Audience targeting
  11. Ad management system

作者:ywheel
本文出处:http://blog.ywheel.cn/post/2013/08/23/computational-advertising-01/
文章版权归本人所有,欢迎转载,但必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。