当前位置:100EC>数字研究>【PPT】50页PPT揭秘腾讯大数据平台与推荐应用架构
【PPT】50页PPT揭秘腾讯大数据平台与推荐应用架构
发布时间:2014年12月06日 10:52:47

(电子商务研究中心讯)    2014年10月25日,由eBay、CSDN共同举办的“大数据峰会”将在上海豫园万丽酒店举办。腾讯T4技术专家、数据平台部精准推荐中心总监李勇,以“腾讯大数据平台与推荐应用架构”作为峰会的结尾。

内容简介:

  • 腾讯的月活跃用户8.3亿

  • 微信月活跃用户4.4亿

  • QQ空间月活跃用户6.5亿

  • 游戏月活跃用户过亿

     

如今腾讯的数据分析已经能做到始终“不落地”,即全部的实时处理。腾讯大数据平台有如下核心模块:TDW、TRC、TDBank、TPR和Gaia。简单来说,TDW用来做批量的离线计算,TRC负责做流式的实时计算,TPR负责精准推荐,TDBank则作为统一的数据采集入口,而底层的Gaia则负责整个集群的资源调度和管理。李勇还特别强调了数据平台体系化是应用基础,数据应用商业化是价值导向。

 

数据平台体系化是应用基础,数据应用商业化是价值导向。

 

腾讯深度学习平台的挑战

深度神经网络模型复杂,训练数据多,计算量大

  • 模型复杂:人脑有100多亿个神经细胞,因此DNN的神经元和权重多

  • 训练数据多:大量训练数据才能训练出复杂模型

  • 微信语音识别:数万个神经元,超过50,000,000参数,超过4,000,000,000样本,单机训练耗时以年计,流行的GPU卡需数周

 

深度神经网络需要支持大模型

  • 更深更宽的网络能获得更好的结果

  • 以图像识别为例,增加卷积层的filter数量,加大模型深度等,可获得更好的模型质量

 

深度神经网络训练中超参数多,需要反复多次实验

  • 非线性模型:代价函数非凸,容易收敛到局部最优解

  • 敏感的超参数:模型结构、输入数据处理方式、权重初始化方案、参数配置、激活函数选择、权重优化方法等

  • 数学基础研究稍显不足,倚重技巧和经验

     

腾讯深度学习平台Mariana

 

 

腾讯有广泛的深度学习应用需求,其挑战如下

  • 模型复杂,训练数据多,计算量大

  • 需要支持大模型

  • 训练中超参数多,需要反复多次实验

 

Mariana腾讯深度学习平台提供三个框架解决上述问题

  • Mariana DNN: 深度神经网络的GPU数据并行框架

  • Mariana CNN: 深度卷积神经网络的GPU数据并行和模型并行框架

  • Mariana Cluster: 深度神经网络的CPU集群框架

 

Mariana已支持了训练加速、大模型和方便的训练作业

  • 微信语音识别6 GPU做到4.6倍加速比

  • 微信图像识别4 GPU做到2.5倍加速比,并支持大模型

 

 Mariana已成功应用到微信语音识别和微信图像识别,并在广点通广告推荐的点击率预估中积极尝试

 

(编选:中国电子商务研究中心)

 

网经社联合A股上市公司网盛生意宝(002095.SZ)推出消费品在线供应链金融解决方案。该产品具有按需提款、按天计息、随借随还、专款专用、循环信用贷、全线上流程操作等特点,解决消费品供应链核心企业及下游经销商/网店因库存及账期造成的流动性差“痛点”。》》合作联系

网经社“电数宝”电商大数据库(DATA.100EC.CN,注册免费体验全部)基于电商行业12年沉淀,包含100+上市公司、新三板公司数据,150+独角兽、200+千里马公司数据,4000+起投融资数据以及10万+互联网APP数据,全面覆盖“头部+腰部+长尾”电商,旨在通过数据可视化形式帮助了解电商行业,挖掘行业市场潜力,助力企业决策,做电商人研究、决策的“好参谋”。

【关键词】 腾讯大数据微信
【投诉曝光】 更多>

【版权声明】秉承互联网开放、包容的精神,网经社欢迎各方(自)媒体、机构转载、引用我们原创内容,但要严格注明来源网经社;同时,我们倡导尊重与保护知识产权,如发现本站文章存在版权问题,烦请将版权疑问、授权证明、版权证明、联系方式等,发邮件至NEWS@netsun.com,我们将第一时间核实、处理。

        平台名称
        平台回复率
        回复时效性
        用户满意度
        微信公众号
        微信二维码 打开微信“扫一扫”
        微信小程序
        小程序二维码 打开微信“扫一扫”