FFA 2022 专场解读 – 流批一体 & 平台建设 & AI 特征工程

流批一体架构在快手的实践和思考

张静快手技术专家,Apache Flink/Calcite Committer

本次演讲分享将包括:

  1. 流批一体的背景

  2. 流批一体在快手落地思路 & 分阶段建设的目标

  3. 第一阶段(加强 Flink 批能力建设)在快手的实践 & 挑战 & 进展

  4. 第二阶段(业务视角的流批一体)的挑战和相关的开放性问题

蚂蚁实时低代码研发和流批一体的应用实践

马年圣蚂蚁集团数据技术专家,实时数仓架构师

王    鑫蚂蚁集团高级技术专家,Apache Storm PMC,Apache RocketMQ Committer,Apache IoTDB Committer

蚂蚁实时研发体系经过一年多的升级,已经形成了基于元表资产+Flink 引擎的实时研发模式,并在此基础上构建了实时的资产消费和保障体系。再往前一步,我们探索并落地了蚂蚁的低代码研发和流批一体研发能力,来降低实时研发门槛并提效实时开发。本次 FFA 期望能够向大家介绍这两种能力的构建背景(业务/技术)、构建思路、核心能力和应用场景案例,来详细分析这两个能力构建的细节。

Flink 流批一体方案在数禾的实践

杨涵冰上海数禾信息科技有限公司,大数据架构师

在如今互联 金融服务场景中,特征、模型、决策的实时性变得越来越重要,各场景对于实时化的需求也越来越多。

在对各场景的实时化实践中,我们遇到了一些共有的问题:离线、实时数据口径不一致;离线、实时逻辑不一致;批量、点查等查询场景多样;实时流特有概念较难理解,开发门槛较高;实时流回溯测试困难等问题。

本次分享将介绍数禾利用 Flink 流批一体方案解决上述问题的实践经验。

流批一体在 AI 核心电商领域的探索与实践

祝海峰阿里巴巴高级技术专家

搜索、推荐、广告等核心电商领域,涉及海量的电商、用户行为等数据,需要支持大规模深度模型参数更新,是一个典型的批次/实时计算结合的场景,阿里智能引擎事业部基于大数据存储和计算引擎技术(Flink),针对复杂业务特点,简化用户 ETL 开发流程,探索出一套行之有效的批流一体技术,支撑了阿里巴巴集团数千个业务场景,具备 PB 级批处理,百万 TPS 吞吐,秒级延迟的处理能力。

Hive SQL on Flink 构建流批一体引擎

罗宇侠阿里云 开发工程师

方盛凯阿里云 开发工程师

在 Flink 1.16 中, 区通过加强对 Hive Dialect 的支持以及引进了 SQL Gateway 进一步提升了 Flink 对于 Hive 兼容性,帮助用户方便地将已有的 Hive 批作业迁移到 Flink 上以构建流批一体的计算引擎。在大部份的场景下,用户只需要将提交作业的地址更改为 Flink SQL Gateway 就可以将原本的 Hive 作业改为通过 Flink 来执行,做到了无缝切换。同时用户既可以使用 Hive SQL 也可以使用 Flink SQL 的语法写流式任务。

在本篇演讲过程之中,将介绍以下内容:

  1. 构建流批一体引擎的挑战

  2. Hive SQL on Flink 构建流批一体引擎

  3. 流批一体引擎的收益

  4. Demo

  5. 未来展望

Flink 流批一体在 Shopee 的大规模实践

李明昆Shopee 高级研发工程师,Flink Remote Shuffle Contributor

Shopee 各个业务线对 Flink 流批一体有很多需求,目前 Flink 流批一体已经具有支持大规模生产的能力,可以给数据开发的带来极大价值。

Shopee 的 Flink 团队大力发掘流批一体的价值,这次演讲将对这些落地实践做详细介绍。

  1. 流批一体在 Shopee 的应用场景

  2. 批处理能力的生产优化

  3. 与离线生态的完全集成

  4. 平台在流批一体上的建设和演进

  5. 未来规划

平台建设

平台建设专场由来自爱奇艺、知乎、Dinky 区、货拉拉、美团、联通、小米、Apache StreamPark 区、阿里巴巴、蚂蚁集团的技术专家分享基于 Apache Flink 的实时计算平台演进与实践。

FeatHub: 流批一体的实时特征工程平台

林东Apache Kafka Committer 和 PMC 成员

本次演讲中,我们将介绍 FeatHub,一个由阿里云自研并开源的实时特征平台。我们将介绍 FeatHub 的架构设计,已经完成的工作,以及近期的发展计划。

我们为 FeatHub 设计了易于使用的 Python SDK,来方便用户开发,分享,以及部署特征工程作业到生产环境。FeatHub 目前支持使用 Flink 作为计算引擎来完成流批一体的特征计算,支持在 Kafka,文件系统等多种存储引擎中读取和存储特征。用户可以使用声明式的 API 来定义特征,无需担心特征穿越的问题,也无需使用相对复杂的底层计算引擎 API 来计算特征。我们希望通过提供这些功能,来提升特征工程作业的开发效率,并推动实时特征工程的应用发展。

我们将介绍 FeatHub 在运满帮的实践经验,并展望 FeatHub 未来的发展方向。FeatHub 已经在 https://github.com/alibaba/feathub 开源。欢迎大家尝试使用并提供反馈。

微信安全基于 Flink 实时特征开发平台实践

李天旺腾讯专家级工程师

介绍微信安全基于 Flink 建设一站式实时特征开发平台实践;通过提供常用组件,方便重用能力与快速开发,并实现业务人员无需熟悉 Flink、无需写代码会简单 SQL 就能快速开发;再通过画布的形式组装组件,使业务逻辑更清晰、方便不同业务之间借鉴,赋能其他相似业务场景。

议题大纲如下:

  1. 风控实时特征开发的诉求与挑战

  2. 高效的一站式实时特征开发平台建设思路

  3. 线上运营过程遇到挑战

  4. 质量保障

基于 Flink ML 搭建的智能运维算法服务及应用

张颖莹阿里云计算平台算法专家

  1. 大数据平台运维场景对算法的需求特点(实时、海量、多源异构数据)

  2. 智能运维算法在大数据平台运维业务场景的应用案例和典型模型

  3. 传统算法架构的局限性

  4. 使用 Flink ML 搭建智能运维算法服务具体流程和收益

字节跳动十亿级特征计算平台的建设和应用

廖嘉逸字节跳动推荐特征生产方向负责人

刘首维字节跳动推荐架构工程师

字节跳动推荐架构在去年开始着手构建了流批一体的特征生产系统,基于 Flink 和强大的 State 能力功能实现了有状态的窗口统计类特征,并在 ETL 特征场景实现了 Flink Streaming & Batch 的流批一体。随着业务的逐步上量和场景的不断丰富,系统又在易用性、性能、机器学习生态支持上,出现了新的问题和挑战。我们在特征系统推广的过程中遇到了算法工程师调优实时特征的成本过高、生产链路无法和特征回溯打通、长周期的实时特征无法初始化、特征类型支持不足等问题。通过对流批一体架构的多次迭代,我们在计算层面引入了跨作业的流批一体 Planner、状态 Bootstrap 等能力,帮助特征生产系统的生态更上了一个台阶。

  1. 背景

  2. 流批一体架构回顾

  3. 流批一体 Planner

  4. 问题与挑战

  5. 未来规划


直播预约

PC 端

建议前往 FFA 2022 大会官 预约直播

https://flink-forward.org.cn/

 

a3f69efaaf028c448fd8c63620ac8f10.gif  点击「阅读原文」,预约大会直播

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年10月16日
下一篇 2022年10月16日

相关推荐