博客
关于我
Flink资料合集
阅读量:666 次
发布时间:2019-03-15

本文共 1135 字,大约阅读时间需要 3 分钟。

Flink SQL 运维与优化指南

一、需求与问题

需求一:数据汇总优化

在 Flink SQL 中,每1分钟汇总一次当天数据。频繁的写入操作导致数据库记录过多,建议开启 minibatch 模式,以提高处理效率。具体设置如下:

  • settable.exec.mini-batch.enabled= true;
  • settable.exec.mini-batch.allow-latency= 10s;
  • settable.exec.mini-batch.size= 100000;

需求二:数据持久化

Flink SQL 的 GROUP BY 操作生成的数据是 CDC 类型,无法直接删除。建议启用动态表选项,避免数据丢失:

  • settable.dynamic-table-options.enabled= true;
  • 使用 /*+OPTIONS('maxwell-json-ext.ignore-delete' = 'true', 'maxwell-json-ext.update-to-insert' = 'true')*/ 忽略删除操作。

需求三:自动生成测试数据

使用 DataGen 连接器在 Flink 1.11 中生成随机测试数据。详细配置方法请参考 官方文档

需求四:字符串分割处理

实现自定义表函数,将字符串分割为多列:

  • 创建 SplitFunction 类,继承 TableFunction
  • 使用 str.split(" ") 分割字符串,输出每个分割结果及其长度。
  • 注册表函数并在 SQL 中调用。

需求五:字段空值处理

在 Flink SQL 中,使用 cast(null as dataType) 来表示字段为空。

需求六:数据恢复

平台无法正常启动时,设置 Kafka 消费起始时间:

  • set 'scan.startup.mode' = 'timestamp';
  • set 'scan.startup.timestamp-millis' = '1617551100000';

二、问题与解决方案

问题一:类型映射错误

MySQL tinyint 类型在 Flink 上可能映射失败。修改数据库连接参数:

  • URL 格式:jdbc:mysql://...?tinyInt1isBit=false

详细解决方案请参考 技术博客

问题三:状态膨胀

解决方法请参考 腾讯云开发文章

问题四:最终结果丢失

通过双写至 HBase 对比数据,发现问题通常出在 MySQL 主键定义不一致。确保 Flink 平台和数据库主键一致。

三、总结

以上内容涵盖了 Flink SQL 的常见需求与问题解决方案,希望对您的项目有所帮助。

你可能感兴趣的文章
OSPF技术连载11:OSPF 8种 LSA 类型,6000字总结!
查看>>
OSPF技术连载13:OSPF Hello 间隔和 Dead 间隔
查看>>
OSPF技术连载14:OSPF路由器唯一标识符——Router ID
查看>>
OSPF技术连载15:OSPF 数据包的类型、格式和邻居发现的过程
查看>>
OSPF技术连载16:DR和BDR选举机制,一篇文章搞定!
查看>>
OSPF技术连载17:优化OSPF网络性能利器——被动接口!
查看>>
OSPF技术连载18:OSPF网络类型:非广播、广播、点对多点、点对多点非广播、点对点
查看>>
OSPF技术连载19:深入解析OSPF特殊区域
查看>>
SQL Server 复制 订阅与发布
查看>>
OSPF技术连载20:OSPF 十大LSA类型,太详细了!
查看>>
OSPF技术连载21:OSPF虚链路,现代网络逻辑连接的利器!
查看>>
OSPF技术连载22:OSPF 路径选择 O > O IA > N1 > E1 > N2 > E2
查看>>
OSPF技术连载2:OSPF工作原理、建立邻接关系、路由计算
查看>>
OSPF技术连载5:OSPF 基本配置,含思科、华为、Junifer三厂商配置
查看>>
OSPF技术连载6:OSPF 多区域,近7000字,非常详细!
查看>>
OSPF技术连载7:什么是OSPF带宽?OSPF带宽参考值多少?
查看>>
OSPF技术连载8:OSPF认证:明文认证、MD5认证和SHA-HMAC验证
查看>>
OSPF故障排除技巧
查看>>
spring配置文件中<context:property-placeholder />的使用
查看>>
OSPF有哪些优势?解决了RIP的什么问题?
查看>>