Fordeal数据平台 技术讲义
Table of Contents
Scala 语言入门:材料准备
环境部署
Ammonite
Jetbrains IDEA
习题集
Scala入门(一)
值和变量
类型
特殊类型介绍
表达式
习题
Scala入门(二)
函数
关键词return通常是是不需要的
高阶函数
数据结构
Array
Vector
Seq
Set
Map
Tuple
通用操作
Billion Dollar Mistake
习题
Scala入门(三)
case class和模式匹配
case class 匹配
变长参数匹配
正则匹配
异常处理
调用Java代码
一些语法糖
空格和括号
下划线
for 循环
试试摆脱break
递归和尾递归
习题
Scala入门(附录)
hbase迁移方案
1. 背景
2. 方案
2.1 方案选择
2.2 方案实施
2.2.1 emr后台创建只读副本
2.2.2 业务主集群创建快照
2.2.3 从只读副本迁移数据到新集群
2.2.4 新集群数据整理
2.2.5 相关监控
参考
如何处理脏数据:以Scala+play-json为例
整体原则
不良示范
藏匿异常(最糟糕的动作)
合并异常
不捕获异常
异常范围过宽
利用类型系统排错和提升效率
代数数据类型 Algebraic Data Type
利用ADT 确认逻辑完整性
利用类型系统消除空指针异常
利用类型系统合理设计逻辑精细度
数据一定要有,并且类型也是确定的
数据可以有可以没有,但是如果有的话,类型是确定的
数据可以有也可以没有,而且有的话类型也有多种可能性
设计逻辑精度时容易出现的问题
利用类型系统确保错误处理
利用类型系统做短路逻辑
总结
大数据场景下利用DeltaLake on 对象存储代替 HDFS 的调研
对象存储为什么值得
对象存储的代价
解决方案
使用DeltaLake一些额外的好处和代价
总结
参考资料
Scala 语言入门:材料准备
Scala入门(一)
Scala入门(二)
Scala入门(三)
Scala入门(附录)
hbase迁移方案
如何处理脏数据:以Scala+play-json为例
大数据场景下利用DeltaLake on 对象存储代替 HDFS 的调研