五年总结:过往记忆大数据原创精选
我花在这个号上面的时间挺多的。 我平时下班比较晚,一般下班到家了,老婆带着孩子已经安睡了,我便轻手轻脚的拿出电脑,带上耳机,开始我一天的知识盘点。
我写文,一方面是对自身技术知识的记录和积累,另一方面也是希望得到一些正反馈。 一篇文章写出来,阅读量很多,动力当然就更大了。
对于本号,我坚持初心,只分享大数据技术文章,不掺杂别的内容进来。 当然,广告我还是会接的,我不是富二代,上有老下有小,对金钱我有强烈的渴望。 让我不图任何回报的熬夜写文章,而且坚持下来,这对我是很不公平的。 大家如果不想看广告,跳过就行了。
下面我整理一下我这几年来自己写的原创文章,简略的分了个类( Spark、 Hadoop、 HBase、Flink 、 Kafka 、 CarbonData 、Hive、ElasticSearch、大数据架构、 分布式原理 等 ),方便有需要的朋友收录。
Spark篇
1、Spark & Alluxio在网易严选架构演进中的实践和探索
3、 深入理解 Spark Delta Lake 的诞生及其工作原理
5、 一条 SQL 在 Apache Spark 之旅(上)
6 、一条 SQL 在 Apache Spark 之旅(中)
7 、一条 SQL 在 Apache Spark 之旅(下)
10、Koalas: 让 pandas 开发者轻松过渡到 Apache Spark
11、 .NET for Apache Spark 预览版正式发布
12、 重磅 | Apache Spark 社区期待的 Delta Lake 开源了
13、Apache Spark 2.4 回顾以及 3.0 展望
14、 SHC:使用 Spark SQL 高效地读写 HBase
16、 Apache Spark 未来:Spark 3.0 预览
17、 Apache Spark 3.0 将内置支持 GPU 调度,文末有福利
19、 eBay:将60PB的MPP DBMS迁移至Spark的经验
20、 Apache Spark 2.4 内置的 Avro 数据源实战
21、Apache Spark Shuffle I/O 在 Facebook 的优化
23、Apache Spark 2.4 中解决复杂数据类型的内置函数和高阶函数介绍
24、 SparkRDMA:使用RDMA技术提升Spark的Shuffle性能
25、MapReduce作业大规模迁移Apache Spark在百度的实践
26、 Apache Spark 2.4 正式发布,重要功能详细介绍
27、即将发布的 Apache Spark 2.4 都有哪些新功能
28、 Spark+AI Summit Europe 2018 PPT下载[共95个]
31、 Spark Streaming 反压(Back Pressure)机制介绍
33、 干货 | Apache Spark 2.0 作业优化技巧
35、Waterdrop:构建在Spark之上的简单高效数据处理系统
36、 如何在 Hadoop 2.2.0 环境下使用 Spark 2.2.x
37、 Spark作业如何在无管理权限的集群部署Python或JDK
38、 Apache Spark 黑名单(Blacklist)机制介绍
39、 Spark Summit 2017 Europe全部PPT及视频下载[共69个]
40、干货 | Apache Spark三大API:RDD、DataFrame和Dataset,我该如何选择
42、 MMLSpark:微软开源的用于Spark的深度学习库
44、 如何在Spark、MapReduce和Flink程序里面指定JAVA_HOME
46、持续了半年的开发,Apache Spark 2.2.0今天正式发布
47、Spark Summit 2017全部PPT下载[共143个]
48、2017年Apache Spark两大发展方向:深度学习和提升实时流性能
50、 如何优雅地终止正在运行的Spark Streaming程序
51、[资料]Spark Summit East 2017高清视频和PPT
54、Spark Summit 2016 Europe全部PPT下载[共75个]
57、Hadoop&Spark解决二次排序问题(Hadoop篇)
58、 Apache Spark 2.0.0正式发布及其更新介绍
59、Spark 2.0介绍:Spark SQL中的Time Window使用
60、Spark 2.0介绍:Catalog API介绍和使用
62、Spark Summit 2016 San Francisco PPT免费下载[共95个]
66、 Spark 2.0介绍:SparkSession创建和使用相关API
69、自定义Spark Streaming接收器(Receivers)
70、Spark Streaming和Kafka整合是如何保证数据零丢失
71、Apache Spark DataFrames入门指南:操作DataFrame
74、Spark社区可能放弃Spark 1.7而直接发布Spark 2.x
75、Spark分区器HashPartitioner和RangePartitioner代码详解
77、通过spark-redshift工具包读取Redshift上的表
78、 Apache Hivemall:可运行在Apache Hive, Spark 和 Pig 上的可扩展机器学习库
79、 Hadoop&Spark解决二次排序问题(Hadoop篇)
80、 如何在Spark、MapReduce和Flink程序里面指定JAVA_HOME
Hadoop篇
1、Apache Hadoop 的 HDFS federation 前世今生
2、 Hadoop 气数已尽?
6、Apache Hadoop 3.1.0 正式发布,原生支持GPU和FPGA
10、Apache Hadoop 3.0.0 GA版正式发布,可以部署到线上
11、Apache Hadoop 3.0.0-beta1 正式发布,2017-11-01发布GA版即可在线上使用
12、Hadoop 3.0磁盘均衡器(diskbalancer)新功能及使用介绍
13、Hadoop集群字符集编码不一致导致Reduce重复记录问题排查
14、 如何在Spark、MapReduce和Flink程序里面指定JAVA_HOME
17、使用CombineFileInputFormat来优化Hadoop小文件
19、 Hadoop NameNode元数据相关文件目录解析
22、 Apache Hadoop 3.0.0-alpha1正式发布及其更新介绍
23、Hadoop&Spark解决二次排序问题(Hadoop篇)
HBase篇
4、 HBase 入门之数据刷写(Memstore Flush)详细说明
6、为了让你更全面的了解Apache HBase,我们做了这本专刊
11、OpenTSDB 底层 HBase 的 Rowkey 是如何设计的
13、 Apache HBase中等对象存储MOB压缩分区策略介绍
Flink 篇
1、 Flink Forward 201904 PPT资料下载
2、 Flink Forward 201812 PPT资料下载
3、 Flink Forward 201809PPT资料下载
7、Apache Flink 1.6.0 正式发布,涵盖多项重要更新
8、 Apache Flink 1.5.0 正式发布,多项重要更新
10、 Tumbling Windows vs Sliding Windows区别与联系
11、 Flink Forward 201709所有PPT资料下载
12、 如何在Spark、MapReduce和Flink程序里面指定JAVA_HOME
13、 Apache Flink 1.3.0正式发布及其新功能介绍
14、[干货]Flink Forward 201704所有PPT资料下载
16、Flink Table和SQL API:为统一批处理和流处理而设计
17、Apache Flink 1.2.0正式发布及其功能介绍
18、 Flink可查询状态Queryable State:替换你的数据库
19、 Apache Flink 1.1.0和1.1.1发布,支持SQL
23、Tumbling Windows vs Sliding Windows区别与联系
24、 [干货]Apache Flink 1.2.0新功能概述
Kafka篇
3、 Kafka创建Topic时如何将分区放置到不同的Broker中
4、 重磅消息:Kafka 团队修改 KSQL 开源许可证,禁止其作为 SaaS 产品来提供
5、 Kafka分区分配策略(Partition Assignment Strategy)
6、 Apache Kafka 2.0.0 正式发布,多项重要功能更新
7、 如何为Kafka集群选择合适的Topics/Partitions数量
8、 图解Apache Kafka消息偏移量的演变(0.7.x~0.10.x)
9、Apache Kafka消息格式的演变(0.7.x~0.10.x)
10、Kafka创建Topic时如何将分区放置到不同的Broker中
11、 Kafka分区分配策略(Partition Assignment Strategy)
12、Key为nulll时Kafka如何选择分区(Partition)
14、 北京第三次Kafka Meetup活动PPT资料分享
15、 Kafka实战:七步将RDBMS中的数据实时传输到Hadoop
16、Kafka Producer是如何动态感知Topic分区数变化
18、Kafka集群Leader均衡(Balancing leadership)
19、 Apache Kafka 0.10.0.0稳定版发布及其新特性介绍
CarbonData 篇
1、翻译 | Apache CarbonData 最新版中文文档发布
2、Apache CarbonData 1.0.0发布及其新特性介绍
3、Apache CarbonData的Update/Delete功能设计实现
4、Apache CarbonData性能基准报告:查询性能秒杀Parquet
6、CarbonData:华为开发并支持Hadoop的列式文件格式
Hive篇
1、Apache Hive 联邦查询(Query Federation)
2、 如何在 Apache Hive 中解析 Json 数组
3、 Apache Hivemall:可运行在Apache Hive, Spark 和 Pig 上的可扩展机器学习库
ElasticSearch 篇
2、 Elasticsearch 6.3 发布,你们要的 SQL 功能来了
大数据架构
4、 盘点2018年晋升为Apache TLP的大数据相关项目
5、 盘点2017年晋升为Apache TLP的大数据相关项目
分布式原理
其他
1、 Apache Arrow:一个跨平台的内存数据交换格式
6、 SSDB:可用于替代Redis的高性能NoSQL数据库
7、Apache Beam发布第一个稳定版,适用于企业的部署
10、 Flume+Morphlines实现数据的实时ETL
11、 下一代大数据处理平台Apache Beam成为Apache顶级项目
13、 Scala的Option monad和C#的null-conditional操作符比较
( 点击标题可直达对应文章,这只是我分享的一部分,完整版欢迎访问我的博客:https://www.iteblog.com/ )
做公众号,说不关心阅读量,那都是假的。 但是对于有门槛的技术文来说,阅读量却并不能完全代表文章质量。 好的文章,是值得重复阅读的。 在此感谢各位长期的陪伴,谢谢!
我很期待各位兄台的在看