菜单

Amos Blog

归档

2026 年 05 月

2026-05-18

深入理解HDFS 本文详细介绍了HDFS中的许多概念,对于理解Hadoop分布式文件系统很有帮助。 1. 介绍 在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。而一旦在系统中引入网络,就不可避免地引入了所有网络编程的复杂性,例如挑战

2026-05-18

MapReduce了解 MapReduce 场景:比如有海量的文本文件,如订单,页面点击事件的记录,量特别大,单机版很难搞定。 MapReduce 产生背景 如果让你统计日志里面出现的某个 URL 的总次数,让你自己去写个单机版的程序,写个逻辑:无非就是读这个文件一行,然后把那个地方截取出来,截取出
Scala简洁入门小结 介绍 Scala是一门现代的多范式语言,志在以简洁、优雅及类型安全的方式来表达常用的编程模型。它平滑地集成了面向对象和函数式语言的特性。 推荐阅读:Scala 2 的官方中文文档 本文可以分为三部分: 基本语法 Scala面向对象 Scala容器
【Scala】foldLeft的简单使用总结 源码分析 def seq: TraversableOnce[A] 上面两段代码是scala.collection.TraversableOnce特质的foldLeft方法源代码,实现了TraversableOnce trait的seq就是可迭代的集合;
【Scala】使用Option、Some、None,避免使用null 避免null使用 大多数语言都有一个特殊的关键字或者对象来表示一个对象引用的是"无",在Java,它是null。在Java 里,null 是一个关键字,不是一个对象,所以对它调用任何方法都是非法的。但是这对语言设计者来说是一件令人
大数据知识体系入门 大数据就是将各种数据统一收集起来进行计算,发掘其中的价值。这些数据,既包括数据库的数据,也包括日志数据,还包括专门采集的用户行为数据;既包括企业内部自己产生的数据,也包括从第三方采购的数据,还包括使用网络爬虫获取的各种互联网公开数据。 面对如此庞大的数据,如何存储、如何有效利用大

2026-05-17

Kafka入门简介 一、Kafka 简介 Kafka 创建背景 Kafka 是一个消息系统,原本开发自 LinkedIn,用作 LinkedIn 的活动流(Activity Stream)和运营数据处理管道(Pipeline)的基础。现在它已被多家不同类型的公司作为多种类型的数据管道和消息系统使用。

2026-05-17

Kafka基础 本篇文章基于官方文档,以一个小白的角度来初探Kafka。 背景 Kafka最早是由 LinkedIn 公司开发的,作为其自身业务消息处理的基础,后 LinkedIn 公司将 Kafka 捐赠给 Apache,现在已经成为 Apache 的一个顶级项目了。Kafka 作为一个高吞吐的分
什么是消息队列 一篇文章告诉你什么是消息队列。我入门消息队列的笔记。 来源:mp.weixin.qq.com 一、什么是消息队列? 消息队列,一般我们会简称它为 MQ(Message Queue),就是很直白的简写。 我们先不管"消息(Message)“这个词,来看看"队列(Queue)”。队列是一

2026-05-17

CAP理论 分布式系统(distributed system)正变得越来越重要,大型网站几乎都是分布式的。分布式系统的最大难点,就是各个节点的状态如何保持一致。CAP理论是在设计分布式系统的过程中,处理数据一致性问题时必须考虑的理论。 一、什么是CAP理论 CAP即: Consistency(一致性