第220章 大数据处理关键操作[1/2页]
“当然可以,你拿去看吧,有什么意见尽管跟我说。”
李卫脸上挂着温和的笑容,语气客气地说道。
秦奕接过论文,迫不及待地开始快速浏览其中的关键论述——这篇论文主要阐述了并行程序中并行、汇聚、通讯、映射及归纳等机制的语义。
看着看着,他的眼中闪过一丝惊喜,这里面描述的不正是前世互联网大数据处理框架
MAPREDUCE
里的基本操作吗!
前世,搜索引擎巨头谷歌在
2004
年前后发布了三篇奠定大数据处理基础的论文
——《The
Google
File
System》《MapReduce:
Simplified
Data
Processing
on
Large
Clusters》《Bigtable:
A
Distributed
Ste
System
for
Structured
Data》。
这三篇论文为大数据处理领域带来了全新的思路和方法,宛如一把火,瞬间点燃了学术界和工业界对大规模数据处理技术的研究热情,也有力推动了
Hadoop
等开源项目的发展。
这些项目在之后的十几年里迅速成为了大数据基础设施,对整个大数据、云计算甚至是后来的人工智能行业都产生了深远影响。
其中,《MapReduce》这篇论文里使用的核心操作
Map
和
Reduce,与李卫这篇论文中的映射和归纳两个机制,本质上如出一辙。
秦奕不禁思索,原来早在这个时候,相关的核心操作就已经在并行程序领域得到应用了吗?
或许当时撰写那三篇论文的谷歌程序员正是从这些并行程序的论文中获得了灵感。
当然,《MapReduce》论文不只是应用了这两个关键操作,它还围绕这两个核心操作,精心设计了一套完整的系统架构和实现机制,涵盖数据划分、任务调度、容错处理、数据
/
代码互定位等功能,确保在大规模集群上能够稳定、高效地运行。
秦奕接着又仔细看了看李卫论文里的具体实验内容,是关于
第220章 大数据处理关键操作[1/2页]
『加入书签,方便阅读』