【大数据】直播记录

写在前面

大数据行业发展,未来前景

大数据的诞生

  • 大数据的诞生和信息化以及互联网的发展密切相关

  • 上世纪70年代→逐步出现了基于TCP/IP协议的小规模的计算机互联互通,多为军事、科研用途

  • 上世纪90年代→全球互联的互联网出现,个人企业均可参与,真正逐步实现全球互联

  • 2000年后,互联网上的商业行为剧增。在互联网参与者众多的前提下,商业公司、科研单位等,所能获得的数据量剧增

  • 剧增的数据量和羸弱的单机性能→让许多科技公司开始尝试以数量来解决问题

  • 分布式处理技术诞生

分布式处理技术

  • 数据量巨大的基础下,以服务器的数量来解决大规模数据处理问题

分布式处理技术的逐步演化

  • 大规模服务器集群下的大规模数据存储【存】

  • 大规模服务器集群下的大规模数据计算【用】

  • 大规模服务器集群下的大规模数据传输技术【传】

  • 08年前分布式技术基本上还处于大企业内部专用且不够成熟

  • 08年Apache Hadoop开源,广大企业拥有了成熟的、 开源的分布式数据处理解决方案

大数据的诞生

  • Apache Hadoop是一款开源的分布式处理技术栈,提供了:
    • 基于Hadoop HDFS的:分布式数据存储技术
    • 基于Hadoop MapReduce的:分布式数据计算技术
    • 基于Hadoop YARN的:分布式资源调度技术

什么是大数据

  • 大数据的出现,本质上是为了解决海量数据的处理难题
  • 大数据就是→
    • 使用分布式技术完成海量数据的处理,得到数据背后蕴含的价值【狭义的(技术思维的)】
    • 广义的↓
海量的数据数字时代人人联网,日常活动产生的数据记录是海量的,背后蕴含的价值也是巨大的
基础设施大数据在技术上,是数字化时代的基础设施。数字化时代的发展离不开大数据技术的支持
生活警务、政务、工业、电商、金融、能源、物流、通讯、科研、教育等。大数据已经渗入生活方方面面
  • 狭义上:大数据是一类技术栈,是一种用来处理海量数据的软件技术体系
  • 广义上:大数据是数字化时代、信息化时代的基础(技术)支撑,以数据为生活赋能
  • 学习阶段学习的是狭义的大数据技术栈
  • 工作时广义上为生活赋能

大数据软件生态

  • 分为三大核心工作体系
    • 数据存储
    • 数据计算
    • 数据传输

数据存储

SQL
  • SQL (Structured Query Language)

    • 结构化查询语言,是所有关系型数据库的规范
    • 关系型数据库
      • mysql
      • oracle
      • sqlserver
  • NoSQL:不仅仅是SQL

    • SQL主要强调以二维的表格存储数据
    • NoSQL主要强调以键值对形式(KV)存储数据
      • java→map集合 python→dict字典
大数据软件生态→数据存储
  • Apache Hadoop -HDFS

    • Apache Hadoop框架内的组件HDFS是大数据体系中使用最为广泛的分布式存储结束
  • Apache HBase

    • Apache HBase是大数据体系内使用非常广泛的NoSQL KV型数据库技术
    • HBase是基于HDFS之上构建的
  • Apache KUDU

    • Apache Kudu同样为大数据体系中使用较多的分布式存储引擎
  • 云平台存储组件

    • 除此外,各大云平台厂商也有相应的大数据存储组件
    • 如:阿里云的OSS、UCloud的US3、AWS的S3、金山云的KS3等等

数据计算

  • Apache Hadoop -MapReduce
    • Apache Hadoop的MapReduce组件是最早一代的大数据分布式计算引擎对大数据的发展做出了卓越贡献
    • Java语言写的
  • Apache Hive
    • Apache Hive是一款以SQL为主要开发语言的分布式计算框架
    • 其底层使用了Hadoop的MapReduce技术
    • Apache Hive至今仍活跃在大数据一线,被许多公司使用
    • 写的是SQL语句,背后运行的是MapReduce程序
    • 相比用MapReduce,工作量少了很多
  • Apache Spark
    • Apache Spark是目前全球范围内最火热的分布式内存计算引擎,是大数据体系中的明星计算产品
    • 速度更快,因为主要基于内存,不够的时候会用一部分磁盘;
    • 而MapReduce是基于磁盘内存不断进行IO操作
  • Apache Flink
    • Apache Flink同样也是一款明星级的大数据分布式内存计算引擎
    • 特别是在实时计算(流计算)领域占据了大多数国内市场
    • 例:阿里双11 大屏显示实时数据 用的就是Flink
    • 目前Flink也是阿里在维护,阿里是国内最大用户
    • 因为可以支持实时计算显示,所以成本较高,目前市占率较小

数据传输

  • Apache Sqoop

    • Apache Sqoop是一款ETL工具,可以协助大数据体系和关系型数据库之间进行数据传输
    • ETL:对数据进行抽取、转换、加载的过程
    • 有个岗位叫ETL工程师
    • 阿里出的一个工具datax也是一个ETL工具
    • 用的比较多的ETL根据:Sqoop和datax
  • Apache Flume

    • Apache Flume是一款【流式】数据采集工具,可以从非常多的数据源中完成数据采集传输任务
  • Apache Kafka

    • Apache Kafka是一款分布式的消息系统,可以完成海量规模的数据传输工作
    • Apache Kafka在大数据领域也是明星产品
  • Apache Pulsar

    • Apache Pulsar同样是一款分布式的消息系统
    • 在大数据领域同样有非常多使用者

小结

学习阶段
  • 学习狭义的大数据技术栈
大数据核心工作
  • 利用数据存储技术栈解决海量的数据存储问题
  • 利用数据计算技术栈解决海量的数据计算问题
  • 利用数据传输技术栈解决海量的数据传输问题

大数据学习规划

此处缺一张图 72:35

此处还缺一张图 75:37

此处又缺一张图 78:49

81:09

81:49

103:36

大学生秋季招聘

  • 大学生就业服务平台
  • 高效人才网
  • 国聘网
  • 中国国家人才网
  • 中国人力资源开发网
  • 中国就业网
  • 各大企业官网、公众号
  • 不止在boss直聘上
  • 简历上不要写qq邮箱

扫一扫,分享到微信

微信分享二维码
  • Copyrights © 2024-2025 brocademaple
  • 访问人数: | 浏览次数:

      请我喝杯咖啡吧~

      支付宝
      微信