大数据导论

考纲

  1. 大数据概述 (1)数据概念及类型; (2)数据的组织形式及生命周期; (3)数据的使用; (4)数据的价值; (5)数据爆炸; (6)三次信息化浪潮的标志及解决问题; (7)数据产生方式的变革及影响; (8)信息科技为大数据时代提供的技术支撑; (9)大数据的基本概念; (10)大数据的 4V 特性; (11)大数据的影响; (12)大数据发展三阶段; (13)大数据基石——Google:GFS、HDFS、MapReduce、BigTable、HBase; (14)大数据体系——Hadoop 生态系统; (15)大数据产业。

  2. 大数据与云计算、物联网、人工智能 (1)云计算概念; (2)云计算特点; (3)云计算优势; (4)云计算关键技术; (5)云计算部署方式; (6)云计算服务模式; (7)云计算数据中心; (8)云计算应用; (9)云计算产业; (10)物联网概念; (11)物联网关键技术; (12)物联网应用; (13)物联网产业; (14)大数据、云计算、物联网的关系; (15)人工智能概念; (16)人工智能关键技术——机器学习、深度学习及其他; (17)人工智能应用; (18)人工智能产业; (19)大数据与人工智能的关系。

  3. 大数据技术 (1)数据分类; (2)数据采集方式; (3)数据源种类; (4)数据采集工具; (5)数据采集要点; (6)数据清洗的数据类型; (7)数据清洗的内容; (8)无效值和缺失值的处理方法; (9)ETL 流程; (10)传统数据存储技术:文件系统、关系数据库、数据仓库、并行数据库; (11)大数据时代的存储技术:分布式文件系统、NoSQL、NewSQL; (12)数据库架构的变革; (13)基于机器学习的数据处理与分析; (14)大数据处理分析技术类型及工具; (15)数据可视化概念; (16)数据可视化作用; (17)数据可视化工具; (18)数据安全技术; (19)隐私保护技术; (20)大数据生命周期的隐私保护模型。

  4. 大数据典型行业应用 (1)推荐系统的概念; (2)推荐模型; (3)推荐方法; (4)大数据在推荐系统中的应用; (5)大数据在生物医学领域中的应用; (6)大数据在物流领域中的应用; (7)大数据在城市管理领域中的应用; (8)大数据在金融领域中的应用; (9)大数据在汽车领域中的应用。

  5. 大数据安全与开放共享 (1)传统数据安全隐患; (2)大数据安全与传统数据安全的不同; (3)大数据安全隐患; (4)大数据安全问题; (5)大数据保护的基本原则; (6)大数据时代数据安全隐私保护的对策; (7)国内外保护数据安全的实践; (8)数据共享与数据开放的区别; (9)数据孤岛问题及其产生原因; (10)消除数据孤岛的意义; (11)数据共享面临的挑战及实施的举措; (12)政府开放数据的理论基础; (13)政府数据开放与政府信息公开的区别和联系; (14)国内外政府开放数据的实践与启示。

大数据概论

数据 vs 信息

数据:一种可以被鉴别的对客观事件进行记录的符号。 常见的数据类型:文本,图片,音频,视频等。

信息:与数据不同的概念,信息是较为宏观的概念,它由数据的有序排列组合而成,传达给读者某个概念方法等,而数据则是构成信息的基本单位。离散的数据没有任何实用价值。

数据的组织形式和生命周期

计算机系统中的数据组织形式主要有两种,即文件和数据库

  • 文件:计算机系统中的很多数据都是以文件形式存在的,例如:WORD 文件、一个文本文件、一个网页文件、一个图片文件等等。

  • 数据库:数据库是结构化信息或数据的有序集合,一般以电子形式存储在计算机系统中。通常由数据库管理系统 (DBMS) 来控制。

数据生命周期:是指数据从创建 ->修改 ->发布利用 ->归档/销毁的整个过程。

数据如何转化为信息

  • 一致性检查

  • 无效值和缺失值的处理

  • 数据管理

  • 数据分析

数据的价值

  • 数据的价值在于可以为人们找出答案。

  • 数据的价值不会因为不断被使用而削减,反而会因为不断重组而产生更大的价值。

  • 各类收集来的数据都应当被尽可能长时间地保存下来,同时也应当在一定条件下与全社会分享,并产生价值。

  • 数据已经具备资本的属性,可以用来创造经济价值。

大数据是什么

数据层面:大数据 (big data),指无法在一定时间范围内用常规软件工具进行捕捉、警理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

技术层面:大数据(技术)是使用分布式技术完成海量数据的处理,以得到数据背后蕴含的价值。

大数据 5V 性质

  • 数据体量大

  • 种类多样化

  • 价值密度低

  • 速度快

  • 数据的质量高

数据的生产方式

  • 运营式条统阶段 —— 被动产生

  • 用户原创内容阶段 —— 主动产生

  • 感知式系统阶段 —— 自动产生

数据“产生方式” 的变革促成大数据时代的来临。

信息化浪潮

大数据带来的影响

正面影响

  • 科学研究

  • 社会发展

  • 就业市场

  • 人才培养

负面影响

面临挑战

  • 存储能力受限 —— 存储设备不断扩容

  • 传输能力受限 —— 网络带宽不断增加

  • 计算能力受限 —— 计算能力不断提升

大数据核心技术概述

Apache Hadoop 技术栈

  • 基于 Hadoop HDFS(Hadoop Distributed File System)的分布式数据存储技术

  • 基于 Hadoop YARN(Yet Another Resource Negotiator)的分布式资源调度技术

  • 基于 Hadoop MapReduce 的分布式数据计算技术

Apache Hadoop 的出现具有非常重大的意义:

  • 为业界提供了“第一款”企业级开源大数据分布式技术解决方案

  • 从 Hadoop 开始,大数据体系逐步建成,各类大数据技术不断出现

大数据基石三大论文

GFS => Hadoop HDFS

NameNode: 负责管理 DataNode 等 SecondaryNameNode: 负责合并 NameNode 操作日志等

思想:分布式存储——解决存储容量、数据安全问题

BigTable => Apache HBase

BigTable 用于管理结构化数据,是稀疏的,分布式的,持久化的,多维的,排序的映射。

思想:空间换时间

MapReduce => Hadoop MapReduce

思想:分布式计算——解决计算效率问题

PageRank 算法原理

基本假设:

  1. 若网页越重要,则指向它的链接越多。

  2. 被重要的网页指向的网页也很重要。

大数据技术体系

大数据发展历程

  • 大数据起源 —— Hadoop 诞生

  • 雅虎对 Hadoop 的优化

  • Hadoop 的进一步发展

  • Spark 与流式计算

Hadoop 的优势

  • 易用性(低成本)

  • 高可靠性(高容错性)

  • 高效性

  • 高拓展性

大数据与云计算、物联网、人工智能

云计算

  • 通过网络、以服务的方式,为千家万户提供非常廉价的 IT 资源,一种商业模式。

  • 超大规模计算、高可靠性和安全性、动态扩展性、虚拟化、通用性、按需服务、降低成本。

云计算关键技术

  • 虚拟化技术

  • 分布式存储技术

  • 分布式计算技术

  • 多租户技术

云计算部署方式和服务模式

部署方式

  • 公有云

  • 私有云

  • 社区云/行业云

  • 混合云

服务模式

  • IaaS —— 提供基本的计算基础结构

  • PaaS —— 提供用于开发、测试和管理应用程序的云平台

  • SaaS —— 允许人们使用基于云的应用程序

数据中心

  • 云计算中心包括:刀片服务器、宽带网络连接、环境控制设备、监控设备以及各种安全装置等。

  • 数据中心是云计算的重要载体,是云计算的温床,为云计算提供计算、存储、宽带等各种硬件资源,为各种平台、应用提供支撑环境。

  • 云计算推动数据中心向虚拟化和云架构的转型,不断提高 IT 基础架构的灵活性,以降低 IT、能源和空间成本,从而让客户能够快速地提高业务敏捷性。

物联网

物联网 (Internet of Things,简称 IoT),它利用局域网或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起,形成人与物、物与物相联,实现信息化和远程管理控制。

关键技术

  • 识别和感知技术 —— 二维码、射频识别(RFID)、传感器

  • 网络与通信技术 —— 蓝牙、5G、NFC

  • 数据挖掘与融合技术 —— 云计算、大数据

物联网、云计算、大数据的关系

人工智能

  • 人工智能(Artificial Intelligence,简称 AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

  • 人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以与人类智能相似的方式做出反应的智能机器,该领域的研究包括:机器学习、知识图谱、自然语言处理、人机交互、计算机视觉、生物特征识别、AR/VR 等 7 个关键技术。

发展历程

  • AI 诞生

  • 专家系统推广

  • 深度学习

关键技术 —— 机器学习

已知概念:模型、输入空间、输出空间。

模型是在指定的假设空间中,确定学习策略,通过优化算法去学习到的由输入到输出的映射。

机器学习的一般过程

关键技术

  • 感知机

  • 激活函数

  • 多层感知机

  • 神经网络

  • 知识图谱

  • 人机交互

  • 生物特征

  • AR/VR

  • 计算机视觉

  • 自然语言处理

人工智能与大数据

大数据和人工智能虽然关注点并不相同,但是却有密切的联系:一方面人工智能需要大量的数据作为“思考”和“决策的基础,为人工智能提供了强大的存储能力和计算能力;另一方面大数据也需要人工智能技术进行数据价值化操作,比如机器学习就是数据分析的常用方式。

大数据技术

大数据技术层面

  • 数据采集与预处理

  • 数据存储和管理

  • 数据处理与分析

  • 数据可视化

  • 数据安全和隐私保护

数据采集与预处理

数据分类

  • 结构化数据

  • 半结构化数据

  • 非结构化数据

数据采集

定义:数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。

过程:它通过各种技术手段把外部各种数据源产生的数据进行实时或非实时地采集,获得各种类型的结构化、半结构化以及非结构化的海量数据并加以利用。

数据采集方式

  • 离线采集

  • 实时采集

  • 互联网采集

数据采集数据源

  • 企业业务系统数据 —— MySQL 等数据库数据

  • 传感器

  • 日志文件

  • 互联网数据 —— 网络爬虫

数据采集要点

  • 全面性

  • 多维性

  • 高效性

数据预处理

数据清理

数据清洗是指将大量原始数据中的错误信息“洗掉” ,它是发现并纠正数据文件中可识别的错误的最后一道程序,包括:一致性检查、无效值和缺失值处理等。

数据存储与管理

传统数据存储技术

传统的数据存储和管理一般以结构化数据为主,文件系统和数据库是主流技术。

  • 文件系统

  • 关系型数据库

  • 数据仓库

  • 并行数据库

大数据时代的存储技术

  • 分布式文件系统

  • NoSQL 数据库

  • NewSQL 数据库

基于机器学习的数据分析与处理

数据相关概念

A 市、B 市、C 市等市以及其情况的总和称为数据集(data set)。表格中的每一行,也就是某城市和它的情况被称为一个示例(sample/instance/example)。表格中的每一列(不包括城市),例如最高温度、最低温度,被称为特征(feature/attribute),而每一列中的具体数值,例如 36℃ 、28℃,被称为属性值(attribute value)。

其中属性值为连续数值的特征(如:最高温度)又称为连续特征,而属性值为离散数值或类别的特征(如:某时刻风向)又称为离散特征。数据集中也可能会有缺失数据(missing data),例如 B 市的某时刻风速,我们会将它视作缺失数据。

如果我们想预测城市的天气,例如是晴朗还是阴雨天,这些数据是不够的,除了特征以外,我们还需要每个城市的具体天气情况,也就是通常语境下的我们关注的结果。在机器学习中,它会被称为标签/标记(label)。

方法相关概念

模型评价指标

机器学习算法常用的分类性能评价指标有:精准率/查准率 Precision、召回率/查全率 Recall、准确率 F1-score、曲线下面积 AUC 等;常用的回归性能评价指标有:均方根误差 RMSE、均方误差 MSE 等。

大数据处理分析技术类型及工具

  • 批处理计算 —— MapReduce、Spark

  • 流计算 —— Storm、Flume、Streams

  • 图计算 —— GraphX、Giraph

  • 查询分析计算 —— Hive、Cassandra

数据可视化

数据可视化是指将大型数据集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。

数据可视化的作用

  • 观测、跟踪数据

  • 分析数据

  • 辅助理解数据

  • 增强数据吸引力

数据安全与隐私保护

数据安全技术

  • 身份认证技术

  • 防火墙技术

  • 入侵检测技术

  • 加密技术

  • 访问控制技术

隐私保护技术

如何在不泄露用户隐私的前提下,提高大数据的利用率,挖掘大数据的价值,是目前大数据研究领域的关键问题。

大数据技术相关工具汇总

数据采集与预处理工具:(1)传感器数据:温度计、录音机、摄像机等;(2)日志数据:Hadoop 的 Chukwa,Cloudera 的 Flume,FaceBook 的 Scribe 等;(2)互联网数据:网络爬虫;(3)企业业务系统数据:ETL 工具。

数据存储与管理工具:(1)文件系统:FAT、NTFS、VFAT、APFS 等;(2)关系数据库:Oracle、SQL Server、MySQL、DB2 等;(3)数据仓库:Hive、Pig、SparkSql 等;(4)并行数据库:Teradata、Aster、Vertica 等;(5)分布式文件系统:DFS、HDFS 等;(6)NewSQL:Spanner、Clustrix、GenieDB、VoltDB、ScaleDB、ScaleBase 等;(7):NoSQL 数据库:BigTable、HBase、Cassandra 等。

数据分析与处理工具:(1)批处理计算:Hadoop MapReduce、Spark MapReduce;(2)流计算:Storm、Flink、Spark Streaming;(3)图计算:GraphX、Giraph、PowerGraph;(4)查询分析计算:Hive、Cassandra、Dremel、Impala。

数据可视化工具:Excel、PPT、Python(Pyecharts)、JavaScript(Echarts、D3.js)等。

大数据应用

推荐系统

推荐系统是大数据在互联网领域的典型应用,它可以通过分析用户的历史记录来了解用户的喜好,从而主动为用户推荐其感兴趣的信息,满足用户的个性化推荐需求。

长尾商品

电子商务网站销售种类繁多,虽然绝大多数商品都不热门,但这些不热门的商品总数量极其庞大,所累计的总销售额将是一个可观的数字,也许会超过热门商品所带来的销售额。

热门推荐 vs 个性化推荐

  • 热门推荐是常用的推荐方式,广泛应用于各类网站中,如热门排行榜。但热门推荐的主要缺陷在于推荐的范围有限,所推荐的内容在一定时期内也相对固定。无法实现长尾商品的推荐。

  • 个性化推荐可通过推荐系统来实现。推荐系统通过发掘用户的行为记录,找到用户的个性化需求,发现用户潜在的消费倾向,从而将长尾商品准确地推荐给需要它的用户,进而提升销量,实现用户与商家的双赢。

推荐方法

  • 专家推荐

  • 基于统计的推荐

  • 基于内容的推荐

  • 协同过滤推荐 —— 利用相似用户

  • 混合推荐

生物医学领域

  • 智慧医疗

  • 生物信息学

物流领域

  • 智能物流

城市管理领域

  • 环境保护

金融领域

  • 信贷风险分析

大数据安全与数据开放共享

大数据安全

传统数据安全隐患

  • 计算机病毒

  • 数据信息存储介质的损坏

  • 黑客攻击

大数据安全与传统数据安全的不同

传统数据安全 —— 主要面临静态安全问题 大数据安全 —— 主要面临动态安全问题

大数据保护的基本原则

  • 数据主权原则

  • 数据保护原则

  • 数据自由流通原则

  • 数据安全原则

数据共享

数据孤岛问题

数据孤岛是指在一个组织或企业内部,由于数据标准不统一、数据接口不开放、数据共享机制不健全等原因,导致不同部门、业务系统之间无法实现数据的高效流通和共享,形成一个个独立的、封闭的数据岛屿。这些数据岛屿之间缺乏有效的关联和交互,导致数据资源的低效利用和价值流失。

数据共享

数据共享是指数据的拥有者将数据向其他机构和个人开放的行动,例如科研人员将实验过程中使用的数据向其他科研人员共享,以便于实验结果的可重现性。

Last updated