通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  新兵

注册:2019-11-5
跳转到指定楼层
1#
发表于 2020-2-18 11:41:42 |只看该作者 |倒序浏览
第一章  认证体系介绍
阿里云认证、行业认证、专项认证

第二章  大数据简介
如何生产:移动互联网爆发、数据资产价值得到认可、存储和计算能力的发展
主要特征:体量大、类型多、有价值、变化快(真实、可视化)
数据分析流程:目的、收集、处理、分析、展现、分析报告
核心价值:侦查和预测(视频提到)

第三章  数加平台介绍
数加:阿里云大数据平台,包含了一系列的大数据产品及服务
计算引擎:离线计算(maxCompute)、流式计算(数据变化处理)(StreamCompute)、        在线计算(AnalyticDB)

第四章 分析型数据库(AnalyticDB)
定义:是阿里巴巴自主研发的海量数据实时高并发在线分析(Realtime OLAP)    云计算服务,可以在毫秒级针对千亿级数据进行即时的多维分析透视和      业务探索
特点:高度的计算自由、极速的响应时间、简单的使用方式、丰富的特色功能
产品特点:分档的存储、自由的查询、智能的优化、方便的接口(mysql协议)、分层的安全、                 弹性多租户
OLAP:在线分析处理,分析为主
OLTP:在线业务系统,业务为主
MPP数据库特点:私有资源、分布式存储、分布式计算、任务并行执行、share-nothing、横                  向扩展
维度表组:自动产生、只有一个、数据量小,存在关联操作多、不能删除和修改,数据库删除时才会删除
普通表组:用户手动创建、可以有多个、数据量大,关联操作少、可以删除,修改表组信息
分区是为了解决单表数据过大
默认索引即智能索引,会根据列的字段类型、取值状况来自动创建索引。
聚集列可以改变物理存储位置,实现快速查询
表组特点:
表祖是数据物理分配的最小单元。分析型数据库由许多节点组成,数据是以表组为单位部署的。
同表组内的表才可以快速hash join。使用hash join,要保证要么是同表组中的表,要么是由维表参与,   因为维表可以和所有的表进行关联,不受表组的限制。
同一个表组内的表共享一些配置,如超时时长、副本数,不建议修改
建议同表组中的表一级分区表一致
维表特点:
维表必须放在维表组上,不用选表组
维表的大小有限制,表的数据量不能太大
维表不需要设置分区信息
维表可以和任何表进行关联,不受表组的限制
维表保存在每个节点上,同样大小的数据,维表会消耗掉更多存储资源
事实表特点:
普通表选择表祖时需要考虑后续操作中要关联到的其他事实表。
普通表的数据量不受限制,但是必须至少设置一级(Hash)分区。
多张普通表关联时,必须有Hash Key(一级分区键)参加
普通表分为两类:离线批量更新表(Batch)和实时更新表(Realtime)
批量更新表如果需要增加加载数据,则必须设置为二级分区
批量更新表不支持指定主键
实时更新表可以直接insert/delete单条数据,适合业务系统直接写入
实时更新表不提供二级分区,因为天然支持增量
实时更新必须指定主键。
数据加载进表后,需要等待一定时间后才能看到
同一个表组中分区数一致,关联时效率会更高。
目标表不可以选实时更新表。
可以使用SQL语句模板,insert、select、delete、常见函数
数据类型:boolean、tinyint、smallint、int、bigint、float(m,d不支持)、double(同上)、varchar、        date、timestamp(只支持精确到毫秒)、multivalue(特有)
多值列multivalue:
        可以存入String类型的多个值,分隔符默认为半角逗号,也可以创建表时进行配置
        可以使用in,contains条件对该列的单个值进行查询
        枚举查询后该列的每个值可像一个普通列一样进行各类操作,但是不允许在没有进行枚举查询时         对该列直接select或在group by中使用该列

第五章 MaxCompute
概念:由阿里云自主研发,提供针对TB/PB级数据、实时性要求不高的分布式处理能力,应用于数据分析、   挖掘、商业智能等领域。阿里巴巴的数据业务都运行在MaxCompute上
特点:分布式(分布式集群架构)、安全性(自动存储容错)、易用性(标准接口服务)、管理与授权(多  用户的管理协同)
对象:
Project项目空间:所有对象都隶属于项目空间,计量计费及安全控制的单元
Table表:所有的数据都存储在表里,支持表分区,支持依赖于表的视图(弱)
Partition 分区:上传时,手动创建分区并保证质量,使用insert数据时支持动态分区
分区:创建表时指定分区键,指定表内某几个字段作为分区列,数组值存储在最底层,使用数据时如果指定了需要访问的分区名称

举报本楼

本帖有 1 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2025-9-21 02:36 , Processed in 0.130425 second(s), 17 queries , Gzip On.

Copyright © 1999-2025 C114 All Rights Reserved

Discuz Licensed

回顶部