通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  新兵

注册:2013-6-21
跳转到指定楼层
1#
发表于 2018-9-3 18:04:40 |只看该作者 |倒序浏览
(1)要全体不要抽样在以往的科学分析中,由于数据存储和处理能力的限制,通常采用抽样的方法,即从全体数据集中抽取一部分样本数据,通过对样本数据的分析,来推断全体数据集的总体特征。通常,样本数据规模要比全集数据小得多,因此,可以做可控的代价内实现数据分析的目标。在大数据时代,其核心技术就是对海量数据进行处理和存储,分布式文件系统和分布式数据库技术提供了理论上近乎无限的数据存储能力,分布式并行编辑框架提供了强大的海量数据并行处理能力。因此,有了大数据的支持,科学分析完全可以直接针对全集数据并可以在短时间内快速得到分析结果。
(2)要效率不要绝对精确
抽样分析方法是科学研究人员常用的一中科学实验分析方法,一般来说,把采集到的数据进行抽样,并以精确性的分析方法分析样本数据,其样本分析结果通常来说较为精准,但是如果将其分析结果应用到全体数据集后,微小误差也将会被放大许多,这就意味着抽样分析的微小误差,被放大到全体数据集后,其误差也有可能会随之放大很多。正是由于这个原因,传统的数据分析方法往往更加注重提高算法的精确性,其次才是提高算法效率。现在,大数据时代采用的是全体数据集分析而非抽样数据分析,其分析结果就不存在误差被放大的问题,因此,算法的高精确性已经不是现在所追求的首要目标,相反,大数据时代具有“秒级响应”的特征,要求在几秒内就迅速给出针对海量数据的实时分析结果,否则,就会丧失数据的价值,因此,数据分析的效率将会是大数据时代关注的焦点。

举报本楼

您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2025-8-3 16:46 , Processed in 0.070066 second(s), 17 queries , Gzip On.

Copyright © 1999-2025 C114 All Rights Reserved

Discuz Licensed

回顶部