奥伦·艾奇奥伦(Oren Etzioni)创立的从文本中挖掘信息的公司ClearForest,已经被路透社收购。 美国股市每天成交量高达70亿股,而其中三分二的交易都是由建产在数学模型和算法之上的计算机程序自动完成的。 farecast经过了2003年立项,到2008年被收购。经历了5年的时间,数据从最早了12000条到2000亿条。 大数据的平台有:谷歌的MAPREDUCE 和开源HADOOP平台(最初源于雅虎)。NOSQL更优先于MYSQL. 大数据所用的数据记录单位:拍字节PB(2的50次方)和艾字节EB(2的60次方),泽字节ZB (2的70次方),太字节TB。1EB=10亿GB。1ZB=1024EB 2007年,所有数据中只有7%是存储在报纸、书籍、图片等媒价上的模拟数据,其余全部是数字数据。 2013年世界上存储的数据预计能达到约1.2泽字节,其中非数字数据只占不到2%。 人类存储信息量的增长速度比世界经济的增长速度快4倍。而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。 大数据告诉我们“是什么”而不是“为什么”。在大数据时代,我们不必知道现象背后的原因。 大数据的算法从因果关系向相关关纱转化。这也是思维方式的转变。 推荐电影《点球成金》MONEYBALL 大数据的三个思维方式: 1、不要依靠分析少量的数据样本,不要抽样调查。要分析与某事物相关的所有数据。 2、不要追求精确性,要乐于接受纷繁复杂的数据。 3、不要探求难以捉摸的因果关系,转而关注事物的相关关系。 大数据中的“大”不是绝对意义上的大,虽然在大多数情况下是这个意思。大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。 LYTOR相机(光场相机)就是对拍照场景的应用。将传统相机的拍摄照片的样本进行全收集,成为样本=总体的应用代表。 意外的案例: 如果把一个在社区内有很多连接关系的人从社区关系网中剔除掉,这个关系网会变得没那么高效,但却不会解体。但是如果把一个与所在社区之外的很多人有着连接关系的人从这个关系网中剔除,整个关系网奶快就会破碎成很多的小块。节点的做用。 社交网络的多样性是有额外价值的。这是一个人在社会关系网中的存在价值。 互联网可以使数据达到精确吗?只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下的95%的非结构化数据都无法被利用。只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。 数据与算法那个更重要呢?简单的算法+大数据,还是复杂的算法+小数据。结论就是大数据比算法智能系统更重要。
|