大数据技术的基础是哪些(大数据核心技术都有哪些)
上文说到大数据的由来,重要的事情说上三遍,只有需求才能产生市场,只有满足需求的技术才是有生命力的,才是有价值的。
大数据这门技术无疑是有价值的,因为它就是因为市场的需求才应运而生的。移动互联网时代的到来,手机成为了人们身体的一部分,人们每天花在手机上的时间逐渐超过了睡眠和工作,一举拿下了第一名。随之而来的,就是人们在手机上留下了大量的数据,海量的数据。这些数据有购物的,有聊天的,有刷短视频的,有听歌的,有出行的,有理财的,有游戏的,有看新闻的,有学习的,有点外卖的,甚至有工作相关的,这无数的数据共同组成了一个又一个鲜活人物形象,要不业内总是流传着一个传说:那就是大数据比你自己还了解你。
但是,想要把这些留在移动互联网上的数据变成有意义的结论,是需要很多步骤来进行处理的,这些步骤就是大数据技术的核心。
首先第一步,就是数据的采集。数据如果不采集起来,就像庄稼地里的庄稼不收获,过期就都烂掉了。移动互联网上的数据采集跟庄稼地里的庄稼还不太一样,因为移动互联网里的数据类型非常丰富,有结构化的,非结构化的,有存在数据库里的,有存在日志文件里的。而大数据技术第一步要解决的问题就是把这些有用的数据或者看似有用的数据统统收集起来,为下一步的处理做准备。还是以 Hadoop 家族来举例,可以参看下图:
Hadoop 家族
比较常用的包括 Sqoop,Flume 等工具,它们或可以将数据库中的数据导到 HDFS 中,或可以将日志进行收集处理。
接下来,需要对收集上来的数据进行预处理。什么叫预处理?就像收上来的庄稼,总得先晒两天,然后再去加工。数据也是一样,收集上来的数据需要对其进行清洗、合并、转化等操作,这里还有一个专门的术语叫 ETL,全称是 extract-transform-load,抽取-转换-加载。而这里的概念就非常不统一了,叫啥的都有,有叫 ETL 的,有叫数据清洗的,有叫数据集成的,概念有一些偏差,但基本上都是属于预处理这一步的,相当于我们在正式做菜之前,先收拾菜。
与此同时的,还有大数据的存储。这里出现了一个大数据最核心的思想,就是分布式。分布式的思想可以追溯很久很久以前,具体发明者已无从考证。但是历史上没有任何一个时代能像今天这样在技术上使用分布式的思想。大数据的存储都是以分布式存储的方式来实现的。其实,我们平时都会经常使用分布式的思想来工作:比如我们要运送一批煤炭,一辆车得运送一个月才能运完,时间不够了怎么办?那就用两辆车运;两辆车需要半个月运完,时间还是有点来不及,怎么办?再加车,10 辆够不够?10 辆的话,3 天就运完了。这就便是分布式的思想。同样的,Hadoop 中最重要的发明 HDFS,就是一个分布式文件系统,它也是 Hadoop 技术中能够实现分布式存储的关键。有了 HDFS,数据可以很容易的存在数量庞大的分布式存储集群当中,还都是通用的存储设备,价格简直不要太香。
分布式存储打破了垄断
话说,大数据技术之所以能够发展起来,除了移动互联网的到来使用数据的产生出现了井喷式爆发之外,还有一点就是成本的压力。无论是 Google,Facebook,AWS,还是国内的阿里腾讯等,他们本质上是互联网公司,他们像传统行业一样都是 IT 行业的客户,他们也要买服务器,也要买存储,也要买数据库,而且他们还是大客户,因为,他们的需求量很大,非常大,大到难以想象。
我们都知道,互联网巨头虽然很赚钱,但是巨头们也都是从小不点儿长起来的,更何况互联网赚钱的方式无非也就是会员和广告两种,君不见有多少互联网公司到现在还挣扎在盈利的边缘上。所以,互联网公司非常有动力去钻研各种各样的省钱方法。
这回好了,大数据技术使得整个架构都可以部署在便宜的通用服务器上,再也不用被某些 IT 巨头卡着脖子了,再也不用背负着为传统 IT 巨头打工的命运了。
刚才扯远了,回到大数据。再接下来就是数据开发了。根据业务的不同,笼统的可以分为离线开发和实时开发这么两大类。具体使用哪一种,就根据业务的时效性来定吧。这个不需要太多说什么,时效性需求基本一眼就能看出来。实现的工具就更丰富了,从开源软件到商业软件应用尽有,甚至隐隐约约已经出现了内卷的苗头。这里还是以开源的 Hadoop 来举例,像 MapReduce,Spark,Storm 都是开发人员最常用的开发工具。
你有几个认识的?
再往下就是数据服务了。严格地说,数据服务本质上已经不属于大数据平台的范畴,它更多是数据中台的概念了,也是玩大数据的最终目标。大数据的最终目标就是为了让数据能够持续不断地用起来,让数据能够来源于业务并反哺业务。当然这是传统行业在拥抱大数据时的行动方向,而互联网公司并不存在这种问题,或者说很多互联网公司根本不需要特意去强调数据反哺业务的目标,因为互联网公司原生的就是这么设计的,从业务的属性,到公司的组织架构,再到具体的 IT 架构,一切的一切都是为了数据更好的采集、集成、存储、分析、挖掘,再到建模、预测,最终完成数据变现。
以上内容就是大数据技术的内部世界。当然大数据技术的实现方式可不只一种,真正在落地应用的过程当中,实践才是检验真理的唯一标准。架构的设计,产品的选型,供应商的甄别,选择开源还是选择商业化软件,这一切都需要根据实现情况选择最优的解决方案。请记住,技术的世界没有好与坏,只有合适与不合适。
系统下载排行榜71011xp
番茄花园Win7 64位推荐旗舰版 V2021.05
2深度技术Win7 64位豪华旗舰版 V2021.07
3番茄花园Win7 64位旗舰激活版 V2021.07
4带USB3.0驱动Win7镜像 V2021
5系统之家 Ghost Win7 64位 旗舰激活版 V2021.11
6萝卜家园Win7 64位旗舰纯净版 V2021.08
7技术员联盟Win7 64位旗舰激活版 V2021.09
8雨林木风Win7 SP1 64位旗舰版 V2021.05
9萝卜家园Ghost Win7 64位极速装机版 V2021.04
10技术员联盟Win7 64位完美装机版 V2021.04
深度技术Win10 64位优化专业版 V2021.06
2深度技术Win10系统 最新精简版 V2021.09
3Win10超级精简版 V2021
4Win10完整版原版镜像 V2021
5风林火山Win10 21H1 64位专业版 V2021.06
6Win10光盘镜像文件 V2021
7深度技术 Ghost Win10 64位 专业稳定版 V2021.11
8技术员联盟Ghost Win10 64位正式版 V2021.10
9Win10 21H1 Build 19043.1320 官方正式版
10技术员联盟Win10 64位永久激活版镜像 V2021.07
系统之家 Ghost Win11 64位 官方正式版 V2021.11
2Win11PE网络纯净版 V2021
3系统之家Ghost Win11 64位专业版 V2021.10
4Win11官网纯净版 V2021.10
5Win11 RTM版镜像 V2021
6番茄花园Win11系统64位 V2021.09 极速专业版
7Win11专业版原版镜像ISO V2021
8Win11官方中文正式版 V2021
9Win11 22494.1000预览版 V2021.11
10番茄花园Win11 64位极速优化版 V2021.08
深度技术Windows XP SP3 稳定专业版 V2021.08
2雨林木风Ghost XP Sp3纯净版 V2021.08
3萝卜家园WindowsXP Sp3专业版 V2021.06
4雨林木风WindowsXP Sp3专业版 V2021.06
5技术员联盟Windows XP SP3极速专业版 V2021.07
6风林火山Ghost XP Sp3纯净版 V2021.08
7萝卜家园 Windows Sp3 XP 经典版 V2021.04
8番茄花园WindowsXP Sp3专业版 V2021.05
9电脑公司WindowsXP Sp3专业版 V2021.05
10番茄花园 GHOST XP SP3 纯净专业版 V2021.03
热门教程 更多+
装机必备 更多+
重装教程 更多+
电脑教程专题 更多+