全网整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:400-708-3566

浅谈七种常见的Hadoop和Spark项目案例

有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm,每个人都认为他们正在做一些与这些新的大数据技术相关的事情,但它不需要很长的时间遇到相同的模式。具体的实施可能有所不同,但根据我的经验,它们是最常见的七种项目。

项目一:数据整合

称之为“企业级数据中心”或“数据湖”,这个想法是你有不同的数据源,你想对它们进行数据分析。这类项目包括从所有来源获得数据源(实时或批处理)并且把它们存储在hadoop中。有时,这是成为一个“数据驱动的公司”的第一步;有时,或许你仅仅需要一份漂亮的报告。“企业级数据中心”通常由HDFS文件系统和HIVE或IMPALA中的表组成。未来,HBase和Phoenix在大数据整合方面将大展拳脚,打开一个新的局面,创建出全新的数据美丽新世界。

销售人员喜欢说“读模式”,但事实上,要取得成功,你必须清楚的了解自己的用例将是什么(Hive模式不会看起来与你在企业数据仓库中所做的不一样)。真实的原因是一个数据湖比Teradata和Netezza公司有更强的水平扩展性和低得多的成本。许多人在做前端分析时使用Tabelu和Excel。许多复杂的公司以“数据科学家”用Zeppelin或IPython笔记本作为前端。

项目二:专业分析

许多数据整合项目实际上是从你特殊的需求和某一数据集系统的分析开始的。这些往往是令人难以置信的特定领域,如在银行领域的流动性风险/蒙特卡罗模拟分析。在过去,这种专业的分析依赖于过时的,专有的软件包,无法扩大数据的规模经常遭受一个有限的功能集(大部分是因为软件厂商不可能像专业机构那样了解的那么多)。

在Hadoop和Spark的世界,看看这些系统大致相同的数据整合系统,但往往有更多的HBase,定制非SQL代码,和更少的数据来源(如果不是唯一的)。他们越来越多地以Spark为基础。

项目三:Hadoop作为一种服务

在“专业分析”项目的任何大型组织(讽刺的是,一个或两个“数据整理”项目)他们会不可避免地开始感觉“快乐”(即,疼痛)管理几个不同配置的Hadoop集群,有时从不同的供应商。接下来,他们会说,“也许我们应该整合这些资源池,”而不是大部分时间让大部分节点处于资源闲置状态。它们应该组成云计算,但许多公司经常会因为安全的原因(内部政治和工作保护)不能或不会。这通常意味着很多Docker容器包。

我没有使用它,但最近Bluedata(蓝色数据国际中心)似乎有一个解决方案,这也会吸引小企业缺乏足够的资金来部署Hadoop作为一种服务。

项目四:流分析

很多人会把这个“流”,但流分析是不同的,从设备流。通常,流分析是一个组织在批处理中的实时版本。以反洗钱和欺诈检测:为什么不在交易的基础上,抓住它发生而不是在一个周期结束?同样的库存管理或其他任何。
在某些情况下,这是一种新的类型的交易系统,分析数据位的位,因为你将它并联到一个分析系统中。这些系统证明自己如Spark或Storm与Hbase作为常用的数据存储。请注意,流分析并不能取代所有形式的分析,对某些你从未考虑过的事情而言,你仍然希望分析历史趋势或看过去的数据。

项目五:复杂事件处理

在这里,我们谈论的是亚秒级的实时事件处理。虽然还没有足够快的超低延迟(皮秒或纳秒)的应用,如高端的交易系统,你可以期待毫秒响应时间。例子包括对事物或事件的互联网电信运营商处理的呼叫数据记录的实时评价。有时,你会看到这样的系统使用Spark和HBase——但他们一般落在他们的脸上,必须转换成Storm,这是基于由LMAX交易所开发的干扰模式。
在过去,这样的系统已经基于定制的消息或高性能,从货架上,客户端-服务器消息产品-但今天的数据量太多了。我还没有使用它,但Apex项目看起来很有前途,声称要比Storm快。

项目六:ETL流

有时你想捕捉流数据并把它们存储起来。这些项目通常与1号或2号重合,但增加了各自的范围和特点。(有些人认为他们是4号或5号,但他们实际上是在向磁盘倾倒和分析数据。),这些几乎都是Kafka和Storm项目。Spark也使用,但没有理由,因为你不需要在内存分析。

项目七:更换或增加SAS

SAS是精细,是好的但SAS也很贵,我们不需要为你的数据科学家和分析师买存储你就可以“玩”数据。此外,除SAS可以做或产生漂亮的图形分析外,你还可以做一些不同的事情。这是你的“数据湖”。这里是IPython笔记本(现在)和Zeppelin(以后)。我们用SAS存储结果。

当我每天看到其他不同类型的Hadoop,Spark,或Storm项目,这些都是正常的。如果你使用Hadoop,你可能了解它们。几年前我已经实施了这些项目中的部分案例,使用的是其它技术。

如果你是一个老前辈太害怕“大”或“做”大数据Hadoop,不要担心。事情越变越多,但本质保持不变。你会发现很多相似之处的东西你用来部署和时髦的技术都是围绕Hadooposphere旋转的。

原文作者:Andrew C. Oliver,Andrew C. Oliver是一个专业的牧猫人兼职为一个软件顾问。他是MammothData的总裁和创始人(原开放软件集成商),一个坐落于达勒姆,北卡罗来纳州的大数据咨询公司。

总结

本文关于浅谈七种常见的Hadoop和Spark项目案例的介绍就到这里,希望对大家有所帮助。感谢朋友们对本站的支持!


# hadoop  # spark  # 项目案例  # linux环境不使用hadoop安装单机版spark的方法  # Spark简介以及与Hadoop对比分析  # 是一个  # 的是  # 这是  # 都是  # 如果你  # 是在  # 北卡罗来纳州  # 批处理  # 不需  # 七种  # 自己的  # 他们的  # 几个  # 互联网  # 在这里  # 是因为  # 还没  # 我还  # 你可以  # 他是 


相关文章: 济南专业网站制作公司,济南信息工程学校怎么样?  深圳网站制作平台,深圳市做网站好的公司有哪些?  深圳网站制作的公司有哪些,dido官方网站?  建站之星logo尺寸如何设置最合适?  家庭建站与云服务器建站,如何选择更优?  实现点击下箭头变上箭头来回切换的两种方法【推荐】  已有域名和空间如何快速搭建网站?  如何快速启动建站代理加盟业务?  儿童网站界面设计图片,中国少年儿童教育网站-怎么去注册?  Avalonia如何实现跨窗口通信 Avalonia窗口间数据传递  在线教育网站制作平台,山西立德教育官网?  建站之星会员如何解锁更多建站功能?  建站之星安装提示数据库无法连接如何解决?  网站制作费用多少钱,一个网站的运营,需要哪些费用?  定制建站流程步骤详解:一站式方案设计与开发指南  非常酷的网站设计制作软件,酷培ai教育官方网站?  广州网站制作公司哪家好一点,广州欧莱雅百库网络科技有限公司官网?  如何在局域网内绑定自建网站域名?  如何设计高效校园网站?  定制建站流程解析:需求评估与SEO优化功能开发指南  百度网页制作网站有哪些,谁能告诉我百度网站是怎么联系?  昆明高端网站制作公司,昆明公租房申请网上登录入口?  高端建站如何打造兼具美学与转化的品牌官网?  Bpmn 2.0的XML文件怎么画流程图  建站之星展会模板:智能建站与自助搭建高效解决方案  如何用狗爹虚拟主机快速搭建网站?  整人网站在线制作软件,整蛊网站退不出去必须要打我是白痴才能出去?  平台云上自主建站:模板化设计与智能工具打造高效网站  香港服务器网站搭建教程-电商部署、配置优化与安全稳定指南  如何正确选择百度移动适配建站域名?  如何快速搭建高效WAP手机网站?  如何制作公司的网站链接,公司想做一个网站,一般需要花多少钱?  小视频制作网站有哪些,有什么看国内小视频的网站,求推荐?  如何通过西部建站助手安装IIS服务器?  如何选择PHP开源工具快速搭建网站?  如何用景安虚拟主机手机版绑定域名建站?  制作网站的网址是什么,请问后缀为.com和.com.cn还有.cn的这三种网站是分别是什么类型的网站?  建站之星后台密码遗忘如何找回?  音乐网站服务器如何优化API响应速度?  如何在IIS中新建站点并配置端口与IP地址?  如何通过虚拟机搭建网站?详细步骤解析  网站制作网站,深圳做网站哪家比较好?  定制建站模板如何实现SEO优化与智能系统配置?18字教程  我的世界制作壁纸网站下载,手机怎么换我的世界壁纸?  制作网页的网站有哪些,电脑上怎么做网页?  网站app免费制作软件,能免费看各大网站视频的手机app?  电视网站制作tvbox接口,云海电视怎样自定义添加电视源?  如何在建站宝盒中设置产品搜索功能?  如何快速使用云服务器搭建个人网站?  浅谈Javascript中的Label语句 

您的项目需求

*请认真填写需求信息,我们会在24小时内与您取得联系。