服务器排行_关于_云主机和主机的区别

2021-03-30 14:01

服务器排行_关于_云主机和主机的区别

通常在任何"技术"领域(我使用这个术语非常松散),很难区分事实和小说——后者通常是由过度热心的产品营销或是过度增长的民间传说创造的。一个特别值得关注的领域是整个大数据领域。我甚至不会进入"大数据有多大",因为这是另一个非常主观的讨论流。我想在本帖中讨论并简要地发展的是对数据湖、企业数据中心(EDH)和数据仓库的相对定位的客观看法,包括它们对所有新兴数据科学家和数据架构师的相关术语和技术。数据科学镜头然而,在我们开始之前,最好先明确引用点,以根据断言来反对。在大数据世界中,我选择的框架是通过数据科学的视角来审视——数据科学是从数据中获得尽可能多的知识或洞察力的端到端方法和技术。换句话说,如果我们要评估这三种类型的数据存储,那么它们的使用是至关重要的。我使用的框架是Donoho编写的框架。该模型主要有六大类:数据探索与准备、数据表示与转换、数据计算、数据建模、数据可视化和表示,最后是数据科学。从数据科学的开始和基础是如何存储数据。让我们关注前两类,从数据开发和准备的角度来看,据报道,至少80%的数据科学工作都是用来理解数据的基础,并为进一步探索和使用做好准备。从数据表示和转换的角度来看,挑战是管理一组复杂的不同格式和物理数据库类型,同时管理相关转换,使数据成为更具显示性的形式。从上面,我们来看看我们的三个"选择"数据湖第一个选项是使用"数据湖"。这里的定义一致,大数据下,因为它是一个存储存储库,以其原生格式保存大量原始数据,包括结构化、半结构化和非结构化数据。数据结构和要求在需要数据之前不会定义。Hadoop社区已经普及了很多,它的重点是从不同的筒仓转移到单个Hadoop/HDFS。此外,数据不需要协调、索引、可搜索甚至易于使用,但至少每次您想访问记录时都不必连接到实时生产系统。它的另一个关键特性是它可以建立在相对便宜的硬件上。Pentaho CTO JamesDixon通常被认为是创造了"数据湖"一词。他形容数据集市(数据仓库的一个子集)类似于一瓶水,"清洗、包装和结构便于消费",而数据湖更像是一个自然状态下的水体。Gartner的研究总监NickHeudcker说:"从广义上说,数据湖被市场化为企业范围的数据管理平台,用于以其本国格式分析不同数据源。"这个想法很简单:您可以将数据以原始格式移动到数据湖中,而不是将数据放置在一个专门构建的数据存储中。这消除了数据摄取的前期成本,如转换。一旦数据被放入湖中,组织中的每个人都可以对其进行分析。"然而,尽管市场炒作表明企业中的受众都会利用数据湖,买服务器云,但这种定位假设所有这些受众都非常擅长数据操作和分析,因为数据湖缺乏语义一致性和受管理的元数据。因此,向前迈进,寻求一些替代的互补解决方案。数据仓库以前,最常见的解决方案是数据仓库或企业数据仓库。这是一个用于报告和数据分析的系统,被认为是商业智能的核心组件。数据仓库是一个或多个不同来源集成数据的中心存储库。数据仓库的特征在以下关键维度上与数据湖不同。数据:数据仓库将具有结构化和处理的数据集。数据湖将包括每个源类型,包括非结构化和原始处理:数据仓库将使用模式写入,数据湖将在读取时使用模式存储:数据仓库往往很贵,新手建站教程,而数据湖则设计为低成本存储敏捷性——数据仓库的本质是一个固定的配置,而不那么敏捷。数据湖非常敏捷,将根据需要进行配置和重新配置安全性–数据仓库有成熟的模型,数据湖正在"成熟"用户透视图–数据仓库主要是通过提供的工具为业务专业人员设计的,而数据湖往往是数据科学家关注的焦点因此,如果数据仓库和数据湖具有相反的竞争特征,那么就向前迈进到数据中心,甚至企业数据中心(EDH)。数据集线器数据中心是数据集成的中心和辐条方法,物联网网关,在这种方法中,数据将物理地移动并重新索引到新系统中。数据湖将运行相同的进程,但始终保持源格式。数据被摄取到尽可能接近原始表单的位置,而不强制任何限制性架构。为了成为一个数据中心(与数据湖)相比,网建站,这个系统将支持发现、索引和分析。数据湖不会索引,也无法协调,因为将要保存的不兼容形式。EDH的主要目标是为不同业务需求提供集中统一的数据源。毫不奇怪,主要供应商已经抓住了这个概念。例如,Cloudera发布了以下信息。此产品的简单摘要是Cloudera与EMC的关系,它认识到大量部署了Isilon data lakes,通过Cloudera可以将其转变为数据中心体系结构。总之,这里没有普遍的解决方案(抱歉)。数据需要从众多的来源存储,并由技术能力不同的非常广泛的用户使用,从需要报告驱动分析的业务人员到使用最新深度学习算法的数据科学家。数据的存储方式对用例来说是一个结果,因此用例越简单,数据存储就越复杂,反之,应用的科学性就越接近原始状态。企业很可能看到所有这些用例,因此更多的是这些技术的互补使用而不是把它们看作是不同的用途。这篇文章最初是在尼尔的博客上发表的。尼尔·法根是英国政府安全和情报账户全球基础设施服务部门的CTO。他是一位企业架构专家,领导团队的架构师,他们从最初的概念到交付和支持来研究解决方案。   相关链接企业云中需要更密切考虑的两个方面从湖泊到流域:一种更好的数据管理方法

分享到:
收藏
相关阅读