大数据分析技术解析_模型
近年来,大数据智能分析技术迅猛发展,已经影响到各行各业, 很多大数据分析公司专为油气田开发企业、科研院所、油田技术服务企业提供在线技术资源和应用服务的专业性工业互联网平台。西北油田也加快信息化建设的步伐,同时大数据智能分析平台,是智能化油田建设的一部分,高效整合企业产品与信息、技术资源,实现全行业资源交流与共享,实现基于互联网云端的方案设计,即“方案云设计”。什么是大数据智能分析平台呢,下面跟随小编来补充下大数据的一些知识吧!
1. 大数据
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。数据类型包括结构化、半结构化和非结构化数据,具有4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)。大数据之于云计算,云计算是底层平台,大数据是应用,云计算整合计算、存储和网络等资源,大数据在云计算平台的支撑下,调度下层资源,进行数据源加载,计算和最终结果输出等动作。
有了大数据,有了更多的历史数据,我们就可以做更精准的分析和挖掘,就可以更好的发现问题,更好的解决问题,更好的预测未来。
2. 数据挖掘
数据挖掘(Data Mining),利用各种技术与统计方法,将大量的历史数据进行整理分析,归纳与整合,是从海量数据中“挖掘”隐藏信息,如趋势、特征及相关性的一种过程。其发展出来的主要原因是大数据的发展,其核心目的是找到数据变量之间的关系,以用于未来机器学习和AI的数据使用。
在数据挖掘过程中会使用大量机器学习的算法。数据挖掘不能告诉你某些问题的答案,他只能告诉你,A和B可能存在相关关系,但是它无法告诉你A和B存在什么相关关系。
3. 数据挖掘标准规范
数据挖掘遵循CRISP-DM标准规范模型,分为六个步骤:
①业务理解
最初的阶段集中在理解目标和从业务的角度理解需求,同时将这个知识转化为数据挖掘问题的定义和完成目标的初步计划。
②数据理解
数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设。
③数据准备
数据准备阶段包括从未处理的数据中构造最终数据集的所有活动。这些数据将是模型工具的输入值。这个阶段的任务能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。
④建模
在这个阶段,可以选择和应用不同的模型技术,模型参数被调整到最佳的数值。一般,有些技术可以解决一类相同的数据挖掘问题,有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。
⑤评估
到这个阶段,你已经从数据分析的角度建立了一个高质量显示的模型。在开始最后部署模型之前,重要的事情是彻底地评估模型,检查构造模型的步骤,确保模型可以完成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑。在这个阶段结束后,一个数据挖掘结果使用的决定必须达成。
⑥部署
通常,模型的创建不是项目的结束。模型的作用是从数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。根据需求,这个阶段可以产生简单的报告,或是实现一个比较复杂的、可重复的数据挖掘过程。
通常建模过程需要基于数据中心,利用数据分析工具,按照建模方法选择相关算法训练模型并进行优化调整,得到最优模型并应用于分析与预测的实际业务场景中。基于石化智云平台的研发标准与集成标准,研发分析应用模块,实现常规统计分析及业务场景分析的可视化功能展示,作为云平台的一部分。(乔志杰 申成祎)