本文是博主在学习大数据过程中收集到的关于大数据,数据挖据相关的入门知识, 只是提供一个概况,也是对自己的学习笔记。
数据挖据
数据挖掘是在大型数据存储中自动地发现有用信息的过程。 相应技术用来探查大型数据库,发现先前未知的有用模式。数据挖掘还可以预测未来观测结果。 但并非所有信息发现任务都视为数据挖掘,比如信息检索领域的任务。
数据挖掘是数据库中知识发现(KDD) 不可缺少的一部分, 而KDD是将未加工的数据转换为有用信息的整个过程。如图01所示,该过程包括一系列转换步骤, 从数据的预处理到数据挖掘结果的后处理。
特别地,数据挖掘利用了来自如下一些领域的思想:
- 来自统计学的抽样、估计和假设检验
- 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。
- 还有其他领域,包括最优化、进化计算、信息论、信号处理、可视化和信息检索
数据挖掘任务,通常可分为下面两类:
- 预测任务。这些任务的目标是根据其他属性的值,预测特定属性的值。被预测的属性一般称为目标变量或因变量, 而用来预测的属性称说明变量或自变量。
- 描述任务。其目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。 本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证和解释结果。
其中预测任务中的预测建模涉及以说明变量函数的方式作为目标变量建立模型。 有两类预测建模任务:分类,用于预测离散的目标变量(如是否的问题);回归,用于预测连续的目标变量(如股价预测)。
【注意】本文属于作者原创,欢迎转载!转载时请注明以下内容:
(转载自)ShengChangJian's Blog编程技术文章地址:
https://ShengChangJian.github.io/2016/07/big-data-basic.html
主页地址:https://shengchangjian.github.io/