Data概念篇DM(一)数据挖掘基础概念
- 参《数据挖掘导论(完整版)》第一章
什么是数据挖掘?
定义
- 数据挖掘是一种技术,将传统的数据分析方法与处理大量数据的复杂算法相结合。
- 数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现先前未知的有用模式,还可以预测未来观测结果。
数据挖掘与知识发现
数据挖掘是数据库中知识发现(knowledge discovery in database, KDD)不可缺少的一部分,KDD是将未加工的数据转换为有用信息的整个过程,如下图所示,
各个步骤:
- 输入数据:可以以各种形式存储,可以驻留在集中的数据存储库或分布在多个站点上。
- 数据预处理(preprocessing):将未加工的输入数据转换成适合分析的形式。
- 包含融合来自多个数据源的数据、清洗数据以消除噪声和重复的观测值、选择与当前数据挖掘任务相关的记录和特征。
- 特征选择、维规约、规范化、选择数据子集
- 后处理:将有效的和有用的结果集成到决策支持系统中。
- 可视化;使用统计度量或假设检验,删除虚假的数据挖掘结果。
数据问题需要的问题
- 可伸缩(scalable)
- 使用特殊的搜索策略处理指数级搜索问题、实现新的数据结构、非内存算法、使用抽样技术或开发并行和分布算法
- 高维度
- 异种数据和复杂数据
- 数据的所有权与分布
- 非传统的分析
- 传统的统计方法基于假设-验证模式
数据挖掘的起源
- 统计学的抽样、估计和假设检验
- 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论
- 其它领域,包括最优化、进化计算、信息论、信号处理、可视化和信息检索
- 其它方面,数据库系统、高性能(并行)计算、分布式技术
数据挖掘任务
- 两大类:
- 预测任务:根据其它属性的值(说明变量或自变量),预测特定属性的值(目标变量或因变量)
- 描述任务:导出概括数据中潜在练习的模式(相关、趋势、聚类、轨迹和异常)
- 预测建模(predictive modeling):以说明变量函数的方式为目标变量建立模型
- 分类(classification):预测离散的目标变量
- 回归(regression):预测连续的目标变量
- 关联分析(association analysis):发现描述数据中强关联特征的模式
- 应用:找出具有相关功能的基因组、识别用户、理解元素之间的联系
- 聚类分析(cluster analysis):发现紧密相关的预测值组群
- 应用:对相关的顾客分组、找出显著影响地球气候的海洋区域、压缩数据
- 异常检测(anomaly detection):识别特征显著不同于其他数据的观测值
- 异常点(anomaly)或离群点(outlier)
- 好的异常检测器:高检测率、低误报率
- 应用:检测欺诈、网络攻击、疾病的不寻常模式、生物系统扰乱等