Data概念篇DM(一)数据挖掘基础概念

Data概念篇DM(一)数据挖掘基础概念

  • 参《数据挖掘导论(完整版)》第一章

什么是数据挖掘?

定义

  • 数据挖掘是一种技术,将传统的数据分析方法处理大量数据的复杂算法相结合。
  • 数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现先前未知的有用模式,还可以预测未来观测结果。

数据挖掘与知识发现

  • 数据挖掘是数据库中知识发现(knowledge discovery in database, KDD)不可缺少的一部分,KDD是将未加工的数据转换为有用信息的整个过程,如下图所示,

    01-01 KDD

  • 各个步骤:

    • 输入数据:可以以各种形式存储,可以驻留在集中的数据存储库或分布在多个站点上。
    • 数据预处理(preprocessing):将未加工的输入数据转换成适合分析的形式。
      • 包含融合来自多个数据源的数据、清洗数据以消除噪声重复的观测值、选择与当前数据挖掘任务相关的记录和特征。
      • 特征选择、维规约、规范化、选择数据子集
    • 后处理:将有效的和有用的结果集成到决策支持系统中。
      • 可视化;使用统计度量或假设检验,删除虚假的数据挖掘结果。

数据问题需要的问题

  • 可伸缩(scalable)
    • 使用特殊的搜索策略处理指数级搜索问题、实现新的数据结构、非内存算法、使用抽样技术或开发并行和分布算法
  • 高维度
  • 异种数据和复杂数据
  • 数据的所有权与分布
  • 非传统的分析
    • 传统的统计方法基于假设-验证模式

数据挖掘的起源

  • 统计学的抽样、估计和假设检验
  • 人工智能模式识别机器学习的搜索算法、建模技术和学习理论
  • 其它领域,包括最优化、进化计算、信息论、信号处理、可视化和信息检索
  • 其它方面,数据库系统、高性能(并行)计算、分布式技术

数据挖掘任务

  • 两大类:
    • 预测任务:根据其它属性的值(说明变量自变量),预测特定属性的值(目标变量因变量
    • 描述任务:导出概括数据中潜在练习的模式(相关、趋势、聚类、轨迹和异常)
  • 预测建模(predictive modeling):以说明变量函数的方式为目标变量建立模型
    • 分类(classification):预测离散的目标变量
    • 回归(regression):预测连续的目标变量
  • 关联分析(association analysis):发现描述数据中强关联特征的模式
    • 应用:找出具有相关功能的基因组、识别用户、理解元素之间的联系
  • 聚类分析(cluster analysis):发现紧密相关的预测值组群
    • 应用:对相关的顾客分组、找出显著影响地球气候的海洋区域、压缩数据
  • 异常检测(anomaly detection):识别特征显著不同于其他数据的观测值
    • 异常点(anomaly)或离群点(outlier)
    • 好的异常检测器:高检测率、低误报率
    • 应用:检测欺诈、网络攻击、疾病的不寻常模式、生物系统扰乱等

 Previous
Data概念篇DM(二)数据 Data概念篇DM(二)数据
Data概念篇DM(二)数据 参《数据挖掘导论(完整版)》第二章 数据类型 数据集可以看作数据对象的集合。 属性 什么是属性? 属性(attribute)是对象的性质或特性,因对象而变,随时间而变。 测量标度(measurement
2019-10-05
Next 
Data总序篇:介绍与目录 Data总序篇:介绍与目录
Data总序篇:介绍与目录系列介绍缘由 由于近期计划阅读、学习几本经典书籍,分别与数据挖掘、统计学方法与机器学习相关,所以计划编写一个系列的笔记。 由于这些内容存在着极多交叉相通的部分,所以希望能将其整合在一个系列之中,避免重复造轮子。 但
2019-10-03
  TOC