数据挖掘的过程是什么?有哪些阶段?
数据挖掘的过程是什么?
01 数据挖掘过程1. 数据采集2. 特征提取和数据清洗3. 分析处理和算法 02 数据预处理阶段1. 特征提取2. 数据清洗3. 特征选择与转换 03 分析阶段
导读:数据挖掘过程包含数据清洗、特征提取、算法设计等多个阶段,本文将讨论这些阶段。
【资料图】
01 数据挖掘过程
典型数据挖掘应用的过程包含以下几个阶段。
1. 数据采集
数据采集工作可能是使用像传感器网络这样的专门硬件、手工录入的用户调查,或者如Web爬虫那样的软件工具来收集文档。虽然这个阶段与具体应用息息相关,但常常落在数据挖掘分析师们所考虑的范围之外,而这个阶段对数据挖掘过程也是至关重要的,因为这一阶段所做的选择会明显地影响整个数据挖掘过程。
采集阶段产生的数据通常会先存入数据库,广义上称为数据仓库,然后进行处理。
2. 特征提取和数据清洗
上述采集阶段得到的数据,其格式往往不适合直接进行处理。例如,采集来的数据可能是使用复杂编码的日志或自由格式的文档,并在许多情况下,各种类型的数据又任意地混合在一起,形成自由格式的文档。
要使这样的数据适合进一步加工,有必要把它们转化为对数据挖掘算法较为合适的格式,比如多维数据、时序数据或者半结构化数据等。
多维数据是最常见的格式,其不同的字段对应于可以称为特征、属性或维度的各种测量属性。抽取这些特征是数据挖掘的一个至关重要的阶段,而特征提取阶段通常与数据清洗阶段并行进行,以便估计或校正丢失的数据以及错误的数据。
另外,在许多情况下,数据可能从多个来源聚集而成,进行处理时需要把它们转换为统一的格式。上述过程的最终结果是一个有较好结构的数据集,可以由计算机程序有效地使用。在特征提取阶段之后,数据可以存回到数据库中用于进一步的处理。
3. 分析处理和算法
数据挖掘过程的最后一步是为处理过的数据设计有效的分析方法。在许多情况下,不太可能将手头的应用直接转化成一个标准的数据挖掘问题,比如转化成关联模式挖掘、聚类、分类以及异常检测这四个“超级问题”中的某一个。
但这四个超级问题具有很广泛的覆盖性,可以构成数据挖掘任务的基本模块,而大多数应用都能由这些作为基本模块的组件拼搭起来实现。
整个数据挖掘过程可由图1-1表示。请注意,图中的分析处理模块显示了对特定应用设计的、由多个基本模块组合而成的解决方案,这一部分依赖于分析师的技能。通常的做法是使用四个主要问题中的一个或多个作为基本模块来搭建。 ▲图1-1 数据处理流水线
需要承认的是,并非所有的数据挖掘应用都能用这四个主要问题来搭建解决方案,但许多应用可以这样解决,因此有必要给予这四个主要问题一个特殊的地位。下面我们使用一个有关推荐的应用实例来解释数据挖掘的整个过程。
考虑这样一个网上零售商的场景,此零售商保存了客户访问其网站的访问日志,还收集了客户的基本情况信息。假设网站的每个网页对应一个商品,客户访问一个网页可能表明对相应的商品感兴趣。零售商希望通过对客户的个人资料及其购买行为的分析,有针对性地给客户推荐商品。
解决问题的流程示例:分析师的第一步工作是收集两种不同来源的数据,其一是从该网站的日志系统中抽取的日志,其二是从零售商的数据库中抽取的客户个人资料。这里的一个难题就是这两种数据使用了非常不同的数据格式,放到一起处理很不容易。例如,一条日志可以以下面这种形式出现。 日志中可能包含成千上万个这种条目,上面这一条目显示IP地址为98.206.207.157的客户访问了productA.htm这一网页。要确认使用一个IP地址的客户是谁,可以通过之前的登录信息,或者通过网页的cookie记录,甚至直接通过IP地址本身,但这个确认过程可能充满噪声,不可能总是产生准确的结果。
作为数据清洗和提取过程的一部分,分析师还需要设计算法对不同的日志条目进行有效的过滤,以便只使用那些提供准确结果的数据段,因为原始日志中包含很多对零售商可能没有任何用处的额外信息。
在特征提取阶段,零售商决定从网页访问日志中提取特征,为每个客户创建一条记录,其中将每个商品设置为一个属性,记录此客户对相应商品网页的访问次数。
因此,这个特征抽取需要对每条原始日志进行处理,并将多条日志中抽取的特征进行聚合。之后在数据集成时,再将这些属性数据添加到零售商的客户数据库中去。这个客户数据库包含客户个人资料,倘若个人资料记录中缺少某些条目,则需要为其进行进一步的数据清洗。
最终,我们得到一个数据集,将客户个人资料的属性及客户对商品访问次数的属性整合在一起。
此时,分析师需要决定如何使用此清洗过的数据集,为客户提供推荐。分析师可以将类似的客户分成几类群体,并根据每类群体的购买行为提出推荐意见。
聚类分析在这里可以作为一个基本模块,用于确定类似客户的群体。对每一个客户,可以为其推荐该客户所在群体作为一个整体访问最多次的商品(这里指的是商品网页)。这个案例包含了一个完整的数据挖掘流程。
有许多优美的提供推荐的方法,它们在不同的情况下各有优劣,因此,整个数据挖掘过程是一门艺术,很大程度由分析师的技能所决定,而不完全由特定的技术或基本模块所左右,这种技能只能通过在不同应用需求下处理各类不同数据的实践中获得。
02 数据预处理阶段
数据预处理阶段也许是数据挖掘过程中最关键的一个阶段,然而,这个阶段很少得到应有的探讨,因为大部分数据挖掘讨论的重点放在了数据分析方面。这一阶段在数据采集后就开始,包括以下步骤。
1. 特征提取
分析师可能面临大量的原始文件、系统日志、商业交易,但几乎没有任何指导性的快速入门方法将这些原始数据转化为有意义的数据。这一步骤高度依赖于分析师的抽象能力,以找出与手头应用最相关的特征。
例如,在信用卡欺诈检测应用中,收费金额、重复频率以及位置信息往往是找出欺诈的有效指标,而许多其他特征信息也许就用处不大。因此,提取正确的特征往往是个技术活,需要对手头应用相关的领域有充分的了解。
2. 数据清洗
上述特征提取得到的数据中可能含有错误,也有些条目可能在采集及提取时丢失。因此,我们可能要丢弃一些含有错误的数据记录,或者对缺失的条目进行估计填充,并剔除数据中的不一致性。
3. 特征选择与转换
当数据维度很高时,很多数据挖掘算法就会失效。而且当数据维度很高时,数据噪声会增加,可能带来数据挖掘的错误。因此,需要使用一些方法,移除与应用无关的特征,或者将数据变换到一个新的维度空间中,使数据分析更容易进行。
另一个相关的问题是数据转换,将一些属性转换为另一种相同或类似数据类型的属性。比如将年龄数值转化成年龄段,可能对分析更有效也更便利。
数据清洗过程中通常需要使用对缺失数据进行估计的统计方法,此外,为确保挖掘结果的准确性,通常需要剔除错误的数据条目。
由于特征选择和数据转换高度依赖于具体的分析问题,不应视为数据预处理的一部分,甚至在某些情况下,特征选择可能与具体算法或方法紧密结合,以一种包装模型或嵌入模型的形式出现。但在一般情况下,会在应用具体挖掘算法之前执行特征选择阶段。
03 分析阶段
一个主要的挑战是每个数据挖掘应用都是独特的,很难为很多类应用打造出一个灵活的、可复用的挖掘技术。然而,我们发现有些数据挖掘方法在各类应用中反复出现,即所谓的“超级问题”或数据挖掘的基本模块。
怎样在特定的数据挖掘应用中使用这些基本方法很大程度上取决于分析师的技能和经验,所以虽然可以对这些基本模块进行很好的描述,但怎样在实际应用中使用它们,只能通过实践来学习。
标签: 数据挖掘
相关推荐:
最新新闻:
- 简单了解一下FIS yarnglobaladdfis3使用方法|环球今亮点
- 爬虫代码中使用代理ip的方法 代理ip使用原理
- 数据挖掘的过程是什么?有哪些阶段?
- linuxtone日常命令:快速杀掉mysql进程
- windwos7无线打不开怎么办?acer4820tg无线打不开的解决办法|全球播资讯
- community音响怎么样?community音响优势介绍-时讯
- 开源文本编辑器Vim推出新编程语言Zimbu:全球通讯
- 快播怎么用BT种子?快播播放种子的3种方法 全球热文
- 魔兽世界6.2版本宠物对战新内容:塔纳安丛林遍布战斗宠物_每日观点
- 照片和视频拼在一起?快影教你一招|当前热点
- 世界今头条!QQ如何登录?腾讯QQ首次登录QQ保障信息安全
- rmvb怎样转mp4?9.30MBVB转MP4转换器_全球动态
- 全球即时:戴尔笔记本电脑怎么样?戴尔笔记本电脑推荐及价格介绍
- 天天滚动:重装系统常见道ghost 如何恢复分区?
- 微信群怎么设置管理员?设置微信管理员的方法:焦点讯息
- 想让你的二次元老婆动起来吗?试试这个神器吧-世界聚焦
- 【进程隐藏之内核】EPROCESSSS结构体
- 为什么应用需要加固?操作步骤是什么?
- 联想G450摄像头不清楚怎么办?解决办法
- 世界动态:如何一次性删除全部页眉页脚?Word中删除全部页眉页脚的方法
- 【世界新视野】博客积分如何计算?CSDN积分规则
- 天天通讯!【Linux操作系统】系统调用和库函数编程基础知识
- 博世壁挂炉怎么样?博世壁挂炉欧洲之星评测
- 投影仪出租的优势 投影仪出租有哪些注意事项?
- ChatGPT创始人的个性和经历将如何影响它的未来?
- 与哲学僵尸作战
- 即时焦点:天佑武汉 天佑种花家!爬之分析之各省数据入口
- Java程序员面试宝典:100道面试题+答案汇总:全球通讯
- 世界快看:《喋血复仇》内容停更 开发商专注于打造新游戏
- 传真机耗材怎么选购?传真机耗材选购窍门
- 【天天热闻】施耐德空气开关怎么样?施耐德空气开关的型号与价格
- 电脑键盘快捷键有哪些?电脑键盘快捷键和组合键功能使用大全
- My97DatePickerBeta日期控件乱码问题解决办法-天天头条
- 死亡计算机官网在线 死亡计算器软件安装教程-世界速看
- 全球微动态丨360隐私保护器是怎么一回事?全面认识下360隐私保护器
- 小米4怎么样?小米4屏幕尺寸以及评测报价
- 《星际争霸Ⅱ》游戏秘籍:游戏中按回车输入以下秘籍|每日播报
- 世界上最大的会计事务所——Pricewaterhouse
- 天天实时:新买的手机怎么充电?充电时接电话会引起爆炸?
- 今日精选:如何登录Windows弹性云服务器?网吧服务器系统介绍
- 家用净水器过滤方式是什么?家用净水器哪种过滤方式好?:环球热议
- 分享100个有趣的python项目 值得收藏
- Java的类型是什么?byte字节型占一个字节(8bit)的数据范围
- 每日观点:NET是什么?netFramework是一个品牌商标推出的?
- 四年一遇:ngix+rtmp+ffmpeg的直播效果
- 新版《绯闻女孩》被HBO取消 第二季即完结-天天时讯
- 全球看热讯:如何查看8080端口被占用的信息?Linux查看端口占用以及端口详情
- 微资讯!部门组织结构及分工设想——技术总监、技术运维组
- 焦点讯息:什么是电极的极化电压?电极与电解质溶液界面的电位差
- k-d树和bbf算法 一直递归子树的数据点集算法
- 环球热门:《宝可梦朱紫》BUG多帧率不稳 任天堂道歉
- 印度富豪Adani紧急自救!考虑提前偿债、释放股权质押提振信心,高盛称其债券已触底
- 新年新气象 新一代装机配置怎么选?|天天资讯
- 【当前热闻】每日低价硬货:联想12代酷睿主机套装开工季仅需3093元
- EA砍掉《泰坦陨落》后续游戏 员工自谋出路
- 哈曼中国蝉联“中国杰出雇主2023”称号
- 每日信息:【在线观点】集成灶市场品类优势尽显,2023年必将再创发展高增速
- 天天热头条丨北证50指数表现吸睛 主题基金业绩分化
- 每日头条!玩家抱怨《霍格沃茨之遗》魔法数量太少:老头环有上百种
- 科乐美大幅下调财务预计 预期利润近乎减半-当前快报
- 传闻:任天堂新一期直面会将于下周举行
- Epic喜加一:《罪恶之城》《耻辱:界外魔之死》免费领:全球独家
- “我需要的不是一个丈夫,而是妻子”|世界报道
- 今日报丨昔日16冠豪门今降级?免签5欧冠妖人,但求逆天改命,353场110球
- 《雷霆沙赞2》主创集结庆祝定档 3月17日影院见:信息
- 展肖华_展肖华_世界快讯
- Steam 1月硬件调查报告 RTX显卡越来越普及_速讯
- 精彩看点:《死亡空间》之父感谢Motive忠实地重制了游戏
- 环球热推荐:壳牌2022年净利润增长一倍以上,创115年历史新高|财报见闻
- 日本电影的“巨匠”神话是如何诞生的?
- 网飞打击账号共享:仅限家庭使用 严控异地登录-环球观察
- 未来电价存在上涨可能:为什么?怎么涨?谁买单?
- 华软科技大股东一致行动人申得兴投资完成减持22.03万股 全球今头条
- 今日最新!韩国1500年历史的木简刻有生僻汉字 国内网友看尬了
- 焦点热议:三星计划Q1推出OLED新品 含77寸电视和49寸显示器