目的
本教程介绍如何使用 Oracle Data Mining 解决业务问题
所需时间
大约 个小时
主题
本教程包括下列主题:
概述
情景
前提条件
启动 Oracle Data Miner
为数据挖掘准备数据
使用挖掘活动指南
总结
注意:此外您还可以在下列步骤中将鼠标放在每个单独的图标上从而仅加载和查看与该步骤相关的屏幕截图您可以单击单个屏幕截图将其隐藏
概述
数据挖掘有时称为知识发现 — 其目的是提供其他方法无法找到可执行 (actionable) 信息该信息可以改进您业务的运作例如假设一个营销活动产生 % 的积极响应如果数据挖掘有助于使该活动专门针对最可能响应的人从而产生 % 的响应则该业务将增加 % 的利润
可以把数据挖掘分为两类学习
监管的学习目的是预测描述某个行为的特定特征或属性的值预测的属性称为目标属性
无监管的学习目的是发现关系和模式而非确定具体的值这种情形下没有目标属性
Oracle Data Mining 是 Oracle 数据库中内嵌的强大的数据挖掘软件它使您能够揭示隐藏在数据中的新洞察Oracle Data Mining 能够帮助企业瞄准最佳客户发现和防止欺诈发现对关键绩效指标 (KPI) 最有影响的属性以及发现隐藏在数据中的有价值的新信息Oracle Data Mining 帮助技术专家找出数据中的模式识别关键属性发现新的集群和关联并揭示有价值的洞察
Oracle Data Mining 使公司能够:
了解更多信息利用您的数据并发现以前隐藏的有价值的新信息和见解
进行更多操作 构建自动提取和传播新信息和见解的的应用程序
花费更少 Oracle Data Mining 比传统方法要便宜得多作为您在 Oracle 技术中投资的一部分它可以显着降低您的总拥有成本
Oracle Data Mining 超越了标准查询和报表工具以及联机分析处理 (OLAP) 工具查询和报表工具以及 OLAP 工具可以告诉您谁是您的重要客户哪些产品卖的最多以及哪些方面的成本最高使用 Oracle Data Mining您可以实施策略来:
预测和防止客户流失
获得新客户并识别最能带来收益的客户
识别会成功的交叉销售机会
洞察违规的和欺诈性的活动
发现新的集群或片断
开发客户概要文件
识别药物发明中的可能目标和有希望的线索
找出同时出现的项目和/或事件的关联关系
挖掘非结构化数据即文本
传统商务智能 (BI) 工具(例如报表工具交互式查询和报表工具以及联机分析处理 (OLAP) 工具)只报告过去发生的事情而 Oracle Data Mining (ODM) 使您能够超越传统 BI 和报表工具使您可以挖掘您的数据以及构建高级数据挖掘应用程序ODM 使您能够发现新见解片断和关联进行更准确的预测找到最能影响您业务的变量而且通常从您的数据提取更多信息例如通过分析您最佳客户的个人信息ODM 使您能够构建数据挖掘模型和集成的应用程序来识别将来可能成为您最佳客户的客户这些客户可能不表现为您目前最有价值的客户但可能与您当前最佳客户的有相似的个人信息此外使用 ODM您可以进行更多操作并将预测模型实现为一个定期运行的生产应用程序该应用程序在每个周一早上将您最有希望的客户列表分发到您的销售团队了解您客户的战略价值(哪些可能成为将来能带来收益的客户或者相反)或者预测哪些客户可能热衷或响应营销策略而且将该信息集成到您的运营中对于积极管理业务来说是至关重要的
使用 Oracle Data Mining 解决业务问题的阶段如下所示:
就数据挖掘和业务目标而言的问题定义
数据获取和准备
构建和评估模型
部署
注意:本教程并不打算完整介绍 Oracle Data Mining它只是介绍了进行某些常见数据挖掘操作所需的技术如果您需要有关其中某些主题的更多背景信息请参阅《Oracle Data Mining 概念指南》
情景
一个电子产品连锁店想为客户发打折卡但只想发给那些预期将因为此卡而增加购买量(从而使公司增收)的客户因此根据在一部分客户中开展了一个试验性的促销活动并将结果汇总到一个表中其中包含客户人口统计信息采购模式以及每个客户所带来收入的测算
然后使用一个描述试验性促销活动中的客户和结果的数据集创建可以应用于所有客户的模型以便预测使用打折卡的每个客户的预期收入级别 — 将预测的目标属性为 AFFINITY_CARD它的值可以是 (低利润)或 (高利润)不同的目标值(在本例中为 或 )有时称为目标类因此预测每个客户的目标值称为分类
前提条件
开始本教程之前您应该:
完成了教程在 Windows 上安装 Oracle 数据库 g
完成教程:安装 Oracle Data Miner g 第 版
返回主题列表
启动 Oracle Data Miner
要启动 Oracle Data Miner执行以下操作
双击 \bin\odminerwexe
要以 dmuser 连接单击 OK
您可能想在您的用户架构中确认示例表和视图展开 Data Sources > dmuser
这将显示表和视图单击 Tables 查看表;单击 Views 获取视图列表
为数据挖掘准备数据
Data Mining 过程中使用的数据通常必须从不同位置收集此外准备数据进行 Data Mining 操作可能需要对数据进行某种变换Oracle Data Mining 有很多强大的实用程序可用于取样记录离散和创建新变换的属性
在本部分中您将执行以下任务:
显示数据和统计信息
使用数据变换向导
显示数据和统计信息
执行以下步骤:
可以显示表或视图的结构单击 MINING_DATA_BUILD_V
单击 Data 选项卡查看内容示例
滚到窗口右侧查看完整的详细信息
注意:默认显示记录数为 ;在 Fetch Size 窗口中输入不同的数然后单击 Refresh 更新显示的大小此外可以单击 Fetch Next 增加显示的行
右击 MINING_DATA_BUILD_V 显示具有更多选项的菜单可以使用 Transformation 向导和其他工具进行数据发掘
要查看统计汇总可以根据数据格式类型单击两个选项之一单击 Show Summary SingleRecord
您的输出应该如以下图像所示:
对于每个数值性属性显示了 Maximum 和 Minimum 值以及平均值和变量这些统计信息基于示例计算而来本例中的示例大小是 可以通过调整 ODM Preferences(位于 Tools 下拉菜单)来更改示例大小
对于任何突出显示的属性可以查看值的分类
a突出显示 AFFINITY_CARD
b单击 Histogram
默认 bin 最多为 ;可通过单击 Preferences 更改该数字
数值性属性分为最小和最大之间等宽的指定 bin 数这些 bin 以属性值的升序显示分类属性使用Top N方法(N 是 bin 的数量)划分 bin出现频率最多的 N 值有自己的 bin其他值放入一个标记为Other的 bin 中这些 bin 以 bin 大小的降序显示
当检查完时单击 OK然后关闭 Data Summarization Viewer 窗口
使用数据变换向导
Mining Activity Guides 帮助您将不同源中的数据汇总到一个视图或表中此外它们执行特定算法所需的变换但是使用以下数据变换向导通常可以单独完成某些转换
筛选器
重新编码
派生字段
在本教程中您将学习如何使用 Filter Single Record Transformation 向导
假设您只想关注 岁到 岁之间的客户则可以筛选数据从而只包括那些人Oracle Data Miner 提供筛选变换来基于属性值定义数据子集执行以下步骤:
单击 Data > Transform > Filter SingleRecord
在 Welcome 页面中单击 Next
识别输入数据并单击 Next本例中使用的视图是 MINING_DATA_BUILD_V
注意:如果通过您右击该表或视图名访问该向导则会因该数据是已知的而跳过该步骤
为所得视图输入名称然后单击 Next
在 Filter 文本框中输入筛选条件此外要在对话框中构造条件单击 Filter 域右边的图标
在 Expression Editor 页面中执行以下步骤:
a双击属性名 AGE
b单击 >= 按钮并键入 构造所显示条件的第一部分
c单击 AND 继续定义完整条件双击 AGE
d 单击 <= 按钮并键入
e 单击 Validate 按钮查看是否有源数据子集满足该条件
f 单击 OK 在 Filter 窗口中显示该条件
单击 Next
单击 Finish 完成该变换
您的输出应该如以下图像所示:
使用挖掘活动指南
当定义了数据挖掘问题并识别源数据时数据挖掘过程还剩两个阶段:构建/评估模型并显示结果Oracle Data Miner 包含活动指南其目的在尽量减少这些阶段的所需的干预此外Build 活动中使用的隐式和显式选择和设置可以无缝地传递给 Apply 活动因此隐藏或消除了很多通常需要的操作
Build Activity Wizard 允许您:
识别要添加到事例表(基本的源数据)中的补充数据
选择数据挖掘功能和算法
手动调整 Activity 设置而非接受自动设置
该示例在处理高利润或低利润客户的个人信息时使用决策树分类算法创建计算和应用预测模型分类客户您需要执行下列任务:
使用一种挖掘活动生成一个预测模型
使用 Mining 活动应用一个预测模型
使用一种挖掘活动生成一个预测模型
对于该主题使用原始视图而非刚创建的视图单击左导航器中的 MINING_DATA_BUILD_V
要启动 Activity Build Wizard单击 Activity > Build
显示 New Activity WizardWelcome 页面单击 Next
在 Select Mining Type 页面上接受默认的 Classification Function Type 以及 Decision Tree Algorithm单击 Next
要选择将从示例表或视图挖掘的所有数据确保未选中 Join additional data with case table 框如果选中该框可以指定要与该事例表联接的其他表和架构的数据该示例假设在本例中所有必需的数据均位于事例表 MINING_DATA_BUILD_V 中从 Unique Identifier 下拉列表选择 CUST_ID然后单击 Next
您可以针对数据挖掘问题指定要预测的属性单击 AFFINITY_CARD 单选按钮指示目标然后单击 Next
注意:本教程中要预测的目标属性为 AFFINITY_CARD
一些评估结果取决于您选的 Preferred Target Value在本例中您要识别高利润客户 (Target Value = )选择 作为 Preferred Target Value 并单击 Next
为活动输入描述性的名称并单击 Next
显示 Activity Wizard 的最后一步您可以在 Activity 中显示这些设置单击 Advanced Settings
这些参数的默认设置即可确保好的结果Build 参数确定如何构造决策树的分支单击 OK
确保选中 Run upon finish 复选框单击 Finish
当完成 Activity Wizard 时将显示所选活动对应的步骤如果您选择 Run Upon Finish将顺次完成这些步骤而且每完成一个步骤将在其右侧显示一个检查标记