我最早使用的一个关系型DBMS就是 Microrim‘sRBaseRBase与其PC竞争对手dBase不同的是它是真正的关系型数据库管理系统是在世纪年代初作为NASARIM(关系信息管理RelationalInformationManagement)系统的一个PC版本开发出来的而我最欣赏的功能之一是它允许用户在导入过程中查看示例数据尽管像bcpDTS新的SQLServer集成服务这样的工具以及各种移植工具和向导已经将数据导入过程自动化到SQLServer之中但这不意味着我们可以一劳永逸本月RonTalmage提供一些关于导入数据的非常好的常识性建议
SQLServerDBA(DatabaseAdministrator数据库管理员)发现他们经常使用TSQL导入和处理数据为什么呢?因为一些数据传输需要技术成熟的SQL所具备的强大功能最近我刚好完成了另一个数据导入的案例该案例触动我汇编了一份供我使用的行为规范列表
确保将载入的原始数据暂存为varchar数据类型
源自所谓的旧式系统的原始数据通常以文本格式传送因此我首先总是将原始数据载入一个单独的暂存数据库我从不尝试将数据直接载入一个成品数据库
我做的事情是将所有原始文本数据载入相应的原始表表中的列为varchar数据类型(DTS将自动完成该过程这样很好但是DTS还会将列命名为COL因此您不用事先提供列名)varchar的主要优点是它能够接收任何数据甚至是“坏”数据如果您尝试从一个没有对用户输入的数据进行严格检查的旧式系统加载数据那么被忽略的数据或写入异常文件的数据可能比加载的数据还多如果您不想冒这样的风险除非接收每一个可能的值将字符载入varchar数据类型的列则可以做到这一点
在暂存表/列名时不要使用非字母数字字符
您可能无法控制在包含原始数据的表中如何对列进行初始命名但是我会尝试修改可能包含空格或其他非常规字符的旧式列名当列名或表名包含非字母数字的字符时我们必须使用方括号或双引号对其进行分隔这种代码不但编写起来比较困难而且可读性较差
不要在列名中使用关键字
源自旧式系统的数据通常包含能够破坏SQL查询的描述性列名例如房地产数据可能会包含一个名为KEY的列它用来反映放置在待售房屋上的钥匙箱然而KEY也是TSQL中的一个关键字(!)如果使用这样的列名查询操作在直接引用该列名时将失败因此最终您必须用方括号或双引号分隔含有关键字的列名
确保使用正确的数据类型创建一个暂存表
下一步是创建一个或多个额外的暂存表这些表有“正确的”数据类型我喜欢使暂存表和目标 OLTP(OnlineTransactionProcessing联机事务处理)数据库中的目的表具有相同的列名不管怎样重要的是原始数据中每列的数据类型在载入暂存时都将执行检查并予以改正在SQLServer表中找到坏数据比在加载失败的外部文件中找到坏数据容易得多
确保将新列添加到暂存表中
当暂存数据没有相应的列时您可以添加这些列然后拆分或合并载入的数据例如即使目的表分解出街道名和门牌号地址仍然可能作为一个简单的字符串载入暂存表那么您可以在暂存表中添加街道名列和门牌号列将旧式地址分解为两个列这样做的优点是原始数据与新拆分的数据并存因此您能够通过比较列来测试脚本
确保使用本地副本来测试填充的产品数据
当您准备好要插入暂存表的数据时可以首先通过将其插入成品表的本地副本来测试这些数据有时您只需清空表有时您必须填充表
确保保留产品约束
在副表上总是保留产品约束这样您就能够测试暂存表数据满足这些约束的程度这些约束包括NULL默认值检查主键和外键约束首先保证副表列上的NULL或NOTNULL属性与目标系统的相同然后再逐步检查其他所有约束如果您的测试表明暂存数据插入过程满足所有约束那么您距离成功就只有一步之遥了
确保在一个产品数据副本上测试
虽然将导入数据插入空表将遇到很多潜在的问题但是不会遇到所有的问题在通过了所有之前的测试后确保您将在一个目标数据或成品系统的副本(或至少是一个合理的子集)上测试导入您能够接收的最终错误类型将由数据配置决定而且这是此项测试能够检测到的那么您就能够在数据库副本中检查结果甚至可能将应用程序重定向到该副本以便进一步测试和验证【专栏作家TomMoreau补充说“使用每日成品更新数据进行测试可以为数据移植做准备如果原来的系统没有足够的约束而新系统有那么坏数据将进入原来的系统并破坏您的移植”Ed】
如果导入过程至此通过了所有测试那么您可能已经准备好进行导入数据了或者至少可以将导入过程交给质量管理员(QAQualityAssurance)了