首页常见问题正文

Kettle的设计原则是什么?【大数据培训】

更新时间:2022-09-01 来源:黑马程序员 浏览量:

IT培训班

  每个ETL工具都会有自己的设计原则,Kettle也不例外。Kettle的设计原则一共有7点,具体内容如下。

  1.易于开发

  作为数据仓库和ETL的开发者,如果只想把时间用在创建BI解决方案上,那么任何用于软件安装和配置的时间都是一种浪费。例如,为了创建数据库连接,很多与Kettle类似的工具都要求用户手工输入数据库驱动的类名和JDBC URL连接串,虽然用户可以通过互联网搜索到这些信息,但这明显把用户的注意力转移到了技术方面,并非业务方面,而Kettle就是尽量避免这类问题的出现。

  2.避免自定义开发

  一般来说,ETL工具的作用是使复杂的事情变得简单,简单的事情更简单。ETL提供了标准化的构建组件满足ETL开发人员不断重复的需求,通过手工编写Java代码或Java脚本代码实现一些功能,但是增加的代码会给项目增加复杂度和维护成本,因此要尽量避免手工开发,可组合使用已提供的组件完成任务。

  3.所有功能都是通过用户界面完成

  对于“所有功能都能通过用户界面完成”这一黄金准则也有几个例外(如kettle.properties和shared.xmr文件就是两个例外,不能通过Kettle界面修改这两个配置文件,而是需要通过手工修改),如果不直接把所有功能通过界面的方式提供给用户,那么就是在浪费开发人员的时间,也是在浪费用户的时间。

  4.没有命名限制

  ETL转换里有各种各样的名称,如数据库连接、转换、步骤、数据字段、作业等都有一个名称。若在命名时考虑到一些限制(如长度、选择的字符),就会使工作变得烦琐。ETL只需要足够智能化的处理ETL开发人员设置的各种名称。

  5.透明

  如果有ETL工具需要了解转换中某一部分工作是如何完成的,那么这个ETL工具就是不透明的。若想实现ETL工具里的某一个功能,就需要准确地知道这个功能是如何完成的。允许用户看到ETL过程中各部分的运行状态也很重要,这样可以加快开发速度,降低维护成本。

  6.灵活的数据通道

  对ETL开发者来说,创造性极为重要,不但可以让你享受到工作的乐趣,而且还能让你以最快的方式开发出ETL方案。Kettle在数据的发送、接收方式上设计得尽可能灵活。Kettle可以在文本文件、关系数据库等不同数据源之间复制和分发数据。

  7.只映射需要映射的字段

  在一些ETL工具里可以看到数百行的输入和输出映射,对于维护人员来说,这是一个很强大的功能。在ETL开发过程中,字段在不断地变化,大量的字段映射也会增加维护的成本,而Kettle的一个核心原则是将ETL流程中所有未指定的字段自动传递到下一个组件中,因此极大地降低了维护的成本。也就是说,输入的字段会自动出现在输出流中,除非中间过程专门设置了终止某个字段的传递。

分享到:
在线咨询 我要报名