您的位置:首页 >创新 >

如何使用KNIME进行数据科学研究

时间:2022-05-22 08:31:48 来源:[db:来源]

原标题:如何使用KNIME进行数据科学研究


KNIME (K是无声的,所以它的发音nīm)是一种高评级数据分析平台具有广泛的适用性和许多与其他产品的集成,例如数据库、语言、机器学习框架,和深度学习框架。KNIME的理念是包容和“混合”您想使用的任何软件和数据源。

平台的探索、模型构建、可视化、报告和开发部分都是开源的,社区扩展也是如此。提供协作、自动化、管理和部署功能的KNIME服务器是商业化的,合作伙伴扩展也是如此。KNIME分析平台和KNIME服务器可用于prem安装以及AWS和Azure云。

在本教程中,我将重点介绍开源的KNIME分析平台和选择的开源扩展。我的目标是使您能够找到一个现有的KNIME工作流,您可以将其用作您自己的数据科学工作的起点,并使您能够很好地理解KNIME工作流,以便对其进行自定义。为了在有限的空间内完成这个任务,我将介绍您使用KNIME自己的一些材料来填充细节。

如果您喜欢从处理元素(称为节点)图形化地装配处理管道(称为工作流)来构建模型,那么可以根据您的分析需求选择KNIME,如下所示的简单分类器工作流为例。如果您喜欢编写代码或在电子表格中运行模型,请选择另一个工具。

KNIME分析平台展示了一个非常简单、注释良好的工作流示例。(查看大图)

如果您喜欢混合和匹配语言和工具,那么KNIME是一个将它们混合在一起的很好的框架。如果您的组织中有构建模型和工作流供分析人员应用的数据科学家,那么KNIME也是一个很好的选择,特别是如果您购买了KNIME服务器订阅。

使用图形化工作流设计器使KNIME比使用模块和框架的编程语言(如使用Scikit-learn的Python和深度学习框架)更容易学习和使用。然而,我之前所说的个人偏好仍然适用。简单并不一定更好,特别是对于训练有素的程序员和数据科学家来说。

由于有超过2,000个节点可用,所以KNIME具有相当大的功能—当然比您希望一次性学习的功能要多。这些节点包括许多领域,如IO、视图、分析、数据库连接器、结构化数据、脚本、工具和服务、工作流、社交媒体、报告和化学——而这仅仅是基本节点和一些可用的扩展。报表扩展使用开源的BIRT包。

KNIME通常使用具有高可靠性和准确性的最佳算法,如R和IBM Modeler。正如最近的一篇学术论文所讨论的那样,其他软件包并不总是这样。

尽管KNIME本身是一个Java应用程序,但它的许多扩展都使用其他语言。例如,最好的内置可视化使用JavaScript图形库,脚本扩展包括R和Python类。在KNIME 3.6.1版本中,一些深度学习扩展仍然被归类为来自KNIME实验室的预览。

KNIME分析平台是在Eclipse上构建的。可以看到下面的屏幕图像顺时针方向从左上角,有探索您的本地和远程服务器的窗格工作流,用于显示和编辑工作流,显示当前选择的节点的描述,用于显示控制台输出,用于显示当前工作流的大纲,为探索你的安装节点。

KNIME欢迎屏幕,显示用于显示和编辑工作流以及浏览节点的窗格。

一些常见的Eclipse chrome已经被禁止了,所以你不能轻易地绊倒在一个不同的插件上,但是帮助仍然主要是关于Eclipse的。虽然在帮助的底部有一个KNIME节点,但其内容比你在KNIME网站和实际平台上找到的要古老。假设您已经连接到Internet,我建议您使用浏览器中的KNIME学习中心进行参考,而不是打开本地帮助。当你在做的时候,下载初学者备忘单。

KNIME工作流通过将节点的输出和输入端口连接到模型数据流,将节点连接在一起。您可以通过将存储库中的节点拖放到workflow窗格中并绘制端口之间的连接来创建它们。工作流本质上是自文档化的,但是您可以通过在工作流窗格中添加注释来改进这一点,正如我们看到的第一个屏幕快照中所做的那样。

节点对数据执行任务,通常需要在运行它们之前进行配置(双击节点以显示属性表)。节点在操作块下面显示交通灯,以指示它们的状态:红色表示未配置,黄色表示已配置,绿色表示成功运行后的状态。

端口是数据流动的地方。通常,在节点为绿色时双击输出端口将显示数据。对于图形视图输出端口,双击该端口将显示图形窗口。

我推荐的KNIME入门课程的第1章包括一个演示基本工作流操作的视频。

你拿KNIME能做什么?它适用于何处?

KNIME应用于许多领域,包括客户情报、社交媒体、金融、制造、制药、零售、跨行业和政府部门。这并不是一个完整的列表,但是KNIME已经为每一个文档提供了示例工作流,如下所示。您将在KNIME示例服务器上找到其他示例工作流,您可以通过双击KNIME Explorer窗格中的Examples来从KNIME分析平台访问这些工作流。

KNIME应用领域。

此时,我建议在您自己的机器上安装KNIME。这是相当简单的。浏览到初步的下载页面,在第一页填写表单以注册帮助和更新,然后移动到实际的下载页面获取Windows、Linux或MacOS的安装程序。对于Windows你有几个选项;对于Linux和Mac,每个都有一个选项。

我建议您也下载KNIME Quick Start指南PDF,这样您就可以在一个单独的窗口中查看它,而不是依赖于您可以在工作台中查看的副本。快速入门指南中讨论或显示的一些内容已经过时,但还不足以让您感到困惑。例如,安装小节讨论将下载解压缩到一个目录中,但是有几个可能的下载是您需要运行的安装程序,比如MacOS安装程序。

当您第一次运行KNIME时,您将看到一个工作空间选择器。现在使用默认设置。然后,您将在本教程的概述部分中看到一个类似于屏幕截图的欢迎屏幕。在“从这里到哪里”一节中有一个获得附加节点的选项。有必要下载所有其他节点,即使这些节点听起来没什么用,因为所提供的功能和示例通常是有价值的,甚至超出了节点的假定用途。

如果您现在不想这样做,您可以在任何时候通过使用welcome工作流中的链接或者使用“File | Install KNIME Extensions…”菜单项添加节点。这两种方法都会打开Eclipse“可用软件”安装程序。

KNIME节点安装。

我建议您花一些时间来浏览安装在您的平台实例中的KNIME节点,以及阅读KNIME节点指南,以便大致了解您可以使用哪些工具。这也是一个很好的时间来阅读KNIME快速入门指南和七件事做页面和通过步骤。

使用KNIME要做的是创建导入和清理数据的工作流,将数据转换为适合您想要拟合的模型的新变量,然后执行模型拟合和评估,最后生成报告。KNIME拥有你所需要的大部分或者可能全部的东西。如果您需要使用其他包或您自己的脚本来扩展KNIME以实现您的目标,那么您应该能够找到帮助您将这些节点绑定到KNIME工作流中的节点。

七件事要做的页面建议您完成“构建一个简单的分类器”示例,该示例安装在“示例工作流|基本示例”下。“它对标准数据集进行决策树分类。它以前使用虹膜形态数据;现在它使用人口统计数据来预测收入。

这个样本是一个很好的开始。在正式讨论中,我要添加的惟一内容是指向工作流工具栏中的双箭头图标,该图标执行所有节点。您还可以将鼠标悬停在工具栏上的每个图标上,查看它的功能和键盘快捷方式。

KNIME工作流工具栏。

这些快捷键往往是面向窗口的功能键,但您可以通过在Shift-F7(执行所有可用节点)的同时按下fn键使它们在Mac上工作。如果你想在Mac上使用更方便的组合键,可以使用“系统偏好|键盘|快捷键|应用快捷键”窗口,添加KNIME应用,将你的首选键映射到节点菜单项。

“七件事”页面还建议您从示例服务器下载工作流。提出了几点建议,并详细阐述了其中的一个,即情感分类,这是一个通过分析文本来预测IMDB电影评论是积极的还是消极的模型。这是很好的第二步。

对于这两个工作流,我希望您单击每个节点并阅读描述,它将出现在右侧。我还希望您尝试并检查数据混合和简单的报告示例,以了解如何使用KNIME执行ETL和生成报告。

在这一点上,我建议您花一些宝贵的时间来研究KNIME示例工作流。您可以浏览所有的主题,并查看可能感兴趣的元信息;您还可以搜索感兴趣的特定领域。正如您在情感分类中所做的那样,复制您想要运行和定制的任何工作流,并将它们放置到您的本地工作区中。这将是添加一些工作流组来将您的分析组织到项目中的好时机。

KNIME学习中心是下一个浏览的好地方,因为您可能还没有学习为不同数据和不同(或更多)算法定制工作流所需的所有知识。根据您的背景、兴趣和技能水平,您可能希望查看学习中心中的各种用法和应用领域。如果您计划开发自己的节点,那么SDK信息现在就在GitHub上。

在各种学习中心应用程序选项卡下有一些书籍和课程推荐。我已经看过几本书了。尽管KNIME的用户界面的图形化特性意味着如何操作指令需要大量的屏幕截图和关于点击哪里的冗长描述,但内容还是很不错的,这意味着用户很容易迷失其中。我还看了半打推荐的视频。只要你能听懂说话人的口音,你就会发现演讲很有用。


郑重声明:文章仅代表原作者观点,不代表本站立场;如有侵权、违规,可直接反馈本站,我们将会作修改或删除处理。