数据科学工具、算法和实践正在迅速发展,以前所未有的规模来解决业务问题。这使得数据科学成为最令人兴奋的领域之一。尽管令人兴奋,但从业者面临着相当多的挑战。众所周知,有一些阻碍预测建模或应用程序开发的障碍。找到正确的数据并访问它是我们从客户那里听到的两个最大痛点。
任何机器学习项目的第一步都是查找并访问数据存储。数据科学家需要获取这些端点,找出连接的正确配置,然后进行身份验证。他们可以从他们的管理员那里得到这些信息,例如咨询他们的同事,或者从现有的项目中复制它们。一旦他们知道了细节,他们就需要弄清楚并安装驱动程序和库来启动连接。
完成所有这些工作需要时间和资源来完成令人兴奋的工作:构建 AI 应用程序。
Cloudera 机器学习 (CML)让数据科学家畅通无阻,让他们专注于解决业务问题。CML 通过Cloudera 数据平台 (CDP) 环境中的预配置数据连接提供轻松的数据访问。数据科学家可以为他们选择的连接复制一个代码片段,并直接在他们的代码中使用它。使用新的cml Python 库,CML 用户无需担心设置连接端点、正确的配置或身份验证。该库抽象了创建连接和获取数据的复杂性。
第一步是在 CML 中创建一个新项目。
在项目设置 > 数据连接选项卡上,数据科学家可以查看管理员为 CML 工作区配置的连接。大多数连接都是在 CDP 环境中自动发现的。这就像点击一个按钮一样简单。
数据科学家可以通过使用他们最喜欢的编辑器开始一个新的会话来开始工作。
会话开始后,CML 会显示来自项目的数据连接并提供信息以创建连接和获取数据。
新的 cml.data 库消除了启动连接的复杂性,并提供了获取数据集的抽象。
导入 cml 包后,数据科学家可以通过引用连接名称进行连接。
import cml.data_v1 as cmldata
conn = cmldata.get_connection("CDW Impala")
Impala 连接对象具有与 CDW Impala 虚拟仓库交互的不同方法。用户可以直接获取数据并将其作为 pandas 数据框返回:
SQL_QUERY = "show databases"
dataframe = conn.get_pandas_dataframe(SQL_QUERY)
如果用户想要使用标准的 DB API Cursor 接口,他们可以从 CML 连接对象中获取:
db_cursor = conn.get_cursor()
db_cursor.execute(SQL_QUERY)
for row in db_cursor:
print(row)
作为替代方案,为了获得对连接的完全控制,用户还可以获得 DB API Connection 接口:
db_conn = conn.get_base_connection()
在下面的示例中,我们使用 Impala 连接连接到 CDW Impala 虚拟仓库并执行示例选择查询以获取数据。
借助 CML 的新数据连接和片段,数据科学家可以专注于他们工作中令人兴奋的部分,即构建 AI 应用程序。他们不必再担心数据访问。
如果您还不是 Cloudera 客户,并且想了解更多关于 CML 所提供的一切,我们会给您钥匙,让您拿出来试驾。
原文作者:Peter Ableda
原文链接:https://blog.cloudera.com/one-line-away-from-your-data/