PyCharm大数据工具环境配置教程

PyCharm是立项的大数据开发工具,在开始使用大数据工具之前,您需要安装必要的插件并配置与服务器的连接。

安装必备插件

1. 无论你在PyCharm中做什么,你都要在一个项目中进行。所以,打开一个现有的项目(文件|打开)或创建一个新的项目(文件|新建|项目)。

2. 按Ctrl+Alt+S打开IDE设置,选择插件|市场。

3. 安装大数据工具插件。

4. 重启IDE。重启后,大数据工具标签出现在工具窗口的最右边一组。点击它,打开大数据工具窗口。

一旦在IDE中启用大数据工具支持,你可以配置与Zeppelin、Spark、Google Storage和S3服务器的连接。你可以使用配置文件和URI连接到HDFS、WebHDFS、AWS S3和本地驱动器。

配置服务器连接

1. 在大数据工具窗口中,点击添加连接并选择服务器类型。大数据工具连接对话框打开。

2. 在大数据工具连接对话框中,根据服务器类型指定以下参数:

文件系统:FS | 本地, FS | HDFS

存储器:AWS S3, Minio, Linode, Digital Open Spaces, GS, Azure, Yandex Object Storage

监测:Spark, Hadoop, Kafka

Notebooks:Zeppelin

PyCharm大数据工具环境配置教程

本地数据

强制性参数:

  • 根路径:根目录的路径。
  • 名称:连接的名称,以区别于其他连接。

PyCharm大数据工具环境配置教程

HDFS

强制性参数:

  • 根路径:目标服务器上根目录的路径。
  • 当连接成功建立后,Driver home path字段显示连接的目标IP地址,包括一个端口 。Example: hdfs://127.0.0.1:65224/.

PyCharm大数据工具环境配置教程

Hadoop

强制性参数:

  • URL:目标服务器的路径。
  • 名称:连接的名称,以区别于其他连接。

以下是可选的设置:

  • 启用SSH。创建一个到远程主机的SSH通道。如果目标服务器在一个私人 络中,但与 络中的主机的SSH连接是可用的,那么它可能是有用的。
  • 选择复选框并指定一个SSH连接的配置(点击…创建一个新的SSH配置)。
  • 每个项目:选择只为当前项目启用这些连接设置。如果你想让这个连接在其他项目中可见,请取消选择。
  • 启用连接:如果你想限制使用这个连接,请取消选择。默认情况下,新创建的连接是启用的。
  • 启用HTTP基本认证:使用指定的用户名和密码进行HTTP认证的连接。
  • 启用HTTP代理:使用指定的主机、端口、用户名和密码,与HTTP代理连接。
  • HTTP代理:使用HTTP或SOCKS代理认证连接。选择你是否要使用IDEA HTTP代理设置或使用指定的主机名、端口、登录名和密码的自定义设置。

现在您已经与服务器建立了连接,可以开始使用开发环境了。但是,最好确保在特定服务器上执行所需的所有库和包都已安装并可用。

配置Notebook依赖

  • 从主菜单中,选择文件|项目结构。
  • 在项目结构对话框中,在项目设置的列表中选择模块。然后在模块列表中选择任何配置好的连接,双击系统依赖。
  • 检查添加的库的列表。点击列表,开始键入,搜索一个特定的库。

PyCharm大数据工具环境配置教程

管理repositories

1. 要打开存储库设置,点击解释器工具栏上的新解释器。

PyCharm大数据工具环境配置教程

你可以刷新版本库列表(Refresh),添加新版本库(New repository),以及删除所选版本库(Remove the selected repository)。

要添加一个新的资源库,点击新建资源库并填写资源库设置。
强制性参数:

  • Id:存储库的唯一名称
  • Url: 存储库的地址

可选参数:

  • 名称:访问版本库的用户名
  • 密码:访问版本库的密码
  • 主机:存储库所在的 HTTP 或 HTTPS 服务器
  • 端口:版本库服务器的端口
  • 姓名和密码:访问版本库服务器的用户凭证

标签:

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年1月20日
下一篇 2022年1月20日

相关推荐

发表回复

登录后才能评论