PyCharm是立项的大数据开发工具,在开始使用大数据工具之前,您需要安装必要的插件并配置与服务器的连接。
安装必备插件
1. 无论你在PyCharm中做什么,你都要在一个项目中进行。所以,打开一个现有的项目(文件|打开)或创建一个新的项目(文件|新建|项目)。
2. 按Ctrl+Alt+S打开IDE设置,选择插件|市场。
3. 安装大数据工具插件。
4. 重启IDE。重启后,大数据工具标签出现在工具窗口的最右边一组。点击它,打开大数据工具窗口。
一旦在IDE中启用大数据工具支持,你可以配置与Zeppelin、Spark、Google Storage和S3服务器的连接。你可以使用配置文件和URI连接到HDFS、WebHDFS、AWS S3和本地驱动器。
配置服务器连接
1. 在大数据工具窗口中,点击添加连接并选择服务器类型。大数据工具连接对话框打开。
2. 在大数据工具连接对话框中,根据服务器类型指定以下参数:
文件系统:FS | 本地, FS | HDFS
存储器:AWS S3, Minio, Linode, Digital Open Spaces, GS, Azure, Yandex Object Storage
监测:Spark, Hadoop, Kafka
Notebooks:Zeppelin

本地数据
强制性参数:
- 根路径:根目录的路径。
- 名称:连接的名称,以区别于其他连接。

HDFS
强制性参数:
- 根路径:目标服务器上根目录的路径。
- 当连接成功建立后,Driver home path字段显示连接的目标IP地址,包括一个端口 。Example: hdfs://127.0.0.1:65224/.

Hadoop
强制性参数:
- URL:目标服务器的路径。
- 名称:连接的名称,以区别于其他连接。
以下是可选的设置:
- 启用SSH。创建一个到远程主机的SSH通道。如果目标服务器在一个私人 络中,但与 络中的主机的SSH连接是可用的,那么它可能是有用的。
- 选择复选框并指定一个SSH连接的配置(点击…创建一个新的SSH配置)。
- 每个项目:选择只为当前项目启用这些连接设置。如果你想让这个连接在其他项目中可见,请取消选择。
- 启用连接:如果你想限制使用这个连接,请取消选择。默认情况下,新创建的连接是启用的。
- 启用HTTP基本认证:使用指定的用户名和密码进行HTTP认证的连接。
- 启用HTTP代理:使用指定的主机、端口、用户名和密码,与HTTP代理连接。
- HTTP代理:使用HTTP或SOCKS代理认证连接。选择你是否要使用IDEA HTTP代理设置或使用指定的主机名、端口、登录名和密码的自定义设置。
现在您已经与服务器建立了连接,可以开始使用开发环境了。但是,最好确保在特定服务器上执行所需的所有库和包都已安装并可用。
配置Notebook依赖
- 从主菜单中,选择文件|项目结构。
- 在项目结构对话框中,在项目设置的列表中选择模块。然后在模块列表中选择任何配置好的连接,双击系统依赖。
- 检查添加的库的列表。点击列表,开始键入,搜索一个特定的库。

管理repositories
1. 要打开存储库设置,点击解释器工具栏上的新解释器。

你可以刷新版本库列表(Refresh),添加新版本库(New repository),以及删除所选版本库(Remove the selected repository)。
要添加一个新的资源库,点击新建资源库并填写资源库设置。
强制性参数:
- Id:存储库的唯一名称
- Url: 存储库的地址
可选参数:
- 名称:访问版本库的用户名
- 密码:访问版本库的密码
- 主机:存储库所在的 HTTP 或 HTTPS 服务器
- 端口:版本库服务器的端口
- 姓名和密码:访问版本库服务器的用户凭证
标签:
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!