Kettle Kettle整合Hadoop

文章目录

  • Kettle整合大数据平台
    • Kettle整合Hadoop
    • kettle与hahoop环境整合
      • Hadoop file input组件
      • Hadoop file output组件

Kettle整合大数据平台

Kettle整合Hadoop

1、查看hadoop的文件系统

  • 通过浏览器访问 http://node1:50070
  • 通过终端访问
hadoop fs -ls / # 查看文件

2、在hadoop文件系统中创建/hadoop/test目录

hadoop fs -mkdir -p /hadoop/test  

3、在本地创建1.txt

  • vim 1.txt
id,name
1,itheima
2,itcast

4、上传1.txt到hadoop文件系统的/hadoop/test目录

hadoop fs -put 1.txt /hadoop/test

kettle与hahoop环境整合

1、确保Hadoop的环境变量设置好HADOOP_USER_NAME为root
2、从hadoop下载核心配置文件

sz /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/hdfs-site.xml
sz /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/core-site.xml

文件会被下载到windows的下载目录

3、把hadoop核心配置文件放入kettle目录
data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514

4、修改 data-integration\plugins\pentaho-big-data-plugin\plugin.properties文件

  • 修改plugin.properties
    active.hadoop.configuration=cdh514

5、 创建Hadoop clusters


Hadoop file input组件

Kettle在Big data分类中提供了一个Hadoop file input 组件用来从hdfs文件系统中读取数据。








Hadoop file output组件

Kettle在Big data分类中提供了一个Hadoop file output 组件用来向hdfs文件系统中保存数据

  • 配置 JSON 输入组件
  • 配置Hadoop file output组件



如果错误:admin用户没有权限

解决:

# 添加用户
hadoop fs -mkdir /user/admin
# 权限分配
hadoop fs -chown admin:hdfs /user/admin
# 修改权限
sudo -u hdfs hadoop fs -chmod -R 777  /