目前工作内容中包含比较多的sql需求,但是公司目前的sql开发平台hue系统最近越来越慢了,一般在开发过程中会验证一些小sql是否符合预期,某些大sql也可能会拆成数个/数十个子sql进行分步验证,如果每个小sql需要等待数分钟才能查看结果,无疑会导致sql开发效率变得低下
所以在本地搭建一个大数据sql开发平台就十分必要了
cloudera公司提供了方便的一键启动的虚拟机,参考:https://www.cloudera.com/downloads/quickstart_vms/5-13.html
平时一般使用vmware虚拟机,这里就用vmware举例了,可以看到cloudera官方还支持virtual box, kvm, docker image等虚拟机系统,可以自行选择
获取hue虚拟机
单击"GET IT NOW",然后填一个问卷单就可以下载了,下载完成后可以检查下文件大小,约5.76GB是下载ok的
然后进行解压,双击cloudera-quickstart-vm-5.13.0-0-vmware.vmx就可以启动虚拟机了,操作效果如下:
配置静态ip
启动虚拟机后,hue、hive、impala已经默认可用了,一般都在虚拟机外使用浏览器访问hue,为了访问虚拟机内hue服务的稳定,有必要给这个虚拟机分配一个固定ip地址
在vmware fusion的Preferences中添加一张新的网卡
因为要分配静态ip,需要把DHCP自动分配ip的功能关掉,其它选项可以根据需要调整
然后给这个hue的虚拟机添加上这个网卡
进入系统后执行ifconfig获取第二张网卡的硬件地址
然后在这张新网卡上申请固定ip地址:vi /etc/sysconfig/network-scripts/ifcfg-eth1
DEVICE="eth1"
BOOTPROTO="static"
IPV6INIT="no"
MTU="1500"
ONBOOT="yes"
TYPE="Ethernet"
IPADDR="192.168.26.24"
NETMASK="255.255.255.0"
GATEWAY="192.168.26.2"
DNS1="192.168.26.2"
HWADDR="00:0C:29:02:BC:6B"
重启虚拟机,静态ip就ok了,效果如下
可以看到静态ip 192.168.26.24已经成功配置上了
测试数据导入、sql执行
访问上面配置的静态ip的8888端口就可以使用hue了: http://192.168.26.24:8888/,效果如下
来体验一下本地hue的速度
可以看到,这速度与动则要执行3,5分钟的公司系统对比简直飞一样的感觉~
一些注意的点
hue默认的用户名密码是 cloudera cloudera
在hue中上传文件时,需要上传到对应查询引擎的文件存放目录才可以正确导入数仓中