Hive总结

Hive以下是对尚硅谷Hive3.1教程的个人总结Hive基本概念基于Hadoop的数据仓库工具,本质上是将结构化的数据文件映射为一张表,提供类似SQL的查询功能。数据存储在HDFS。查询分析数据底层的默认实现是MapReduce。执行程序运行在Yarn上。Hive优缺点优点避免写MapReduce


Spark3集群与IDEA远程运行

Spark集群及IDEA远程运行Local模式单节点完成全部工作,一般用于调试、演示等,优点是方便,缺点是单机性能有限解压Spark并配置环境变量即可使用(WIndows环境下还需要相应版本的winutils)spark-shell启动本地模式Standalone模式Spark自身的主从模式。集群规


Hadoop3 HA高可用集群搭建

Hadoop3 HA高可用集群搭建集群规划以下节点加入集群10.160.9.11 node91110.160.9.12 node91210.160.9.13 node91310.160.9.14 node91410.160.9.15 node91510.160.9.16 node91610.160.


大数据集群环境搭建

大数据集群环境搭建版本信息Red Hat Enterprise Linux Server release 7.4JDK1.8Hadoop3.2.0Spark3.2.0Hive3.2.1Python3.8.5配置集群root用户互信配置hostnamereadonly prefix_ip="


Hive3.1.2安装配置(Linux和Windows)

Hive3.1.2安装配置LinuxLinux上的安装配置都比较简单安装配置安装配置Hadoop,hadoop配置参考安装hive3.1.2,配置环境变量建议将conf文件夹中日志的properties文件配置下,方便排查错误默认元数据存储启动元数据默认存储在derby中启动hdfs执行以下命令初始


虚拟机搭建hadoop集群

虚拟机搭建hadoop集群创建三台虚拟机使用vmware创建三台虚拟机centos1、centos2、centos3配置虚拟机网络,/etc/sysconfig/network-scripts/ifcfg-ens32TYPE=EthernetPROXY_METHOD=noneBROWSER_ONLY


Scala学习记录

Scala学习记录记录一下Scala与Java不同的地方。首先Scala是一种完全面向对象的语言,一切皆对象,针对Java中不那么面向对象和设计上的缺陷作了改变。字符串格式化printf("%s %.2f\n", "dsf", 2.782123f)val x: