您现在的位置是:综合 >>正文

【无标题】

综合2338人已围观

简介数据格式txt doc 文本文件xml/html 标签的结构化数据 存储配置信息jsoncsvparquet 列式存储格式orc 列式存储格式hdfs 文件存储格式hdfs 文件存储格式分为两大类 行...

【无标题】

数据格式
txt doc 文本文件
xml/html 标签的无标题结构化数据 存储配置信息
json
csv
parquet 列式存储格式
orc 列式存储格式

hdfs 文件存储格式
hdfs 文件存储格式分为两大类 行存储和列存储

行存储,将一整行存储在一起,是一种连续的存储方式,例如SequenceFile,MapFile,缺点是如果只需要行中的某一列也必须把整行都读入内存当中

列存储 列存储会把文件切割成若干列,每一列存储在一起,是需要那一列读取那一列,不需要的不用读取,例如parquet ORCfile,RCfile,列存储不适合流式写入,写入失败当前文件无法恢复因此flume采用行存储,列存储由于每一列中的数据类型相同所以可以根据数据类型选择适合的编码和压缩格式

SequenceFile:Hadoop提供的一个行存储结构,Hadoop适合处理大文件而不适合处理小文件,所以sequencefile是为小文件提供的一种容器,将小文件包装起来形成一个SequenceFile类, 它用一种<key,value>的形式序列化数据导文件中

MapFile:MapFile可以看做有序的SequenceFile,是排过序的SequenceFile,它有索引可以按照索引查找,索引作为一个单独的文件存储,一般128个记录存储一个索引,索引可以载入内存,方便快速查找

hdfs 最开始只有行存储的这两种形式 SequenceFile和macFile,除此之外还有text文本,但是之后再hive中丰富了存储结构包括如下几种

RCFile:hive的RCfile 是将数据按照行分组 ,组内在按照列划分储存

ORCfile:是RCfile的升级版,将数据划分为默认大小为250MB的stripe(条带),每个stripe包含索引,数据和footer,ORCfile包换索引比RCfile更加高效

Parquet:parquet基于Google的dremel,擅长处理深度嵌套的数据(有点类似于嵌套多层的json格式),parquet会将嵌套结构整合为平面列存储,

其他安装

yum -y install tree.x86_64 安装以树形展示文件目录命令 在文件下运行tree会展示该目录下所有文件


版本问题:Java版本对Hadoop的hbase的支持??????????
一键启动:start-dfs.sh start-yarn.sh start-hbase.sh
关机 halt:停止、停下 重启 reboot
mysl up:Linux:root root
mysl up:mgh: root root
1、无标题Linux系统的无标题安装:
安装VMware,创建虚拟机,稍后安装操作系统,安装完以后选择从cd/dvd下将操作系统的文件打开,加载和安装系统。
2、无标题配置虚拟机网络
(1)设置虚拟交换机:VMware菜单栏:编辑–>虚拟网络编辑器–>更改设置
NAT模式–>查询到子网IP(前三位网段)–>NAT设置–>设置网关IP(虚拟交换机的无标题IP)
子网IP,即网段 192.168.109
网关IP,即虚拟交换机IP:192.168.109.2

安装软件:
安装jdk:
解压:
安装rz相关命令,传出jdk到apps目录下,解压tar -zxvf 文件名
配置环境变量:
vi /etc/profile export JAVA_HOME=/opt/apps/jdk1.8.0_261/
export PATH=JAVA_HOME/bin
source /etc/profile:将环境变量添加到系统中

安装Hadoop
rz上传–>tar -zxvf hadoop 解压
配置环境:
(1)配置Hadoop的Java环境
/opt/apps/hadoop-3.1.1/etc/hadoop/下的hadoop-env.sh文件中
vi 该文件 /export 搜索配置Java home的行,将注释放开
$JAVA_HOME 查到Java home的配置位置在:/opt/apps/jdk1.8.0_261/
将路径复制到export后面,保存退出
(2)配置Hadoop的位置信息:
/opt/apps/hadoop-3.1.1/etc/hadoop/下的hdfs-site.xml文件
vi 该文件:
/opt/hdpdata/name 存储元数据的文件路径
/opt/hdpdata/data 存储数据的文件路径
将以下信息配置在该文件中

分发Hadoop到机器集群上
cd /opt/apps/

关闭防火墙:
systemctl disable firewalld 禁用
systemctl enable firewalld 启用
systemctl status firewalld 查看状态
同步时间:
date -s ‘’

初始化Hadoop
/opt/apps/hadoop-3.1.1/bin路径下
hadoop namenode -format 初始化成功以后:/opt/hdpdata/name 文件路径被创建

启动:/opt/apps/hadoop-3.1.1/sbin文件下运行:https://blog.csdn.net/weixin_46661903/article/details/hadoop-daemon.sh start namenode启动namenode
:https://blog.csdn.net/weixin_46661903/article/details/hadoop-daemon.sh start datanode启动datanode

配置一键启动:
配置环境变量:
hadoop安装路径 /opt/apps/hadoop-3.1.1/
vi /etc/profile export HADOOP_HOME=/opt/apps/hadoop-3.1.1/
PATH=:PATH:HADOOP_HOME/bin:$HADOOP_HOME/sbin
将sbin的路径配置到系统中。启停Hadoop的无标题时候用的是sbin下的命令

=================================================================================================
YARN的安装:/opt/apps/hadoop-3.1.1/etc/hadoop:文件夹下的yarn-site.xml文件中添加



yarn.resourcemanager.hostname
mgh01



yarn.nodemanager.aux-services
mapreduce_shuffle



yarn.nodemanager.resource.memory-mb
4096



yarn.nodemanager.resource.cpu-vcores
4



yarn.nodemanager.vmem-check-enabled
false



yarn.nodemanager.vmem-pmem-ratio
2.1

在:/opt/apps/hadoop-3.1.1/sbin路径下的start-yarn.sh 和stop-yarn.sh两个文件加入以下配置信息:
#start-yarn.sh stop-yarn.sh 将此行加入文件中导致不断启动与停止yarn,从而打开的bash文件过多,
超过1000,报bash: warning: shell level (1000) too high, resetting to 1 错误
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

zookeeper的安装:
(1)tar -zxf zookeeper 解压完成后将/opt/apps/zookeeper-3.4.6/conf路径下的文件名为zoo_sample.cfg的文件
重命名为zoo.cfg
(2)/opt/apps/zookeeper-3.4.6/路径下创建zkData文件夹
(3)修改配置文件:/opt/apps/zookeeper-3.4.6/conf/zoo.cfg
将dataDir=/tmp/zookeeper的路径改为/opt/apps/zookeeper-3.4.6/zkData
将clientPort=2181,不必修改
添加主机的配置信息为:
server.1=mgh01:2888:3888
server.2=mgh02:2888:3888
server.3=mgh03:2888:3888
(4)在文件夹/opt/apps/zookeeper-3.4.6/zkData下,创建并追加主机号,和配置信息一致:echo 1(server.1) > myid(/opt/apps/zookeeper-3.4.6/zkData)

============================================================================================================
HBase的安装:
下载、上传、无标题解压
(1)启动zookeeper
(2)启动hdfs
(3)时间同步
(4)配置HBase相关信息:
配置HBase的无标题环境变量:/opt/apps/hbase-2.2.5/conf下的hbase-env.sh文件中
将JAVA_HOME修改并释放注释(#):export JAVA_HOME=/opt/apps/jdk1.8.0_261/
在非插入模式下用(/ZK)搜索,找到export HBASE_MANAGES_ZK=false,并释放掉注释,修改true为false

安装mysql:
yum -y install wget
wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm
yum -y install mysql57-community-release-el7-10.noarch.rpm
yum -y install mysql-community-server
service mysqld start
netstat -nltp | grep 3306
grep “password” /var/log/mysqld.log
mysql -uroot -p :此处密码如果有特殊字符,用单引号将密码包围起来
set global validate_password_policy=0;
set global validate_password_length=1;
ALTER USER ‘root’@‘localhost’ IDENTIFIED BY ‘root’;

===============================================================================================================================
安装HIVE:
(1)启动Hadoop和YARN
(2)安装mysql
(3)启动mysql,开启MySQL的远程登陆权限:设置以下两步,防止因为密码过于简单,通不过命令
set global validate_password_policy=0;
set global validate_password_length=1;
(4)开启远程登陆权限:grant all privileges on .to ‘root’@’%’ identified by ‘root’ with grant option;授予所有的特权给所有的用户,其身份为root,且被授权
flush privileges;刷新特权,
完成授权以后,在windows系统中用navicat连接测试虚拟机的MySQL是否可以远程登录:主机设为mgh01,用户root,密码root
(5)安装HIVE,上传,解压.(rz上传–,tar -zxf apache-hive-3.1.2-bin.tar.gz),重命名解压文件,配置hive的环境变量:
将环境变量文件重命名,使其生效:mv https://blog.csdn.net/weixin_46661903/article/details/hive-env.sh.template(环境变量的模板文件) hive-env.sh
在环境变量文件中添加Hadoop环境和hive的hive环境conf的路径
vi /opt/apps/hive-3.1.2/conf/hive.env.sh
export HADOOP_HOME=/opt/apps/hadoop-3.1.1/
# Hive Configuration Directory can be controlled by:
export HIVE_CONF_DIR=/opt/apps/hive-3.1.2/conf

javax.jdo.option.ConnectionURL jdbc:mysql://mgh01:3306/hive?createDatabaseIfNotExist=true&useSSL=false javax.jdo.option.ConnectionDriverName com.mysql.jdbc.Driver javax.jdo.option.ConnectionUserName root javax.jdo.option.ConnectionPassword root hive.metastore.warehouse.dir /user/hive/warehouse hive.exec.scratchdir /user/hive/tmp hive.querylog.location /user/hive/log hive.server2.thrift.port 10000 hive.server2.thrift.bind.host 0.0.0.0 hive.server2.webui.host 0.0.0.0 hive.server2.webui.port 10002 hive.server2.long.polling.timeout 5000 hive.server2.enable.doAs true datanucleus.autoCreateSchema false datanucleus.fixedDatastore true hive.execution.engine mr dfs.permissions.enabled false hadoop.proxyuser.root.hosts * hadoop.proxyuser.root.groups * (8)拷贝MySQL的驱动包到hive文件夹中的lib文件夹下:/opt/apps/hive-3.1.2/lib mysql-connector-java-5.1.39.jar 哪一个jar包都可以??y (9)重启: stop-all.sh start-all.sh (10)初始化hive的元数据库/opt/apps/hive-3.1.2/bin/下的schematool命令 /opt/apps/hive-3.1.2/bin/schematool -initSchema -dbType mysql 其意思为将hive的元数据库类型改为MySQL类型 初始化完成以后, 1) 在mysql中多一个hive数据库 记录元数据信息 可以从windows 远程登录该MySQL查看 2) 启动以后在HDFS中的目录中 /user/hive目录

HIVE安装的补充:
HIVE中间服务的配置:配置中间服务,元数据信息统一交给中间服务进行调配,统一管理。
如hive和spark在获取元数据信息时,可以通过中间服务统一调配
在hive的无标题/opt/apps/hive-3.1.2/conf路径下的hive-site.xml文件中添加如下配置信息

hive.metastore.local
false
controls whether to connect to remove metastore server or open a new metastore server in Hive Client JVM


hive.metastore.uris
thrift://linux01:9083

在Linux界面启动元数据服务并挂起 hive --service metastore监听的端口是 9083
netstat -nltp |grep 9083
hive --service metastore &

export HADOOP_CLIENT_OPTS="-Xmx4g ${ HADOOP_CLIENT_OPTS}" 将默认的内存空间提升
jps -v 查看Java进程的默认内存空间
jps -v | grep “Xmx” 在开启hive进程后查看,查看是否修改内存空间成功

配置成功后启动hive的步骤为:
启动Hadoop和yarn start-all.sh
后台启动中间服务 hive --service metastore &
后台启动hive远程连接服务 hiveserver2 &
启动beeline远程服务 beeline
连接 !connec jdbc:hive2://mgh01:10000 输入账号root,跳过密码

===============================================================================================================================
安装clickhouse:
(1)、单节点方式:
安装curl工具 :yum install -y curl
添加click house的无标题yum镜像:添加镜像的作用就是可以在系统中找到该软件的url地址,在安装的时候,根据安装的地址下载相关的文件包
curl -s https://packagecloud.io/install/repositories/altinity/clickhouse/script.rpm.sh | sudo bash
查看镜像是否安装成功:yum list | grep clickhouse 有返回信息则显示安装成功
clickhouse-client.x86_64 20.5.4.40-1.el7 @Altinity_clickhouse
。。无标题。无标题。无标题。无标题
clickhouse-common-static.x86_64 20.5.4.40-1.el7 @Altinity_clickhouse
安装click house的无标题服务端和客户端
yum install -y clickhouse-server clickhouse-client
启动服务daunt
service clickhouse-server start
启动交互式客户端
clickhouse-client -m

(2)、集群安装

===============================================================================================================================
安装CDH

修改本机的ip地址(vi /etc/sysconfig/network-scripts/ifcfg-ens33)为
TYPE=Ethernet
PROXY_METHOD=none
BROWSER_ONLY=no
BOOTPROTO=static
DEFROUTE=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_FAILURE_FATAL=no
IPV6_ADDR_GEN_MODE=stable-privacy
NAME=ens33
DEVICE=ens33
ONBOOT=yes
IPADDR=192.168.109.17
GATEWAY=192.168.109.2
NETMASK=255.255.255.0
DNS1=192.168.109.2

192.168.109.17 cdh01
192.168.109.19 cdh02
192.168.109.23 cdh03

CDH安装的每台机器的必备:
(1)网络配置 配置IP地址、域名映射、修改主机名
(2)免密设置
(3)关闭防火墙
(4)永久关闭SELINUX
(5)配置JDK环境
(6)时间同步
(7)配置本地yum源
(8)一台机器安装MySQL
(9)下载第三方依赖包 ==???存疑
yum -y install chkconfig python bind-utils psmisc libxslt zlib sqlite cyrus-sasl-plain cyrus-sasl-gssapi fuse fuse-libs redhat-lsb

Tags:

相关文章



友情链接