您现在的位置是:综合 >>正文
【无标题】
综合2338人已围观
简介数据格式txt doc 文本文件xml/html 标签的结构化数据 存储配置信息jsoncsvparquet 列式存储格式orc 列式存储格式hdfs 文件存储格式hdfs 文件存储格式分为两大类 行...
数据格式
txt doc 文本文件
xml/html 标签的无标题结构化数据 存储配置信息
json
csv
parquet 列式存储格式
orc 列式存储格式
hdfs 文件存储格式
hdfs 文件存储格式分为两大类 行存储和列存储
行存储,将一整行存储在一起,是一种连续的存储方式,例如SequenceFile,MapFile,缺点是如果只需要行中的某一列也必须把整行都读入内存当中
列存储 列存储会把文件切割成若干列,每一列存储在一起,是需要那一列读取那一列,不需要的不用读取,例如parquet ORCfile,RCfile,列存储不适合流式写入,写入失败当前文件无法恢复因此flume采用行存储,列存储由于每一列中的数据类型相同所以可以根据数据类型选择适合的编码和压缩格式
SequenceFile:Hadoop提供的一个行存储结构,Hadoop适合处理大文件而不适合处理小文件,所以sequencefile是为小文件提供的一种容器,将小文件包装起来形成一个SequenceFile类, 它用一种<key,value>的形式序列化数据导文件中
MapFile:MapFile可以看做有序的SequenceFile,是排过序的SequenceFile,它有索引可以按照索引查找,索引作为一个单独的文件存储,一般128个记录存储一个索引,索引可以载入内存,方便快速查找
hdfs 最开始只有行存储的这两种形式 SequenceFile和macFile,除此之外还有text文本,但是之后再hive中丰富了存储结构包括如下几种
RCFile:hive的RCfile 是将数据按照行分组 ,组内在按照列划分储存
ORCfile:是RCfile的升级版,将数据划分为默认大小为250MB的stripe(条带),每个stripe包含索引,数据和footer,ORCfile包换索引比RCfile更加高效
Parquet:parquet基于Google的dremel,擅长处理深度嵌套的数据(有点类似于嵌套多层的json格式),parquet会将嵌套结构整合为平面列存储,
其他安装
yum -y install tree.x86_64 安装以树形展示文件目录命令 在文件下运行tree会展示该目录下所有文件
版本问题:Java版本对Hadoop的hbase的支持??????????
一键启动:start-dfs.sh start-yarn.sh start-hbase.sh
关机 halt:停止、停下 重启 reboot
mysl up:Linux:root root
mysl up:mgh: root root
1、无标题Linux系统的无标题安装:
安装VMware,创建虚拟机,稍后安装操作系统,安装完以后选择从cd/dvd下将操作系统的文件打开,加载和安装系统。
2、无标题配置虚拟机网络
(1)设置虚拟交换机:VMware菜单栏:编辑–>虚拟网络编辑器–>更改设置
NAT模式–>查询到子网IP(前三位网段)–>NAT设置–>设置网关IP(虚拟交换机的无标题IP)
子网IP,即网段 192.168.109
网关IP,即虚拟交换机IP:192.168.109.2
安装软件:
安装jdk:
解压:
安装rz相关命令,传出jdk到apps目录下,解压tar -zxvf 文件名
配置环境变量:
vi /etc/profile export JAVA_HOME=/opt/apps/jdk1.8.0_261/
export PATH=JAVA_HOME/bin
source /etc/profile:将环境变量添加到系统中
安装Hadoop
rz上传–>tar -zxvf hadoop 解压
配置环境:
(1)配置Hadoop的Java环境
/opt/apps/hadoop-3.1.1/etc/hadoop/下的hadoop-env.sh文件中
vi 该文件 /export 搜索配置Java home的行,将注释放开
$JAVA_HOME 查到Java home的配置位置在:/opt/apps/jdk1.8.0_261/
将路径复制到export后面,保存退出
(2)配置Hadoop的位置信息:
/opt/apps/hadoop-3.1.1/etc/hadoop/下的hdfs-site.xml文件
vi 该文件:
/opt/hdpdata/name 存储元数据的文件路径
/opt/hdpdata/data 存储数据的文件路径
将以下信息配置在该文件中
分发Hadoop到机器集群上
cd /opt/apps/
关闭防火墙:
systemctl disable firewalld 禁用
systemctl enable firewalld 启用
systemctl status firewalld 查看状态
同步时间:
date -s ‘’
初始化Hadoop
/opt/apps/hadoop-3.1.1/bin路径下
hadoop namenode -format 初始化成功以后:/opt/hdpdata/name 文件路径被创建
启动:/opt/apps/hadoop-3.1.1/sbin文件下运行:https://blog.csdn.net/weixin_46661903/article/details/hadoop-daemon.sh start namenode启动namenode
:https://blog.csdn.net/weixin_46661903/article/details/hadoop-daemon.sh start datanode启动datanode
配置一键启动:
配置环境变量:
hadoop安装路径 /opt/apps/hadoop-3.1.1/
vi /etc/profile export HADOOP_HOME=/opt/apps/hadoop-3.1.1/
PATH=:PATH:HADOOP_HOME/bin:$HADOOP_HOME/sbin
将sbin的路径配置到系统中。启停Hadoop的无标题时候用的是sbin下的命令
=================================================================================================
YARN的安装:/opt/apps/hadoop-3.1.1/etc/hadoop:文件夹下的yarn-site.xml文件中添加
yarn.resourcemanager.hostname
mgh01
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.nodemanager.resource.memory-mb
4096
yarn.nodemanager.resource.cpu-vcores
4
yarn.nodemanager.vmem-check-enabled
false
yarn.nodemanager.vmem-pmem-ratio
2.1
在:/opt/apps/hadoop-3.1.1/sbin路径下的start-yarn.sh 和stop-yarn.sh两个文件加入以下配置信息:
#start-yarn.sh stop-yarn.sh 将此行加入文件中导致不断启动与停止yarn,从而打开的bash文件过多,
超过1000,报bash: warning: shell level (1000) too high, resetting to 1 错误
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root
zookeeper的安装:
(1)tar -zxf zookeeper 解压完成后将/opt/apps/zookeeper-3.4.6/conf路径下的文件名为zoo_sample.cfg的文件
重命名为zoo.cfg
(2)/opt/apps/zookeeper-3.4.6/路径下创建zkData文件夹
(3)修改配置文件:/opt/apps/zookeeper-3.4.6/conf/zoo.cfg
将dataDir=/tmp/zookeeper的路径改为/opt/apps/zookeeper-3.4.6/zkData
将clientPort=2181,不必修改
添加主机的配置信息为:
server.1=mgh01:2888:3888
server.2=mgh02:2888:3888
server.3=mgh03:2888:3888
(4)在文件夹/opt/apps/zookeeper-3.4.6/zkData下,创建并追加主机号,和配置信息一致:echo 1(server.1) > myid(/opt/apps/zookeeper-3.4.6/zkData)
============================================================================================================
HBase的安装:
下载、上传、无标题解压
(1)启动zookeeper
(2)启动hdfs
(3)时间同步
(4)配置HBase相关信息:
配置HBase的无标题环境变量:/opt/apps/hbase-2.2.5/conf下的hbase-env.sh文件中
将JAVA_HOME修改并释放注释(#):export JAVA_HOME=/opt/apps/jdk1.8.0_261/
在非插入模式下用(/ZK)搜索,找到export HBASE_MANAGES_ZK=false,并释放掉注释,修改true为false
安装mysql:
yum -y install wget
wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm
yum -y install mysql57-community-release-el7-10.noarch.rpm
yum -y install mysql-community-server
service mysqld start
netstat -nltp | grep 3306
grep “password” /var/log/mysqld.log
mysql -uroot -p :此处密码如果有特殊字符,用单引号将密码包围起来
set global validate_password_policy=0;
set global validate_password_length=1;
ALTER USER ‘root’@‘localhost’ IDENTIFIED BY ‘root’;
===============================================================================================================================
安装HIVE:
(1)启动Hadoop和YARN
(2)安装mysql
(3)启动mysql,开启MySQL的远程登陆权限:设置以下两步,防止因为密码过于简单,通不过命令
set global validate_password_policy=0;
set global validate_password_length=1;
(4)开启远程登陆权限:grant all privileges on .to ‘root’@’%’ identified by ‘root’ with grant option;授予所有的特权给所有的用户,其身份为root,且被授权
flush privileges;刷新特权,
完成授权以后,在windows系统中用navicat连接测试虚拟机的MySQL是否可以远程登录:主机设为mgh01,用户root,密码root
(5)安装HIVE,上传,解压.(rz上传–,tar -zxf apache-hive-3.1.2-bin.tar.gz),重命名解压文件,配置hive的环境变量:
将环境变量文件重命名,使其生效:mv https://blog.csdn.net/weixin_46661903/article/details/hive-env.sh.template(环境变量的模板文件) hive-env.sh
在环境变量文件中添加Hadoop环境和hive的hive环境conf的路径
vi /opt/apps/hive-3.1.2/conf/hive.env.sh
export HADOOP_HOME=/opt/apps/hadoop-3.1.1/
# Hive Configuration Directory can be controlled by:
export HIVE_CONF_DIR=/opt/apps/hive-3.1.2/conf
HIVE安装的补充:
HIVE中间服务的配置:配置中间服务,元数据信息统一交给中间服务进行调配,统一管理。
如hive和spark在获取元数据信息时,可以通过中间服务统一调配
在hive的无标题/opt/apps/hive-3.1.2/conf路径下的hive-site.xml文件中添加如下配置信息
hive.metastore.local
false
controls whether to connect to remove metastore server or open a new metastore server in Hive Client JVM
hive.metastore.uris
thrift://linux01:9083
在Linux界面启动元数据服务并挂起 hive --service metastore监听的端口是 9083
netstat -nltp |grep 9083
hive --service metastore &
export HADOOP_CLIENT_OPTS="-Xmx4g ${ HADOOP_CLIENT_OPTS}" 将默认的内存空间提升
jps -v 查看Java进程的默认内存空间
jps -v | grep “Xmx” 在开启hive进程后查看,查看是否修改内存空间成功
配置成功后启动hive的步骤为:
启动Hadoop和yarn start-all.sh
后台启动中间服务 hive --service metastore &
后台启动hive远程连接服务 hiveserver2 &
启动beeline远程服务 beeline
连接 !connec jdbc:hive2://mgh01:10000 输入账号root,跳过密码
===============================================================================================================================
安装clickhouse:
(1)、单节点方式:
安装curl工具 :yum install -y curl
添加click house的无标题yum镜像:添加镜像的作用就是可以在系统中找到该软件的url地址,在安装的时候,根据安装的地址下载相关的文件包
curl -s https://packagecloud.io/install/repositories/altinity/clickhouse/script.rpm.sh | sudo bash
查看镜像是否安装成功:yum list | grep clickhouse 有返回信息则显示安装成功
clickhouse-client.x86_64 20.5.4.40-1.el7 @Altinity_clickhouse
。。无标题。无标题。无标题。无标题
clickhouse-common-static.x86_64 20.5.4.40-1.el7 @Altinity_clickhouse
安装click house的无标题服务端和客户端
yum install -y clickhouse-server clickhouse-client
启动服务daunt
service clickhouse-server start
启动交互式客户端
clickhouse-client -m
(2)、集群安装
===============================================================================================================================
安装CDH
修改本机的ip地址(vi /etc/sysconfig/network-scripts/ifcfg-ens33)为
TYPE=Ethernet
PROXY_METHOD=none
BROWSER_ONLY=no
BOOTPROTO=static
DEFROUTE=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_FAILURE_FATAL=no
IPV6_ADDR_GEN_MODE=stable-privacy
NAME=ens33
DEVICE=ens33
ONBOOT=yes
IPADDR=192.168.109.17
GATEWAY=192.168.109.2
NETMASK=255.255.255.0
DNS1=192.168.109.2
192.168.109.17 cdh01
192.168.109.19 cdh02
192.168.109.23 cdh03
CDH安装的每台机器的必备:
(1)网络配置 配置IP地址、域名映射、修改主机名
(2)免密设置
(3)关闭防火墙
(4)永久关闭SELINUX
(5)配置JDK环境
(6)时间同步
(7)配置本地yum源
(8)一台机器安装MySQL
(9)下载第三方依赖包 ==???存疑
yum -y install chkconfig python bind-utils psmisc libxslt zlib sqlite cyrus-sasl-plain cyrus-sasl-gssapi fuse fuse-libs redhat-lsb
Tags:
相关文章
第一次去未来婆婆家,你们收到红包是多少钱?
综合镜像问题:第一次去未来岳母家,你们收到红包是多少钱没有给那时候我都不知道第一次见面还要给红包估计我婆婆也是不知道第一次去婆婆家的时候,婆婆给了六千块,老公说婆婆问了小区里的朋友们他们未来儿媳第一次来家 ...
【综合】
阅读更多2010年7月13日定期维护公告
综合为保证服务器的运行稳定和服务质量,《梦幻西游》所有服务器将于停机,进行每周例行的维护工作。预计维护时间为上午。如果在预定时间内无法完成维护内容,开机时间也将继续顺延。请各位玩家相互转告,并提前留意游戏 ...
【综合】
阅读更多dota2天梯积分对应段位2023最新 刀塔2天梯积分对应段位一览[多图]
综合2023dota2天梯积分对应段位是怎么样的,不同的天梯积分是对应的不同的段位的,不少的人都不清楚最新段位的相关资料,参考积分也是可以知道自己的水平,下面就来介绍下dota2天梯积分对应段位是什么。2 ...
【综合】
阅读更多
热门文章
最新文章
友情链接
- 天龙八部2逍遥带什么装备好 逍遥装备推荐
- 2022中小号春天福利活动 助你成功逆袭!
- 英雄联盟:再登峡谷之巅第一!被称为宇宙第一诺手的男人王者归来
- DNF:10.16闪耀跨界石到手了!3类装备值得跨,+13武器非最优选
- 金铲铲狼人出装搭配推荐 炼金狼人出装方法
- 求生之路2使用N2N小黄鸭建设虚拟局域网本地服务器(适合群友开黑)
- 平凡的世界读书笔记
- 西风幼龙缰绳,西风幼龙怎么获得
- 英雄联盟手游剑姬出装 LOL手游菲奥娜怎么玩
- 鬼泣5+维吉尔 Devil May Cry 5 + Vergil标准版CDK
- 死亡空间重制版帧数低解决方法 帧数越来越低怎么办
- dnf奶妈稀有装扮1到12期(dnf奶妈1-12期稀有装扮)
- 美服v3.14正式补丁:打野辅助威力加强版
- 关于摩尔庄园菜谱的文字攻略(包括火候)
- 拖拽战车2加速器
- 游尘手游
- 皎月女神重做什么时候出
- 迷你世界0.41.4版本下载
- lols11ez出装顺序天赋推荐
- 王者荣耀凤凰偕飞抽奖活动入口 王者荣耀李白凤求凰抽奖活动在哪
- cf手游的冰锋在哪里获得,CF手游尼泊尔冰锋怎么获取
- 荣耀未成年怎么退款 家长怎么帮孩子退款
- 英雄联盟皮城女特警符文 皮城女警天赋符文攻略
- FLY推荐夏洛特性价比最高出装,有他辅助实力猛增三倍!伤害爆表
- 云顶之弈极地毒狂战阵容奥拉夫出装及站位详解
- 亚洲争霸赛中国四将职业大分析
- 重装上阵飞机如何加推进器 飞机推进器添加使用技巧分享
- 脸上的伤疤才是荣耀的印记! 被毁容却更加帅气的靓仔们!
- dnf怎么设置二级密码(dnf怎么设置二级密码和仓库锁)
- 《魔兽世界怀旧服》希利苏斯打信什么意思 希利苏斯打信介绍
- 和平精英洛天依捏脸数据大全 吃鸡2022最新洛天依捏脸数据代码汇总
- 英雄联盟手游奥拉夫怎么配
- 梦幻西游绝世高手,兑换千亿经验书,不是浮云神马也赚了
- 《造梦西游3》寻踪蜈蚣精!秘境之旅揭开神秘面纱
- dnf无尽的祭坛在哪里-无尽的祭坛位置介绍
- 《魔兽世界》斯坦索姆钥匙任务玩法攻略
- 速度王者御风归来 超级瓦斯~浅~析
- 通关骷髅_一命通关骷髅王怎么打 一命通关弓箭手怎么过骷髅王
- LolS7中单火男天赋符文加点出装顺序技能玩法
- 重装上阵游戏论坛