网卡配置项
修改电脑网卡高级设置可以提高网络速度。另外,建议关闭在Realtek网卡高级设置中的以下其他选项:流控制/FlowControl、巨型帧/Jumboframe、大量传送负载/OffloadLargesend、EEE(Energy Efficient Ethernet)、环保节能/GreenEthernet、硬件效验和/OffloadChksum。 自动关闭 PCIe (省电) 设置此选项可进入网络控制器省电模式设置此選項可進入网路卡省电模式 选项 说明 关闭 关闭自动关闭PCIe (省电) 开启, 电池 当使用电池且网络线未插入时,自动关闭PCIe连接 开启, 电池或 AC 当使用电池或AC且网络线未插入时,自动关闭PCIe连接 自动关闭 PHY (省电) 设置此选项可进入网络控制器省电模式 选项 说明 关闭 关闭自动关闭PHY (省电) 开启, 电池 当使用电池且网络线未插入时,自动关闭PHY连接 开启, 电池或 AC 当使用电池或AC且网络线未插入时,自动关闭PHY连接 流控制(Flow Control)...
修改Hosts文件加速访问GitHub
在公司使用中国电信的公司宽带访问Github速度虽然不是飞快,但还是能够下载的。不过回家是用的移动宽带,访问github时能打开首页就算时烧高香了。那么首先想到的就是修改Hosts直接访问Github的地址,避免国内的CDN污染和线路瞎JB跳。 先说成果: 123456789# Github52.74.223.119 github.com140.82.114.3 github.com185.199.108.154 github.githubassets.com185.199.109.154 github.githubassets.com185.199.110.153 github.io185.199.111.153 github.io140.82.113.10 nodeload.github.com69.171.234.29 github.global.ssl.fastly.net 效果么,只能说能用了。 方法很简单,就是打开站长之家的DNS检测工具,然后观察GitHub访问会用到那些域名,再把域名对应的IP查出来,把TTL值最小的写入hosts文件。虽然无聊,但是有效。
使用CDH示例程序进行字数统计
Wordcount程序是Hadoop上的经典“HelloWorld”程序。CDH系统自带了wordcount程序来检测部署的成功与否。 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162# 解压提前准备好的莎士比亚全集[sujx@elephant ~]$ gzip -d shakespeare.txt.gz# 上传至hadoop文件系统[sujx@elephant ~]$ hdfs dfs -mkdir /user/sujx/input[sujx@elephant ~]$ hdfs dfs -put shakespeare.txt /user/sujx/input# 查看有哪些测试程序可用[sujx@elephant ~]$ hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jarAn...
HDFS初步使用
HDFS(Hadoop Distributed File System)是可扩展、容错、高性能的分布式文件系统,异步复制,一次写入多次读取,主要负责存储。其概念和内容可以参考[1]。这里就做一个简单的实验来看一下其文件管理的功能。更多的Hadoop命令可以参考[2]。 用户建立在实验环境中,不建议使用root账号直接登录运行,所以建立一个普通账号。 12345678910111213141516171819202122232425262728293031# Elephant主机执行# 安装ansible[root@elephant ~]# yum install -y ansible# 在/etc/ansible/hosts中新增所有主机名# 建立ansible文件[root@elephant ~]# mkdir playbook[root@elephant ~]# vim ./playbook/useradd.yaml---- hosts: hadoop remote_user: root vars_prompt: - name: user_name ...
离线部署CDH5.16.2
在实践了CDH6的离线部署之后,发现Cloudera的官方教程是基于CDH5.10的。同时,CDH6的内存占用比较高,我的机器有点遭不住,所以又把CDH5的部署实施走了一遍。 模板部署 安装CentOS7.10,并完成yum升级; 所有主机时间与阿里云时间服务器同步; 关闭selinux和firewalld; 安装JDK和mysql-connect; 123[root@localhost ~]# wget https://repo.huaweicloud.com/java/jdk/8u202-b08/jdk-8u202-linux-x64.rpm[root@localhost ~]# yum localinstall jdk-8u202-linux-x64.rpm[root@localhost ~]# mv mysql-connector-java-5.1.39-bin.jar /usr/share/java/mysql-connector-java.jar 关闭透明大页; 1234567891011121314151617181920[root@localhost...
wHAT is HDFS?
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。 概念 HDFS集群分为两大角色:NameNode、DataNode; NameNode负责管理整个文件系统的元数据,second namenode是namenode的冷备; DataNode...
离线部署CDH6.3
部署练习的环境有六台主机,主机的配置是4核心4G内存(内存还是低了,建议8G起步): 主机名 IP地址 Elephant 192.168.174.184 Lion 192.168.174.185 Horse 192.168.174.186 Monkey 192.168.174.187 Tiger 192.168.174.188 环境准备 主机环境配置 按照各个主机配置修改相应值,下面以elephant为例: 123[root@localhost ~]# nmcli c m ens33 ipv4.method manual ipv4.addresses 192.168.174.184/24 ipv4.gateway 192.168.174.2 ipv4.dns 192.168.174.2[root@localhost ~]# nmcli c d ens33 && nmcli c u ens33[root@localhost ~]# hostnamectl set-hostname elephant 文件复制...
CentOS8的软件库
相对于华为和阿里云的mirrors,中国科技大学的mirrors的完整性和速度要好一些,而且配置文件也方便一些。现在把相关文件记一下: 系统repo1234567891011121314151617181920212223242526272829303132333435363738394041[BaseOS]name=CentOS-$releasever - Base#mirrorlist=http://mirrorlist.centos.org/?release=$releasever&arch=$basearch&repo=BaseOS&infra=$infrabaseurl=https://mirrors.ustc.edu.cn/centos/$releasever/BaseOS/$basearch/os/gpgcheck=1enabled=1gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-centosofficial#additional packages that may be...
使用脚本一键部署堡垒机
部门领导要求研究一下堡垒机的使用,所以花了两天时间研究了一下开源堡垒机的部署和使用。因为官方文档中有些已经有了部分错误,现在以官方的CentOS8版本的安装文档为蓝本把部署过程以脚本的形式备份一下。...