集群设置
OS: cat /etc/redhat-release 来检查自己操作系统的版本,根据版本进行不同的配置。
网络设置:
配置加入集群的节点的网络,root用户更改,同一网段内IP自已分配。
在每个机器上运行如下命令后,根据提示填入 IP,子网码,网关及其它
#vim /etc/sysconfig/network
修改主机名:HOSTNAME=nodexx (此修改便于集群内其它节点查找与访问,不修改实际节点主机名)
修改主机名可执行setup 网络配置,DNS配置中改。
主节点多加一行:NISDOMAIN=nodexx (设置NIS时用到)
#vim /etc/sysconfig/network-scripts/ifcfg-eth0 (网口根据实际情况配置,也可用Tab键选定,双网卡绑定时bondXX)
修改 IP:IPADDR=192.168.0.XX
有必要的话,还需要修改 PREFIX(子网掩码)GATEWAY(网关)DNS
# vim /etc/hosts
加入如下行
... ...
192.168.0.11 node01
192.168.0.12 node02
192.168.0.13 node03
... ...
保存退出
重启网络
# service network restart
然后改动至下图:
将此文件拷贝至集群其它节点相同路径:
scp /etc/hosts root@192.168.0.XX:/etc
然后就可以进行其它操作。
NIS:Network Information Service的简写,即网络信息系统
配置:
在主节点上输入
chkconfig –level 345 yppasswdd on
chkconfig –level 345 ypxfrd on
service ypserv start
nisdomainname node01
/usr/lib64/yp/ypinit -m
不要写入什么,然后 Ctrl+D,输入 y,再回车
在其他节点上输入
chkconfig --level 345 ypbind on
authconfig-tui
点选【使用 NIS】(使用空格选中),然后下一步
域和服务器都填入主节点的名字,然后【确定】
service ypbind restart
NFS:Network File System的简写,即网络文件系统
在主节点(存储节点)上修改如下文件
vim /etc/exports
加入行:/home *(rw,no_root_squash,sync)
在这里出于安全考虑,通常不用* ,改为
/home 静态网关/24(rw,no_root_squash,sync)
如下图所示:
主节点设置开机启动 nfs 服务
#chkconfig –level 345 nfs on
然后重新启动nfs #service nfs restart
在其它节点修改如下文件
vim /etc/rc.local
加入行:mount -t nfs server:/home /home
service nfs restart,然后重启机器,用showmount -e 客户端用 showmount -e 192.168.0.XX 来检查挂载情况,如果有/home 则设置成功。(或者df -h)
SSH 无密码登录设置
root 用户:
使用 root 登录每个节点,在每个节点上执行如下命令
ssh-keygen
按照提示默认回车,有提示 overwrite 时写入 y,然后回车
scp ~/.ssh/id_rsa.pub root@server:~/文件名.pub
注:文件名可以随便起,但后缀名为pub;
也可以 scp ~/.ssh/id_rsa.pub root@server:~/.ssh/XX.pub
将.pub文件放置同一路径,方便拷贝
cat ~/.ssh/*.pub > ~/.ssh/authorized_keys
如果没有放置同一位置,则
cat ~/.ssh/id_rsa .pub > ~/.ssh/authorized_keys
再把其它的节点的.pub文件 >> ~/.ssh/authorized_keys。
如此公钥以生成,将此 authorized_keys拷贝于其它节点相同路径即可。
#scp ~/.ssh/authorized_keys root@nodeXX:/.ssh
普通用户:
在NFS,NIS设置好后,并且确定相关服务开启后,如不确定重启相关服务
主节点新建一个普通用户,eg:public
useradd public
passwd public 按照提示输入密码
cd /var/yp/ 执行make 普通用户就可以在各节点登录。
然后随便选一个节点,执行 ssh-keygen,默认回车
将生成的id_rsa.pub 追加到authorized_keys并改成自己的权限即可。
cat id_pub.dsa >> authorized_keys
chmod 600 ~/.ssh/authorized_keys
通过上图进行操作,cd /var/yp 执行make
如不进行此操作,该用户则无法在其它节点上登录。
MPD 设置
此为配置MPI,仅适用于5.5 OS ,6.0后无须操作。
查看OS版本,请翻阅第一页。
- 登录每个节点,操作如下
创建文件/etc/mpd.conf
# vim /etc/mpd.conf
写入:secretword=shgentai
保存退出
# chmod 600 /etc/mpd.conf
登录每个节点,修改文件/etc/rc.local 使 mpd 开机启动
2
# vim /etc/rc.local
加入行:/opt/software/mpich2-gnu/bin/mpd –host=server—port=
33013 &
其中主节点(server)的 rc.local 加入的行是
/opt/software/mpich2-gnu/bin/mpd --daemon --listenport=33013 &
PBS 设置 - 登录主节点,操作如下
# chkconfig –level 345 pbs_mom on
# chkconfig –level 345 pbs_sched on
# chkconfig –level 345 pbs_server on
# vim /var/spool/torque/server_priv/nodes
写入每个机器名字及每个机器的物理 cpu 核数
... ...
node01 np=4
node02 np=4
node03 np=4
... ...
保存退出。
# vim /var/spool/torque/server_name
写入主节点名,保存退出。 - 登录其他节点,操作如下
setup
选择【系统服务】
点选服务 pbs_mom,点掉(关闭)服务 pbs_sched 和 pbs_server
【确定】>>【退出】echo '$pbsserver' ' hostname' > /var/spool/torque/mom_priv/config
echo '$logevent' ' 255' >> /var/spool/torque/mom_priv/config
vim /var/spool/torque/server_name
写入主节点名,保存退出。
service pbs_mom restart
- 登录主节点,创建队列
# pbs_server -t create
# qmgr -c "create queue gentai queue_type=execution"
# qmgr -c "set server default_queue=gentai"
# qmgr -c "set server scheduling=true"
# qmgr -c "set queue gentai enabled=true"
# qmgr -c "set queue gentai started=true"
启动 pbs
# service pbs_sched restart
# service pbs_server restart
# service pbs_mom restart
查看队列:qstat -q
产看进行任务:qstat -a
>> ;如果文件不存在,将创建新的文件,并将数据送至此文件;如果文件存在,则将数据添加在文件后面
> ;如果文件不存在,同上,如果文件存在,先将文件清空,然后将数据填入此文件
>>> : 这个是接在最后一行的后面(不新增一行)