目录
    • 2.1 程序调用的mha工具程序或文件
    • 3.2 .连接db的模块

一. 背景介绍

当集团的mysql数据库实例数达到2000+、mha集群规模数百个时,对mha的及时、高效管理是dba必须面对的一个挑战。mha 集群 节点信息 和 运行状态 是管理的基础。本篇幅主要介绍如何通过python实现收集mha 集群 节点信息 和 运行状态的功能。这些信息将是cmdb信息的重要组成部分。

mha集群数百个,mhamanager 节点 十几个,一个mhamanager 节点管理着50-60个集群。 我们希望开发的程序,只在这十几个mhamanager 节点部署运行,就可以收集到所需的所有 mha server 节点信息、vip 信息、运行状态信息及其他信息,并且将收集到的数据保存到mysql 数据库中。

二.实现逻辑

2.1 程序调用的mha工具程序或文件

工具程序或文件  功能 
 mha_appxxx.cnf 配置文件

1.从这个文件中 提取 server 信息(server ip);

2.提取 failover script 和 online change script的文件。  

 appxxx_master_ip_failover 脚本文件  提取定义的vip,和其他处收集到的vip,进行横向比较,防止配置出错。
 appxxx_master_ip_online_change 脚本文件  提取定义的vip,横向比较防止配置出错。
 masterha_check_repl 工具程序

1.检查mysql复制状况;

2.解析当前主节点ip;

3.解析 slave 节点ip;

4.解析出vip。

masterha_check_status

检测当前mha运行状态(运行ok还是stop)。

为便于理解,我们贴上mha_appxxx.cnf 的内容。

[server default]
manager_workdir=/var/log/masterha/app1.log              //设置manager的工作目录
manager_log=/var/log/masterha/app1/manager.log          //设置manager的日志
master_binlog_dir=/data/mysql                         //设置master 保存binlog的位置,以便mha可以找到master的日志,我这里的也就是mysql的数据目录
master_ip_failover_script= /usr/local/bin/appxxx_master_ip_failover    //设置自动failover时候的切换脚本
master_ip_online_change_script= /usr/local/bin/appxxx_master_ip_online_change  //设置手动切换时候的切换脚本
password=用户密码         //设置mysql中root用户的密码,这个密码是前文中创建监控用户的那个密码
user=root               设置监控用户root
ping_interval=1         //设置监控主库,发送ping包的时间间隔,默认是3秒,尝试三次没有回应的时候自动进行railover
remote_workdir=/tmp     //设置远端mysql在发生切换时binlog的保存位置
repl_password=用户密码    //设置复制用户的密码
repl_user=repl          //设置复制环境中的复制用户名
report_script=/usr/local/send_report    //设置发生切换后发送的报警的脚本          
shutdown_script=""      //设置故障发生后关闭故障主机脚本(该脚本的主要作用是关闭主机放在发生脑裂,这里没有使用)
ssh_user=root           //设置ssh的登录用户名

[server1]
hostname=110.110.110.50
port=3306

[server2]
hostname=110.110.110.60
port=3306
candidate_master=1   //设置为候选master,如果设置该参数以后,发生主从切换以后将会将此从库提升为主库,即使这个主库不是集群中事件最新的slave
check_repl_delay=0   //默认情况下如果一个slave落后master 100m的relay logs的话,mha将不会选择该slave作为一个新的master,因为对于这个slave的恢复需要花费很长时间,通过设置check_repl_delay=0,mha触发切换在选择一个新的master的时候将会忽略复制延时,这个参数对于设置了candidate_master=1的主机非常有用,因为这个候选主在切换的过程中一定是新的master

[server3]
hostname=110.110.110.70
port=3306

2.2.程序简单的流程图

因是简单流程图,其中判断及异常未在图中标明。

三.主要代码实现

3.1.创建保存收集信息的表

表命名为mysqldb_mha_info,其create 脚本如下:

create table `mysqldb_mha_info` (
  `id` int(11) not null auto_increment,
   mha_manager_ip varchar(50) not null default '' comment 'mha管理节点所在集群的ip',
   mha_name varchar(50) not null default '' comment 'mha的名字,类似于副本集',
   mha_file_name varchar(250) not null default '' comment 'mha .cnf 配置文件名字',
   mha_name_path varchar(250) not null default '' comment 'mha .cnf 配置文件路径和名字',
  `cnf_server1_ip` varchar(50) not null default '' comment 'mha cnf 配置文件中的节点1',
  `cnf_server2_ip` varchar(50) not null default '' comment 'mha cnf 配置文件中的节点2',
  `cnf_server3_ip` varchar(50) not null default '' comment 'mha cnf 配置文件中的节点3',
   failover_script varchar(250) not null default '' comment 'mha failover scripts的文件',
   failover_script_vip varchar(50) not null default '' comment 'mha failover scripts 中定义的vip',
   online_script varchar(250) not null default '' comment 'mha online change scripts的文件',
   online_script_vip varchar(50) not null default '' comment 'mha online change scripts 中定义的vip',
   script_remark varchar(1500) not null default '' comment 'mha scripts vip 检查结果',
   masterha_status varchar(10) not null default '' comment 'mha 检查是否开启,来自于 masterha_check_status 检查结果',
   master_serverip varchar(50) not null default '' comment 'mha 检查是否开启,来自于 masterha_check_status 检查结果',
  `current_master_ip` varchar(50) not null default '' comment 'mha 当前主节点,来自check_repl',
  `mha_current_vip` varchar(50) not null default '' comment 'mha 当前vip ,来自check_repl',
 `slave1_ip` varchar(50) not null default '' comment 'mha 当前从节点1,来自check_repl',
  `slave2_ip` varchar(50) not null default '' comment 'mha 当前从节点2 ,来自check_repl',
  mha_cnf_remark varchar(1500) not null default '' comment 'mha check conf/cnf 检查结果',
  check_repl_remark varchar(1500) not null default '' comment 'mha check repl检查结果',
  remark varchar(1500) not null default '' comment 'mha 检查结果',
  `creator` varchar(50) not null default '',
  `create_time` datetime not null default current_timestamp on update current_timestamp,
  `operator` varchar(50) not null default '',
  `modify_time` datetime not null default current_timestamp on update current_timestamp,
 primary key (`id`)
) engine=innodb auto_increment=1 default charset=utf8mb4

3.2 .连接db的模块

模块命名为db_conn.py,在此模块中,使用mysql-connector替代了mysqldb。安装更加简便。

#!/usr/bin/python3
# -*- coding: utf-8 -*-

##import mysqldb 安装模块麻烦
import mysql.connector
db = mysql.connector.connect(user='nideuid', password='nidepwd',host='nideseverip',database='dbname',port=xxxx)

3.3.功能实现模块

文件为collect_mysqldbmha_info.py,其代码如下:

#!/usr/bin/python
# -*- coding: utf-8 -*-
import os
import io
import re
import configparser
import socket
import db_conn
mysqldb = db_conn.db
cursor = mysqldb.cursor()
## 第1部分 获取本机ip
try:
s=socket.socket(socket.af_inet,socket.sock_dgram)
s.connect(('8.8.8.8',80))
mha_manager_ip=s.getsockname()[0]
print('mha manager 所在主机的ip如下:')
print(mha_manager_ip)
finally:
s.close()
###
##第2部分: 循环遍历mha cnf 所在的文件夹,取出 cnf 进行判断和检查
path='/date/funcation/python/mha_conf'
#fout=open('输出文件名','w')
for name in os.listdir(path) :
pathname= os.path.join(path,name)
## print(pathname)
## print(name)
mha_name = name.replace(".cnf", "").replace(".conf", "") ###为mha集群启个名字
##print(mha_name)
##注意此处为r,不能为w,否则报错:ioerror: file not open for reading
with open(pathname,'r') as f:
filecontent=f.read()
#print(filecontent)
remark = ''
####调整为configparser,注意python2 和 python 的模块名字是不一样的.configparser与configparser
config =configparser.configparser()
try:
config.read(pathname)
server_item = config.sections()
##print(server_item)
### start 获取 mha 切换时的scripts 文件名字
mha_failover_script = ''
mha_online_change_script =''
mha_cnf_remark =''
if 'server default' in server_item:
mha_failover_script = config.get('server default','master_ip_failover_script')
###
mha_failover_script=mha_failover_script.replace(" --ssh_user=root", "")
##print(mha_failover_script)
else:
mha_cnf_remark = mha_cnf_remark + 'mha_failover_script 未配置;'
if 'server default' in server_item:
mha_online_change_script = config.get('server default','master_ip_online_change_script')
##print(mha_online_change_script)
else:
mha_cnf_remark = mha_cnf_remark + 'mha_online_change_script 未配置;'
###1.1 end  获取结束
##1.2 start 获取mha配置文件中的节点信息
server1_host = ''  ##mha cnf 配置文件中的节点1
server2_host = ''  ##mha cnf 配置文件中的节点2
server3_host = ''  ##mha cnf 配置文件中的节点3
if 'server1' in server_item:
server1_host = config.get('server1','hostname')
print(server1_host)
else:
server1_host = ''
mha_cnf_remark = mha_cnf_remark + 'server1未配置;'
print(server1_host)
if 'server2' in server_item:
server2_host = config.get('server2','hostname')
print(server2_host)
else:
server2_host = ''
mha_cnf_remark = mha_cnf_remark + 'server2未配置;'
print(server2_host)
if 'server3' in server_item:
server3_host = config.get('server3','hostname')
print(server3_host)
##else:
##server3_host = ''
##mha_cnf_remark = mha_cnf_remark + 'server3未配置;'
##print(server3_host)
##1.2 获取server节点信息结束
print(mha_cnf_remark)
except exception as e:
print(e)
#####第3部分 start 从 mha scripts 中提取 配置的vip
mha_remark = ''
mha_failover_my_vip = ''
mha_failover_flush_vip = ''
mha_onlinechange_my_vip = ''
mha_onlinechange_flush_vip =''
if len(mha_failover_script) <> 0 and len(mha_online_change_script) <> 0 :
##3.1 先来处置 failover_script,解析其中的vip
with open(mha_failover_script,'r') as f:
failscript_lines=f.readlines()
for failscript_line in failscript_lines:
failscript_ip=re.findall(r"\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\b", failscript_line)
if failscript_ip:
if 'my $vip =' in failscript_line:
mha_failover_my_vip = failscript_ip[0]
print('解析出mha_failover_my_vip:')
print(mha_failover_my_vip)
if  'my $ssh_flush_vip' in failscript_line:
mha_failover_flush_vip = failscript_ip[0]
print('解析出mha_failover_flush_vip:')
print(mha_failover_flush_vip)
##文件读取完毕,对读取结果进行判断,判断两种情况
## 一种是否未定义
if mha_failover_my_vip =='':
mha_remark = mha_remark + 'mha failover  未提取到vip的设置,请检查;'
## 另外一种,,定义了,但是值不相等
if mha_failover_my_vip <> mha_failover_flush_vip:
mha_remark = mha_remark + 'mha failover scripts文件中设置的两处vip不一致,请检查;'
## 3.2 处理online change scripts ,解析提取其中的vip信息
with open(mha_online_change_script,'r') as f:
onlinescript_lines=f.readlines()
for onlinescript_line in onlinescript_lines:
onlinescript_ip=re.findall(r"\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\b", onlinescript_line)
if onlinescript_ip:
if 'my $vip =' in onlinescript_line:
mha_onlinechange_my_vip = onlinescript_ip[0]
print('解析出mha_onlinechange_my_vip:')
print(mha_onlinechange_my_vip)
if  'my $ssh_flush_vip' in onlinescript_line:
mha_onlinechange_flush_vip = onlinescript_ip[0]
print('解析出mha_onlinechange_flush_vip:')
print(mha_onlinechange_flush_vip)
#### online change 文件读完了,判断定义的vip是否符合要求
if mha_onlinechange_my_vip =='':
mha_remark = mha_remark + 'mha online change scripts未提取到vip的设置,请检查;'
if mha_onlinechange_my_vip <> mha_onlinechange_flush_vip:
mha_remark = mha_remark + 'mha online change scripts文件中设置的两处vip不一致,请检查;'
#### 两个文件都读取了,判断两个文件中定义的vip是否一致
if mha_onlinechange_my_vip <> mha_failover_my_vip:
mha_remark = mha_remark + 'mha online change script  和 failover script 中的vip不一致,请检查。'
else:
mha_remark = mha_remark + 'mha init 的配置文件未正确定义切换的scripts,请检查。'
#print('mha init 的配置文件未正确定义 切换的scripts,请检查。')
print(mha_remark)
#####第2部分 end 从 mha scripts 中提取 配置的vip
#### 第4部分,从masterha_check_status执行结果中判断mha进程状态
## 从 执行masterha_check_status结果中解析出的  masterha_status 和 master_serverip 的数据
masterha_status =''
master_serverip =''
## 从 执行masterha_check_repl结果中解析出的 current_master 、current_slave1、current_slave2 和 mha_current_vip 的数据
current_master = ''
current_slave1 = ''
current_slave2 = ''
mha_current_vip =''
##判断下文件是否是mha的配置文件,判断方式就是文件中 必须有 server default\server1的sections
if 'server default' in server_item and 'server1' in server_item :
##cmd_mha_status ='/usr/local/bin/masterha_check_status --conf=/etc/mha/opszabbix.cnf'
cmd_mha_status ='/usr/local/bin/masterha_check_status --conf='+pathname
try:
mha_status=os.popen(cmd_mha_status)
mha_status_result = mha_status.read()
print(mha_status_result)  ##返回样式为 xxxx (pid:------) is running(0:ping_ok), master:xxx.xxx.xxx.xxx
### 判断状态是否为运行中
if 'running(0:ping_ok)' in mha_status_result:
masterha_status='running'
##抓取mha的master 节点
##master_serverip = mha_status_result[mha_status_result.rfind('master:'):]
master_serverip = mha_status_result.split('master:')[1]
print(master_serverip)
print('mha启动运行正常')
elif 'stopped(2:not_running)' in mha_status_result:
masterha_status='stopped'
print('mha未启动!!!')
finally:
if mha_status:
mha_status.close()
#### 第5部分,从masterha_check_repl的执行结果中,判断解析 主、从节点、vip节点
##  判断 副本集 的状况
cmd_repl_status ='/usr/local/bin/masterha_check_repl --conf='+pathname
try:
##### 添加 2> error 参数,不需要打印出调试信息。
cmd_repl_status_result = cmd_repl_status + '     2> checkrepl.log'
repl_status=os.popen(cmd_repl_status_result)
repl_status_result = repl_status.read()
##print(repl_status_result)
if 'mysql replication health is ok' in repl_status_result:
print('mha集群的主从正常')
###获取serverip
#######调试信息是输出到2号流中的,所以一定 添加 2>&1,否则抓取不到节点信息,只能抓到一个vip。
cmd_repl_status_info = cmd_repl_status + '     2>&1'
with os.popen(cmd_repl_status_info,'r') as repl_status_check2:
#repl_status_lines=repl_status_check2.readlines()
repl_status_lines=repl_status_check2.readlines()
##print(len(repl_status_lines))  ####打印出list的元素个数
for repl_status_line in repl_status_lines:
##print('##################  start   ###########################')
##print(str(repl_status_line).replace("\n", "").replace("\t", ""))
##repl_status_line ='current alive master: 10.200.58.63(10.200.58.63:55988)'
serverip_result=re.findall(r"\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\b", repl_status_line)
if serverip_result:
if 'current alive master:' in repl_status_line:
current_master = serverip_result[0]
print('已解析到主节点ip')
print(current_master)
elif 'checking replication health on' in repl_status_line and current_slave1 == '':   ###有可能有2个从节点,此处为第1个从节点
current_slave1 = serverip_result[0]
print('已解析到从节点1')
print(current_slave1)
elif 'checking replication health on' in repl_status_line and current_slave1 <> '':  ###有可能有2个从节点,此处为第2个从节点
current_slave2 = serverip_result[0]
print('已解析到从节点2')
print(current_slave2)
elif 'checking replication health on' in repl_status_line and current_slave1 <> '':  ###有可能有2个从节点,此处为第2个从节点
print('集群有3个或更多的从节点,请确认。')
if 'down==/sbin/ifconfig ' in repl_status_line:
mha_current_vip = serverip_result[0]
print('已解析到mha集群的vip')
print(mha_current_vip)
##print('包含serverip')
##print(serverip_result)
#else:
#print('不包含serverip')
##else:
##print(repl_status_line)
##print('##################  end   ###########################')
####获取ip部分结束
else:
print('mha集群的主从异常,请及时检查')
finally:
if repl_status:
repl_status.close()
else:
remark = pathname + '...... 不是mha的配置文件,请检查!'
print(remark)
##### 第6部分,将数据保存到表中
sql_insert = "insert into mysqldb_mha_info(mha_manager_ip,mha_name,mha_file_name,mha_name_path,cnf_server1_ip,cnf_server2_ip,cnf_server3_ip,failover_script,failover_script_vip,online_script,online_script_vip,masterha_status,master_serverip,current_master_ip,mha_current_vip,slave1_ip,slave2_ip,mha_cnf_remark,script_remark,remark) " \
"values('%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s')" % \
(mha_manager_ip,mha_name,name,pathname,server1_host,server2_host,server3_host,mha_failover_script,mha_failover_my_vip,mha_online_change_script,mha_onlinechange_my_vip,masterha_status,current_master,master_serverip,mha_current_vip,current_slave1,current_slave2,mha_cnf_remark,mha_remark,remark)
##print(sql_insert)
cursor.execute(sql_insert)
mysqldb.commit()
#####
# 关闭游标
cursor.close()
# 关闭数据库连接
mysqldb.close()

3.4.代码运行

python 运行环境为:python 2.7.5

执行命令:

python /data/xxxx路径/collect_mysqldbmha_info.py

定期收集,请根据需要设置cron.

到此这篇关于通过python收集mysql mha 部署及运行状态信息的功能实现的文章就介绍到这了,更多相关python收集mysql mha 部署内容请搜索www.887551.com以前的文章或继续浏览下面的相关文章希望大家以后多多支持www.887551.com!