一、项目进度情况
1,生产数据库到双活数据库的升级切换
7月11日凌晨,在恩墨的技术协助下完成了生产数据库的升级切换。新的双活生产数据库性能大幅提升。自主重建的三节点备机集群自8月份启用后运行稳定,运行在open只读状态,以后可以用于报表等只读查询。该项目已于9月13日完成验收。
目前我和邱锐正在参加每周末两天的Oracle OCP远程培训,通过高强度的学习,我争取在19年第一季度完成三门考试并取得认证,如果有机会希望明年能继续参加OCM培训,这对我来说也是一个挑战。
2,空调维保购买
在中心两个机房4台空调维保7月底到期前,通过比价的方式,选定了日照本地的空调维保商。
3,3D动画展示项目
目前该项目已经完成招标,正在和厂家签订合同,预计年底完成动画视频交付。
二、隐患和故障处理
1,舟道网APP接口、OA系统数据库登录风暴
今年第一季度数据库频繁出现连接风暴隐患,数据库每小时处理连接请求最高超过8万次,导致部分应用系统运行卡顿。采取了舟道网APP接口服务切换到连接池、OA系统连接池参数优化、开发数据库到RG01的读写分离等措施后效果显著。现在数据库连接请求低于每小时2万次,请求量降低75%,数据库连接风暴得到有效解除。
2,dblink session不主动释放
一卡通、金蝶财务、交换数据库都存在比较严重的dblink session不释放的问题,一季度先后先后联系并配合内控开发公司、生产开发公司进行了整改,有效降低了RG01的session数,使RG01 session数保持在一个稳定的数量。
3,外包厂家在线删除海量数据
上半年通过监控发现集发公司外包工程师VPN远程进行千万级数据量的删除工作,sql执行时间超过30分钟,redo日志切换频率高达每小时52次,给磁盘IO带来非常大的压力,严重影响数据库的性能。
4,RG05日志数据库的建立
生产数据库上存在APPLOG、无车承运人GPS历史信息历史数据占用空间较大的问题。通过分析,最终新建了RG05日志数据库,将APPLOG和无车承运人GPS信息迁移过去。
5,生产数据库服务器内存板更换
10月10日上午,及时发现了一起生产数据库服务器宕机故障。故障原因为:服务器内存板损坏。配件于11日下午17:25到货,18:10自主完成更换。
6,生产数据库服务器主板更换
10月16日生产数据库第三节点服务器(EDI机房,型号:SUN T5-2)宕机,无法启动,经确认,服务器主板损坏。18日晚完成更换,生产数据库恢复正常,至今运行稳定。
7,两台EMC VNX5300存储硬盘连续损坏
今年8、9月份作为生产数据库备机集群使用两台EMC VNX5300存储连续损坏十几块硬盘,这两台存储已经使用超过6年的时间,硬盘集中损坏也是正常现象,已经分两次采购了备用硬盘。
8,参与EDI机房漏雨应急处置
7月23日早上,EID机房和门厅出现墙体渗水、机房办公室窗户严重漏雨的情况。多次联系港湾施工方查看现场,业务技术室给港湾发函后港湾进行了彻底检查和整改。
9,参与EDI机房监控系统串口服务器损坏应急处置
7月25日,机房动环监控系统串口服务器损坏造成EDI机房通信中断。立即联系业务技术室采购一台新的串口服务器。27日设备到货后,顺利恢复了串口服务器,监控系统恢复正常。
三、数据库监控与优化
1,协助完成对RG01生产库优化权限控制
协助邱锐完成对RG01权限的控制,在技术手段上对非授权登录会话进行及时kill,可对其访问生产环境数据库进行限制。
2,sql优化
每月平均完成4-5条低效率的sql优化。
3,业务通知单发布
每月定期发布1-2个整改通知单。
4,数据库扩容
通过监控,及时发现RG05、一卡通、金蝶等数据库存在空间不足的隐患,都及时进行在线扩容。
四、明年的打算
1,双活存储扩容
针对目前双活存储空间不足的情况,希望明年能完成一次扩容,增加约60T的可用空间。
2,双活数据库优化
依托北京云和恩墨的技术支持,不断对双活数据库进行优化。3节点的备机可以作为只读查询使用,明年找个合适的项目进行尝试。1节点的备机可以作为备份数据恢复测试使用,定期进行恢复测试。
3,能力培养
明年上半年我和邱锐先后取得OCP认证,如果有机会明年可以学习并考取OCM认证。打造一支实力较强的DBA团队。
查看全文
false