view Paper/tex/intro.tex @ 4:22e459299d68

add slide
author kiyama <e185758@ie.u-ryukyu.ac.jp>
date Fri, 27 May 2022 01:17:35 +0900
parents 8b01419817fe
children
line wrap: on
line source

\section{システム運用におけるログ}
\pagenumbering{arabic}


% システム運用
ネットサービスは24時間365日, システムの稼働が求められる.  
だが, 物理機器の経年劣化によるトラブルやサービスのバージョンアップによるシステムトラブル, 外部からの攻撃などによるインシデントなどに対応するためにサービスのログが重要である.  
システムやユーザーの挙動の必要なものを選択し, ログに記述する.  
インシデントがおきている場合はそれを検出し, 通知したい.  
ログを調べることによりインシデントの場所を特定し, 修復を行う.  
% システム運用に関するログの問題点
適切なログ情報の選択を行う必要がある. その中からインシデントを検出する規則を設定する必要がある. 複数のサーバーやVM,  コンテナに分散しているログを集約する必要がある.  
しかし大量のログ設定を手動で管理することは現実的ではない. 集約を行わないと対象サーバーにアクセス出来ない場合にログを参照することができなくなる.  
そこでログ管理システムだけでなくログ管理システムの設定方法自体を改良していくことが必要である. 

琉球大学工学部工学科知能情報コースには学生が主体となって管理するシステム(以下学科システムとする)が存在する.  
これらの学科システムは学内ネットワークや貸出用の仮想マシン, 学内チャットツールなど研究や授業を円滑に進めるためのサービスを提供している.  
その為システムトラブルの予兆を検知することや外部から攻撃された時に管理者に通知を送信する機能が必要となる.  

現在学科システムでは障害が発生した際にはユーザーが報告するか管理者がサーバーに入って確認するしか方法がない.  さらに障害発生時に対象サーバーにアクセス出来ない場合エラーログを確認することができない.  
また監視システムを導入する際に死活監視・ログ収集では稼働しているサービスを対象として構築するが, アラート送信の機能は運用していく中で過不足が無いように調整が必要と考える.  

そこで本稿では安定した運用のための学科システムに監視ツール及びログ収集サービスの実装をしていく. ログの設定は基本的にはgitlabで管理される. 
アラートの送信を制御するアラートルールは組織全体で調整しながら運用する必要がある. gitlabでは, commit,pushは煩雑であり,変更とは別にscrapboxに作業をまとめる必要がある.
gitlabの検索性が低いので作業手順の検索も難しい.
必要なのはログの設定変更を一箇所に時系列に沿って記述することである.
それを,学科で使用しているチャットツールからアラートルールを編集することにより実現する.
今回は,mattermostのスラッシュコマンドを用いた変更方法の提案をする.