Mercurial > hg > Papers > 2022 > kiyama-sigos
view slide/slide.pdf.html @ 6:02066b6bd6e6 default tip
add 2022
author | kiyama <e185758@ie.u-ryukyu.ac.jp> |
---|---|
date | Thu, 13 Apr 2023 11:18:26 +0900 |
parents | c8ffd012e8ab |
children |
line wrap: on
line source
<!DOCTYPE html> <html> <head> <meta http-equiv="content-type" content="text/html;charset=utf-8"> <title>ログ取集・管理をメッセージング経由で適切に設定する手法の提案</title> <meta name="generator" content="Slide Show (S9) v4.1.0 on Ruby 2.7.6 (2022-04-12) [x86_64-darwin19]"> <meta name="author" content="Mizuki Kiyama" > <!-- style sheet links --> <link rel="stylesheet" href="s6/themes/screen.css" media="screen"> <link rel="stylesheet" href="s6/themes/print.css" media="print"> <link rel="stylesheet" href="s6/themes/blank.css" media="screen,projection"> <!-- JS --> <script src="s6/js/jquery-1.11.3.min.js"></script> <script src="s6/js/jquery.slideshow.js"></script> <script src="s6/js/jquery.slideshow.counter.js"></script> <script src="s6/js/jquery.slideshow.controls.js"></script> <script src="s6/js/jquery.slideshow.footer.js"></script> <script src="s6/js/jquery.slideshow.autoplay.js"></script> <!-- prettify --> <link rel="stylesheet" href="scripts/prettify.css"> <script src="scripts/prettify.js"></script> <style> .slide {page-break-after: always;} </style> </head> <body> <div class="layout"> <div id="header"></div> <div id="footer"> <div align="right"> <img src="s6/images/logo.svg" width="200px"> </div> </div> </div> <div class="presentation"> <div class='slide cover'> <table width="90%" height="90%" border="0" align="center"> <tr> <td> <div align="center"> <h1><font color="#808db5">ログ取集・管理をメッセージング経由で適切に設定する手法の提案</font></h1> </div> </td> </tr> <tr> <td> <div align="left"> Mizuki Kiyama - profile not found - <hr style="color:#ffcc00;background-color:#ffcc00;text-align:left;border:none;width:100%;height:0.2em;"> </div> </td> </tr> </table> </div> <div class='slide'> <!-- _S9SLIDE_ --> <h1 id="本研究での取り組み">本研究での取り組み</h1> <ul> <li>学科システムへの監視システム提案 <ul> <li>今まではZabbixでシステムを監視していた</li> <li>Prometheus, Loki, Grafanaに置き換える</li> </ul> </li> <li>Mattermostのスラッシュコマンドを用いたアラートルールの編集 <ul> <li>運用を通して必要なログを選択していく仕組みを構築した</li> </ul> </li> </ul> </div> <div class='slide'> <!-- _S9SLIDE_ --> <h1 id="学科システム">学科システム</h1> <ul> <li>学科システムは約300人の学生と教員に対して様々なサービスを提供している</li> <li>学内ネットワークや、貸出用の仮想マシン (Virutal Machine: VM) など、授業や研究を円滑に進める為のサービスを、24時間365日提供している</li> <li>学科システムはシステム管理チームによって管理されている <ul> <li>有志の職員と学生を中心に構成されている.</li> <li>教師1名、職員2名、学生11名</li> </ul> </li> </ul> </div> <div class='slide'> <!-- _S9SLIDE_ --> <h1 id="安定した運用の為の構築">安定した運用の為の構築</h1> <ul> <li>一般的にシステムを保守・運用する上で障害は必ず発生する <ul> <li>悪意のある障害:外部からの攻撃</li> <li>悪意のない障害:ハードウェアなどの物理故障</li> </ul> </li> <li>原因追求の為、様々なサービスの死活管理とログ調査が必要である <ul> <li>問題発生時にアラートを送信する監視システム(Prometherus)</li> <li>ログの情報を集約する(Loki)</li> <li>これらの情報を可視化する(Grafana)</li> </ul> </li> </ul> </div> <div class='slide'> <!-- _S9SLIDE_ --> <h1 id="学科システムのトラブルの例">学科システムのトラブルの例</h1> <ol> <li>クラウドサーバーのHDDが物理故障していた為アクセス不可 (2021/8/2)</li> <li>サーバー交換により復旧 (2021/8/6)</li> <li>計画停電によりオンプレサーバーが故障 (2021/8/10)</li> <li>復旧時にファームウェアアップデートによりKVMのIPv4が停止 (2021/8/17)</li> </ol> <p>1.はHDD故障アラームを処理していれば早期に対応できた可能性がある</p> </div> <div class='slide'> <!-- _S9SLIDE_ --> <h1 id="gitlabトラブルの対処">Gitlabトラブルの対処</h1> <ul> <li>Gitlabの自動アップデートはメジャーアップデートに対応してなかった</li> <li>学生に対しGitlabから不正なアクセスのメールを確認していたが調査しなかった</li> <li>Gitlabの脆弱性を利用され攻撃に利用された</li> <li>新しいバージョンのGitlabを導入しアカウントを移行することで復旧</li> </ul> <p>Gitlabのログを監視していれば対応できた</p> </div> <div class='slide'> <!-- _S9SLIDE_ --> <h1 id="監視システムでの問題">監視システムでの問題</h1> <ul> <li>アラート送信の機能は運用する中で過不足が無いように調整が必要</li> <li>通常の編集方法ではサーバーにログインが必要</li> <li>作業内容はScrapboxに記述することになっている</li> <li>他のシス管メンバーが変更を見落とす可能性がある</li> </ul> </div> <div class='slide'> <!-- _S9SLIDE_ --> <h1 id="アラート編集の問題の解決案">アラート編集の問題の解決案</h1> <ul> <li>オープンな環境(Mattermost)でアラートを編集できるようにする</li> <li>アラートルール変更をした際の見落としを防げる</li> </ul> </div> <div class='slide'> <!-- _S9SLIDE_ --> <h1 id="研究目的">研究目的</h1> <ul> <li>システム障害の早期発見・発生時の円滑な対応を目的とした監視システムの提案</li> <li>組織としての理解度向上を目的としたアラートルール編集方法の提案</li> </ul> </div> <div class='slide'> <!-- _S9SLIDE_ --> <h1 id="使用するサービス">使用するサービス</h1> <ul> <li>Prometheus <ul> <li>オープンソースの監視システム</li> <li>コンポーネントはExporterからデータを取得する</li> </ul> </li> <li>Exporter <ul> <li>対象となるサービスのデータを Prometheusに送信する</li> </ul> </li> <li>Alertmanager <ul> <li>Prometheusのアラート管理コンポーネントツール</li> </ul> </li> </ul> </div> <div class='slide'> <!-- _S9SLIDE_ --> <h1 id="使用するサービス-1">使用するサービス</h1> <ul> <li>Grafana <ul> <li>収集されたデータをダッシュボードを用いて可視化する</li> </ul> </li> <li>Grafana Loki(Loki) <ul> <li>オープンソースのログ収集ツール</li> <li>後述するPromtailからログを取得する</li> </ul> </li> <li>Promtail <ul> <li>サービスのログをlokiに対して送信するツール</li> </ul> </li> </ul> </div> <div class='slide'> <!-- _S9SLIDE_ --> <h1 id="監視システムサービス監視">監視システム(サービス監視)</h1> <p>下図のようにサービスの情報を収集しブラウザで確認できる</p> <p><img src="./img/monitoring_system-Page-3.drawio.svg" width="1000px" /></p> </div> <div class='slide'> <!-- _S9SLIDE_ --> <h1 id="監視システムサービス監視-1">監視システム(サービス監視)</h1> <p>grafanaでダッシュボードを用いて可視化<br /> nginxの例 サービスの状態、処理された接続の総数、接続の状態</p> <p><img src="./img/grafana-prometheus.png" width="1000px" /> <!-- ![grafana](./img/grafana-prometheusのコピー.png) --></p> </div> <div class='slide'> <!-- _S9SLIDE_ --> <h1 id="監視システムログ収集">監視システム(ログ収集)</h1> <p>下図がサービスのログを収集しブラウザで確認できるまでの流れである</p> <p><img src="./img/loki-ページ3.drawio.svg" width="1000px" /></p> </div> <div class='slide'> <!-- _S9SLIDE_ --> <h1 id="監視システムログ収集-1">監視システム(ログ収集)</h1> <p>grafanaのダッシュボードを用いて可視化<br /> sshの例 ログの総数、エラーの総数、単位時間ごとのログ出力の数 <img src="./img/loki-dashboard.png" width="1000px" /></p> </div> <div class='slide'> <!-- _S9SLIDE_ --> <h1 id="監視システムアラート送信">監視システム(アラート送信)</h1> <p>右図がログに対しアラートルールを設定しMattermostからアラートを確認出来るまでの流れである</p> <p><img src="./img/monitoring_system-Page-1.svg" width="1000px" /></p> </div> <div class='slide'> <!-- _S9SLIDE_ --> <h1 id="監視システムアラート送信-1">監視システム(アラート送信)</h1> <p>Mattermostに送信されるアラートは以下のような形式</p> <p><img src="./img/Mattermost-alert.png" width="900px" /></p> </div> <div class='slide'> <!-- _S9SLIDE_ --> <h1 id="mattermostでのアラートルール編集">Mattermostでのアラートルール編集</h1> <p>/から始まるコマンドを打つ事で設定したWeb APIにGET/POSTリクエストを送信可能<br /> 以下がMattermostのスラッシュコマンドからアラートを編集するまでの流れ</p> <p><img src="./img/alert-figur.drawio.svg" width="1000px" /></p> </div> <div class='slide'> <!-- _S9SLIDE_ --> <h1 id="スラッシュコマンド一覧">スラッシュコマンド一覧</h1> <p>以下が今回作成したスラッシュコマンド一覧</p> <table> <thead> <tr> <th>コマンド</th> <th>機能</th> </tr> </thead> <tbody> <tr> <td>/alert add NAME LABEL PATTERN TIME</td> <td>アラートルールの追加</td> </tr> <tr> <td> </td> <td> </td> </tr> <tr> <td>/alert list ALL NAME</td> <td>アラートルールの表示</td> </tr> <tr> <td> </td> <td> </td> </tr> <tr> <td>/alert delete NAME</td> <td>アラートルールの削除</td> </tr> </tbody> </table> </div> <div class='slide'> <!-- _S9SLIDE_ --> <h1 id="mattermostでのアラートルール編集-1">Mattermostでのアラートルール編集</h1> <p>以下のようにコマンドを用いることでアラートが編集可能<br /> 図はaddを実行した結果</p> <p><img src="./img/add2.png" width="1000px" /></p> </div> <div class='slide'> <!-- _S9SLIDE_ --> <h1 id="mattermostでのアラートルール編集-2">Mattermostでのアラートルール編集</h1> <p>以下のようにコマンドを用いることでアラートが編集可能<br /> 図はlist allを実行した際の結果</p> <p><img src="./img/list.png" width="1000px" /></p> </div> <div class='slide'> <!-- _S9SLIDE_ --> <h1 id="mattermostでのアラートルール編集-3">Mattermostでのアラートルール編集</h1> <p>以下のようにコマンドを用いることでアラートが編集可能<br /> 図はdeleteを実行した際の結果</p> <p><img src="./img/delete.png" width="1000px" /></p> </div> <div class='slide'> <!-- _S9SLIDE_ --> <h1 id="設定例">設定例</h1> <ul> <li>外部公開されているシステムの攻撃を検知する事が可能だと考える <ul> <li>外部公開されているシステムの脆弱性をついた攻撃はPOSTメソッドで行われる事が多い</li> <li>一定時間に大量のPOSTがあった際に検知するよう設定することで攻撃を事前に防げる</li> </ul> </li> <li>誤ったアラートルールを設定した場合 <ul> <li>必要以上にアラートが発生する</li> <li>deleteコマンドでMattermostからすぐに削除することができる</li> </ul> </li> </ul> </div> <div class='slide'> <!-- _S9SLIDE_ --> <h1 id="まとめ">まとめ</h1> <ul> <li>障害対応のための監視システムを提案した</li> <li>Mattermostからアラートルールを編集できるスラッシュコマンドを作成した</li> <li>CLI上での変更方法と比べて情報共有にかかる手間や調べる手間が少ない事から第三者が確認しやすいと考える</li> </ul> </div> <div class='slide'> <!-- _S9SLIDE_ --> <h1 id="今後の課題">今後の課題</h1> <ul> <li>収集したデータのバックアップや提案環境の構築場所を運用にするに当たって改善する必要がある</li> <li>本研究では監視対象を限定したので稼働しているサービスすべてを監視する必要がある</li> <li>現在はオンプレ環境でのみ動作している為クラウドにセカンダリを構築し冗長化する必要がある</li> <li>このアートルール設定では管理者の技量に左右されてしまう為改善する必要がある</li> <li>チャットツールでは過去に遡っての確認が難しい為Gitlab Scrapboxとの連携する必要がある</li> </ul> </div> </div><!-- presentation --> </body> </html>