コンテンツにスキップ

システム保守ガイド

概要

リツビ BtoB ECサイトのシステム保守・運用ガイドです。

保守の基本方針

  1. 予防保守: 定期的な点検とメンテナンスによる障害予防
  2. 監視: 24時間365日のシステム監視
  3. 迅速な対応: 障害発生時の迅速な復旧対応
  4. 継続改善: 運用データに基づく継続的なシステム改善

定期保守作業

日次作業

システム監視

  • CPU使用率チェック
  • メモリ使用率チェック
  • ディスク使用量チェック
  • データベース接続状況チェック
  • エラーログ確認

データ確認

  • 注文データの整合性確認
  • SMILE連携ログの確認
  • 決済処理状況の確認

週次作業

パフォーマンス確認

  • レスポンス時間測定
  • スループット確認
  • データベース最適化
  • ログローテーション

セキュリティ確認

  • アクセスログ分析
  • 不正アクセス検知
  • セキュリティパッチ確認

月次作業

データベース保守

  • インデックス再構築
  • 統計情報更新
  • 古いデータのアーカイブ
  • バックアップ検証

システム最適化

  • パフォーマンス分析
  • 容量計画見直し
  • 監視閾値調整

システム監視

監視項目

インフラ監視

  • CPU使用率(閾値: 80%)
  • メモリ使用率(閾値: 85%)
  • ディスク使用率(閾値: 85%)
  • ネットワーク帯域(閾値: 80%)

アプリケーション監視

  • レスポンス時間(閾値: 3秒)
  • エラー率(閾値: 1%)
  • 同時接続数(閾値: 1000)
  • データベース接続数(閾値: 100)

ビジネス監視

  • 注文処理件数
  • 決済成功率
  • SMILE連携成功率
  • ユーザーセッション数

アラート設定

緊急アラート(即座に対応)

  • システムダウン
  • データベース接続エラー
  • 決済処理エラー
  • セキュリティインシデント

警告アラート(1時間以内に対応)

  • パフォーマンス劣化
  • リソース使用率上昇
  • エラー率上昇

監視ツール

Vendure/Next.js監視

  • アプリケーションログ監視
  • パフォーマンスメトリクス
  • エラートラッキング

インフラ監視

  • サーバーリソース監視
  • ネットワーク監視
  • データベース監視

バックアップ・復旧

バックアップ方針

データベースバックアップ

  • 頻度: 日次(深夜2:00)
  • 保存期間: 30日間
  • 方式: フルバックアップ + 差分バックアップ

ファイルバックアップ

  • 頻度: 週次(日曜日)
  • 対象: アプリケーションファイル、設定ファイル
  • 保存期間: 12週間

設定バックアップ

  • 頻度: 変更時
  • 対象: システム設定、Vendure設定
  • 保存場所: Git リポジトリ

復旧手順

データベース復旧

  1. 障害状況の確認
  2. 最新バックアップの特定
  3. データベースの停止
  4. バックアップからの復元
  5. 整合性チェック
  6. サービス再開

アプリケーション復旧

  1. 障害原因の特定
  2. 前バージョンへのロールバック
  3. 設定の復元
  4. 動作確認
  5. サービス再開

セキュリティ保守

セキュリティパッチ適用

優先度高(即座に適用)

  • 脆弱性修正パッチ
  • セキュリティホール対応

優先度中(1週間以内)

  • 機能改善パッチ
  • パフォーマンス改善

ログ分析

アクセスログ分析

  • 不正アクセス検知
  • 攻撃パターン分析
  • 異常なトラフィック検知

セキュリティログ分析

  • ログイン試行回数
  • 権限昇格の検知
  • データアクセス監査

パフォーマンス最適化

定期最適化作業

データベース最適化

  • インデックス使用状況分析
  • スロークエリ分析
  • 統計情報の更新

アプリケーション最適化

  • キャッシュ効率の確認
  • メモリリーク検知
  • 不要なプロセスの削除

障害対応

障害対応フロー

  1. 検知: 監視システムからのアラート
  2. 分析: 障害の原因と影響範囲の特定
  3. 対応: 復旧作業の実施
  4. 確認: 復旧の確認と動作テスト
  5. 報告: 関係者への復旧報告

エスカレーション基準

  • レベル1: 1時間以内に自動復旧
  • レベル2: 4時間以内に手動復旧要
  • レベル3: 8時間以上の復旧時間が予想

保守作業記録

記録項目

  • 作業日時
  • 作業者
  • 作業内容
  • 作業結果
  • 問題・改善点

保守レポート

  • 月次保守レポート
  • 四半期システム分析レポート
  • 年次保守計画レビュー

今後の改善計画

  • 自動化スクリプトの拡充
  • 監視項目の追加
  • 障害対応手順の見直し
  • 保守ツールの導入検討