2012年10月3日に発生した「サイボウズ Office on cybozu.com」アクセス障害のお詫びとご報告
「サイボウズ Office on cybozu.com」アクセス障害のお詫びとご報告
2012/10/04 復旧のご連絡
2012/10/11 最終のご報告
平素は「cybozu.com」をご愛顧いただきありがとうございます。
2012 年 10 月 3 日に発生致しました cybozu.com の障害について、ご報告させて頂きます。
この度はご迷惑をお掛け致しましたことを、深くお詫び申し上げます。
1、サービス障害の概要および原因について
1-1 障害の概要
2012年10月2日10時23分から「サイボウズ Office on cybozu.com」につながりにくくなる現象が発生しました。
ストレージの容量拡張を実施したところ、サーバーのディスクキャッシュが定期的に破棄されるようになり、本現象が発生しました。
2012年10月3日2時25 分に復旧作業を実施し、障害を解消しました。本障害に伴うデータの損失等はありませんでした。
1-2 障害原因の詳細
ストレージの拡張作業を実施したところ、サーバーのディスクキャッシュが1000 秒ごとに破棄されるという現象が発生しました。
この現象により「サイボウズ Office on cybozu.com」のデータがキャッシュに読み込まれても、1000 秒おきに破棄されるようになってしまいました。
データがキャッシュに読み込まれていないため、常にディスクアクセスが発生する状況となり、遅延が発生しました。
1-3 当日の対応
日時 |
作業内容 |
10/3 10:23 |
ストレージ容量拡張作業の実施 |
10/3 12:07 |
サポート担当者より 「サイボウズ Office on cybozu.com」の動作が遅く、エラーが出ていると連絡を受ける |
10/3 12:08 |
調査作業を開始 1. 影響が出ているお客様を確認し、全てストレージ容量拡張作業を実施した環境であることが判明 2. ストレージ容量拡張による負荷が原因と考え、負荷を下げるように設定を変更 3. 2. の効果を確認中に定期的にディスクキャッシュが廃棄される現象が発生していることを確認 4. 定期的な廃棄現象を止められないかを調査する。OSのプログラム調査・改修の必要があり、停止は困難と判明 |
10/3 12:38 |
告知を実施 (http://cs.cybozu.co.jp/information/20121003biz01.php) |
10/3 12:48 |
暫定対応の実施 1. 調査結果を元に Office のデータを巡回し、ディスクキャッシュに読み込ませる作業を定期的に実施する |
10/3 13:00 |
暫定対応の効果確認 1. 定期的なディスクキャッシュの廃棄は行われるが、定期的にディスクキャッシュにデータが読み込まれていることを確認する。 ※ただし、この対応ではアクセスするタイミングによっては遅延し、エラーが表示される。 |
10/3 13:00 |
cybozu.com 上で告知を実施 1. 障害内容と暫定処置実施したことを報告する |
10/3 16:30 |
cybozu.com 上で告知を実施 1. 10月3日(水) 20:00~ 10月4日(木) 7:00の間、緊急メンテナンスを実施することを報告する |
10/3 20:00 |
メンテナンス作業実施 1. メンテナンス作業を実施 2. 定期的にディスクキャッシュが破棄されないことを確認 |
10/4 2:20 |
メンテナンス作業完了、cybozu.com 上で告知を実施 1. 緊急メンテナンスが完了したことを報告する |
10/4 9:00 |
障害復旧の告知を実施 |
2、課題と今後の対策について
今回の障害対応では、以下の 3点が課題であると考えております。
ここに各課題の概要と対策をご報告申し上げます。
1. 平日日中帯に作業を実施したこと
2. 障害の検知に時間を要したこと
3. 発生した現象への今後の対策
2-1 平日日中帯に作業を実施したこと
本作業については休日日中帯に実施し、大きな問題なく成功した実績がございました。
またストレージの増強はお客様に影響を与えないように負荷を抑え、丸一日以上を要することもある作業になります。
そのため、日中帯に作業を実施しました。
増強の負荷は問題なかったのですが、ディスクキャッシュを破棄するという不具合があり、今回の障害が発生してしまいました。
対策として、以下を実施いたします。
・ ストレージ関連の作業は休日もしくは夜間に実施するようにいたします。
・ ディスクキャッシュを破棄する現象については回避方法が判明しましたので、今後は現象を発生させないように
いたします。
2-2 障害の検知に時間を要したこと
作業後の動作確認については実施しており、「サイボウズ Office on cybozu.com」にアクセスし、操作出来ることも確認しておりました。
ただ弊社がモニタリングで利用している環境は、データ量及びシステムの負荷が少ないために、遅延の発生を検知することができませんでした。
また今回発生した定期的にディスクキャッシュが破棄される不具合については未知の現象であり、確認しておりませんでした。
対策として、以下を実施いたします。
・ ストレージ拡張等ストレージの変更作業を実施した場合は、定期的にキャッシュが破棄されていないか確認するようにいたします。
2-3 発生した現象への今後の対策
ストレージの拡張作業を実施したところ、サーバーのディスクキャッシュが1000 秒ごとに破棄されるという現象が発生しました。
この現象が何故発生したかについては現在調査中となります。調査が完了次第、対処し、改善していきたいと考えております。
以上、2012年10月 3日に発生しました弊社サービスの障害についてご説明させていただきました。
ご迷惑をおかけしたことをお詫び申し上げます。お客様に安心してご利用いただけるサービスにするべく、ご報告いたしました対策を実行してまいります。
引き続き弊社サービスをご愛顧いただきますよう、何卒お願い申し上げます。