サイボウズからのお知らせ

このページではサイボウズ製品・サービスに関する各種お知らせ情報を掲載しています。

2012 年 6 月 30 日に発生した「cybozu.com」障害のご報告(2012/07/04 更新)

2012.07.03

  • Garoon
  • cybozu.com
  • kintone
  • その他
  • サイボウズ Office
  • メールワイズ
2012 年 6 月 30 日に発生した「cybozu.com」障害のご報告

2012 年 7 月 4 日更新
サイボウズ株式会社

平素は「cybozu.com」をご愛顧いただきありがとうございます。
2012 年 6 月 30 日に発生致しました cybozu.com の障害について、ご報告させて頂きます。
この度はご迷惑をお掛け致しましたことを、深くお詫び申し上げます。

1、障害内容


不特定なタイミングで、サーバーが OS レベルで応答しなくなる現象が発生しました。
この現象は、6 月 30 日朝から弊社のいくつかのサーバー環境で発生し、一部のお客様で弊社サービスに断続的にアクセスできなくなる状況になりました。


2、障害期間


障害発生日時:2012年 6月30日(土)09:25 頃
障害復旧日時:2012年 6月30日(土)22:41 頃


3、障害の原因


cybozu.com で利用している OS に、うるう秒の情報を受け取るとシステムが停止する不具合が存在したためです。
時刻同期システムではうるう秒の 24 時間前から、うるう秒があることを通知いたします。本不具合は、うるう秒の通知によって引き起こされるものであったため、24 時間前から障害が発生する状況となりました。システムが停止するかどうかについては、システムの負荷状況等に左右されるため、現象は不特定なタイミングで発生いたしました。


4、対応内容


時刻同期システムを一時停止し、うるう秒の通知の影響を確実に解消するために全サーバーを再起動しました。7 月 1 日午前 9:00 のうるう秒が過ぎた後に開発環境で時刻同期を再開し、12 時間の経過観察後、運用環境で時刻同期を再開しました。


5、今後の対策について


今後はうるう秒実施の 24 時間前には時刻同期システムを一時停止し、うるう秒実施後に速やかに手動で時刻同期を再開するように対応いたします。また、OS 提供元より本不具合に対するパッチ等が提供され次第、速やかに適用いたします。


6、お問合せ窓口


本件に関しましてご不明点などございましたら、下記までお問合せください。

 サイボウズインフォメーションセンター
 E-mail アドレス:contactus@cybozu.co.jp 


引き続き安定したサービスを提供できるように更に努めてまいります。 
サービスをご利用のお客様には、ご迷惑をおかけいたしまして申し訳ありませんでした。

今後ともサイボウズのサービスをご愛顧くださいますよう、よろしくお願い申し上げます


【 Q & A 】

Q. 障害原因の判明に時間がかかったのはなぜですか?

A. OS の不具合が原因であることが確認できなかったためです。

  今回の障害が発生した際、サーバーのコンソール画面にエラーメッセージが出力
  されるようになっておりましたが、コンソール画面がブランクアウトする設定と
  なっていたため、画面表示が消えた状態でサーバーが応答しなくなってしまい、
  エラーメッセージを確認することができませんでした。
  そのため、障害の原因が OS の不具合であることが特定出来ず、OS 以外の原因も
  含めて調査を行っていたため、原因究明に時間を要する結果となってしまいました。
  本件を受け、今後はサーバーのコンソール画面を、ブランクアウトしないように
  設定を変更いたします。


Q. どのような調査を行ったのですか?

A. 以下の調査を並行して実施いたしました。

 ・OS の既知の不具合確認
 ・ハードウェアの障害・既知の不具合確認
 ・ハードウェアベンダーへの問い合わせ
 ・データセンター環境の問題調査
 ・データセンターでの実機による状況確認
 ・外部からの攻撃の可能性調査
 ・クラッシュしたシステムのディスクのオフライン分析
 ・ネットワークパケットの解析
 ・同様の事例の情報検索


Q. 最終的に原因をどのように特定したのですか?

A. 以下のコミュニティで同様の不具合が多発している情報を発見し、
  こちらの情報を基に分析を行った結果、OS の不具合が原因であると特定しました。
  http://serverfault.com/questions/403732/anyone-else-experiencing-high-rates-of-linux-server-crashes-during-a-leap-second

  具体的には、下記の OS の不具合が存在しました。
  https://git.kernel.org/?p=linux/kernel/git/torvalds/linux-2.6.git;a=commit;h=6b43ae8a619d17c4935c3320d2ef9e92bdeed05d

  この不具合により、全世界的にシステムの不具合が起こり、国内外の複数の著名なサイトにも
  障害が発生したと、ニュースでは報道されております。


Q. うるう秒への対策はしていたのですか?

A. うるう秒によるシステムへの影響は想定していましたが、弊社システムには
  影響がないと認識しておりました。
  今回判明したうるう秒を取り扱う OS の不具合につきまして、弊社が採用している
  バージョンの OS が該当するという情報は、事前に把握できておりませんでした。


Q. OS の不具合にはどのように対応しているのですか?

A. 毎月の定期メンテナンスにおいて、安定動作に支障のある不具合を解消する
  修正プログラムをシステムに適用しております。
  本不具合は最新バージョンの OS にも存在していたため、定期メンテナンスでは
  回避することができませんでした。


Q. なぜうるう秒の前日から障害が発生したのですか?

A. 弊社が採用しております時刻同期システムでは、うるう秒の 24 時間前から、
  うるう秒があることを通知する仕組みとなっております。
  今回の OS の不具合は、うるう秒の通知によって引き起こされるものであったため、
  24 時間前から障害が発生する状況となりました。


Q. 具体的にどのような対応を行ったのですか?

A. 時刻同期システムを一時停止し、うるう秒の通知の影響を確実に解消する
  ために全サーバーを再起動しました。
  7 月 1 日午前 9:00 のうるう秒が過ぎた後に開発環境で時刻同期を再開し、
  12 時間の経過観察の後、運用環境で時刻同期を再開しました。


Q. 6 月 30 日 16 時の緊急メンテナンスは何をしたのですか?

A. 運用中のサーバーが次々と停止し、再起動で回復をさせることが続いたため、
  全サーバーを再起動することにより障害が収束するかの確認を行いました。
  今回の障害の原因は時刻同期システムに起因する OS の不具合でしたので、
  本対処では、障害を収束することは出来ませんでした。


サイボウズのお知らせ一覧に戻る