Linux のログ調査 Tips

2019 年 7 月 2 日uzuki

こんにちは、uzukiです。
Elasticsearch とかとても便利ですよね。
ただファイルにログを書き出すだけのケースも多く、そこから目的の情報を取得するのに時間がかかる時もあります。
そんな時に、私が普段行っているログ調査について、お話したいと思います。

Table of contents

対象読者
ログ調査で気を付けるポイント
ログ調査に必要なコマンドとは？
まとめ

対象読者

bash を利用していること
cat / grep / sed / awk 等のコマンドがある程度扱えること

ログ調査で気を付けるポイント

稼働サーバに負荷をかけない
- CPU やメモリに負荷がかかりそうな場合、scp や rsync でログファイルを手元に持ってくるのをオススメします
なんでもかんでもワンライナーでやらない
- ログが大量にある場合など実行に時間がかかる時は、細かく中間ファイルを生成することにより、手戻り時も途中から再開できるので安心です
ファイル出力には気を付ける
- 意図せず無限ループコマンドになっており、かつファイル追記だった場合、とても悲惨なことになります
試しながらコマンド実行する場合、head を適度に入れ込む
- 数百万行のログを対象に少しずつ grep で絞り込む、ってことをしている時等に必須です

ログ調査に必要なコマンドとは？

私は下記コマンドをよく利用しています。

cat 系(cat / zcat / bzcat)
grep 系(grep / zgrep / bzgrep)
sed
awk
sort
uniq
head
wc
xargs

たまに下記コマンドを使います。

echo
while / read
bash
find
env
for
if(test)

私は開発者なので OS や bash の知識はそこまでありませんが、この辺りのコマンドだけでログ調査はなんとかなってます。

基本的な出力

$ cat /path/to/row_logfile.log
$ zcat /path/to/gz_logfile.log.gz
$ bzcat /path/to/bz_logfile.log.bz2

bzcat は CPU 負荷が高いので head を使いながら確認すると良いです。 cat 系(cat / zcat / bzcat 等)コマンドの後にパイプで grep に渡すか、最初から grep 系(grep / zgrep / bzgrep 等)を使うかはお好みで。

ログローテーションで日付をログファイル名に付加している場合、

$ env DATE=`date -d '-1 day' "+%Y%m%d"` bash -c 'bzcat /path/to/logfile.log.${DATE}.bz2'

で、前日のログファイルを参照できます。
ポイントは、シェル変数を汚染しないよう env コマンドを使用するところと、変数化しておくことにより任意の日時指定を容易(コマンド先頭になるため)にしているところです。

特定フィールドの抜き出し

$ cat /path/to/apache_access.log | cut -d " " -f 2,3-5
$ cat /path/to/ltsv.log | cut -f 2,3-5
$ cat /path/to/ltsv.log | awk -F'\t' '{for(i=1;i<=NF;i++){if($i~/^time:/){print $i}}}'

フィールドから抜き出す場合、順序が固定なログであれば cut コマンドで出すのが楽かと思います。

ltsv の場合、awk でフィールド名から抜き出す方法もあります。
sed で不要文字列を空白文字列に置換する方法もありますが、冗長になるので省きます。

特定の日時の件数を確認

下記ログが出力されている web サーバのアクセスログファイルを対象にします。

time:2019-07-01T00:00:00+09:00	remote_address:127.0.0.1	request_method:GET	request_uri:/	status:200	request_length:100	response_size:100	request_time:0.001	request_protocol:HTTP/1.1	referer:-	user_agent:Mozilla/5.0	host:www.tricorn.co.jp	port:443

下記コマンドでは、web サーバのアクセスログから、秒間何リクエスト来ていたのか、等を調べる時に使用します。

$ cat /path/to/access.log | cut -f 1 | sort | uniq -c

応用として、時間辺り何リクエスト来ていたか、を調べるには下記の通りとなります。

$ cat /path/to/access.log | cut -f 1 | cut -b -18 | sort | uniq -c

時までを cut で抜き出し、その件数を調べています。

途中で落ちたプロセスの特定

アプリケーションのログで、下記のようなログを出力していると仮定します。

time:2019-07-01T00:00:00+09:00	id:86d8be624b8f85a808c5b94be7971a2b58de23c7	level:INFO	message:Start process.
(中略)
time:2019-07-01T00:00:05+09:00	id:86d8be624b8f85a808c5b94be7971a2b58de23c7	level:INFO	message:End process.

ログを出力せずに落ちたっぽい、という時に、どのあたりで落ちたのか調べるのは下記の通りです。

$ cat /path/to/application.log | grep -E "message:(Start|End) process\." | awk -F'\t' '{list[$2]=$0}END{for(key in list){print list[key]}}' | grep "Start process."

ユニークである id 値を配列のキーとして指定することにより、「End process.」で終わっていない id 値を持つ行を取得します。
pid を用いる場合、重複する可能性があるので注意が必要です。ログに pid 程度しか識別できる情報がない場合、time 値の一部をキーに含ませることにより、ある程度識別することは可能です。
しかしながら完全な識別はできませんので、なんらかのユニークな値をログに書き出すと良いでしょう。

特定の id 値を持つデータが適切に処理されたかの確認

昨今マイクロサービス化していく流れとなっていますが、各サービス間で適切にデータを受け渡せているかの確認方法となります。
例えば A サービスから B サービスへの非同期引き渡しを行うサービスがあり、下記ログを出力していると仮定します。

(A サービスのログ)
time:2019-07-01T00:00:00+09:00	id:86d8be624b8f85a808c5b94be7971a2b58de23c7	level:INFO	message:received event.	data:{"event":"say"}

(B サービスのログ)
time:2019-07-01T00:00:00+09:00	id:afe85d6a0a6c687eb6bcfb00b9856510443be43b	level:INFO	message:transferred message.	data:{"message":"hello"}	from_id:86d8be624b8f85a808c5b94be7971a2b58de23c7

A サービスへの負荷集中により A サービスが落ちたしまった場合、A サービスが受け取っていたデータを B サービスにすべて引き渡せていたか？の確認方法です。

$ cat /path/to/a_service.log | grep "message:received event." | grep -E "time:2019-07-01T0(0|1)" | cut -f 2 | sed -e "s/id://g" > /path/to/a_result.txt
$ cat /path/to/a_result.txt | while read line; do grep /path/to/a_service.log; done | cut -f 6 | sed -e "s/from_id://g" > /path/to/b_result.txt
$ diff -u /path/to/a_result.txt /path/to/b_result.txt | sed -e '1,2d'  | grep -E '^-'

中間ファイルを2つ出力していますが、量が少なければワンライナーでも問題ありません。
1つ目のコマンドでは、影響があったであろう時間帯のログから id 値のみを出力し、2つ目のコマンドで1つ目のコマンドの結果を1行ずつ grep しています。
それらの結果を3つ目のコマンドで差分を出し、差分のあった(=b_service.log に出力がない)行を出しています。

1行に複数データが含まれている場合のデータ数カウント

1行に複数データが含まれてしまっているログの内、どのくらいデータがあるのかをカウントする方法です。
下記ログを出力していると仮定します。

time:2019-07-01T00:00:00+09:00	id:86d8be624b8f85a808c5b94be7971a2b58de23c7	level:INFO	message:received event.	data:{"events":[{"event":"say1"},{"event":"say2"},{"event":"say3"}]}

data 値内の events 配列の件数をカウントする方法です。

$ cat /path/to/application.log | cut -f 5 | while read line; do echo $line | grep -o '"event":' | wc -l | xargs printf "%02d\n"; done

時間毎の data 値内の events 配列の合計値を求めるには、下記方法にて可能です。

$ cat /path/to/application.log | cut -f 1,5 | awk -F'\t' '{"echo "$1" | cut -b -18" | getline key;"echo "$2" | grep -o '"event":' | wc -l" | getline num;list[key] += num}END{for(key in list){print key, list[key]}}'

awk を使ってうまいこと時間ごとの events 配列の合計値を出すことができます。

まとめ

各コマンドの説明は色んなサイトで紹介されていますが、それらを組み合わせて目的の出力を得る方法がまとまっているサイトがなかったので記事にしてみました。
慣れてくればパッと各コマンドの組み合わせを思いつくことができるようになりますので、私も精進していきたいと思います。

また、冒頭で「稼働サーバに負荷をかけない」ポイントとして手元に持ってくると書きましたが、稼働サーバの属するネットワークへの配慮(ログの圧縮や転送時の速度制限の実施等)や、個人情報を含むログファイルの場合は転送時のSSL化 / 調査完了時に削除を忘れない、ってことも大切ですね。

2019 年 7 月 2 日uzuki

Posted by uzuki