strace

跟蹤系統調用和信號

補充說明

strace命令 是一個集診斷、調試、統計與一體的工具,我們可以使用strace對應用的系統調用和信號傳遞的跟蹤結果來對應用進行分析,以達到解決問題或者是瞭解應用工作過程的目的。當然strace與專業的調試工具比如說gdb之類的是沒法相比的,因爲它不是一個專業的調試器。

strace的最簡單的用法就是執行一個指定的命令,在指定的命令結束之後它也就退出了。在命令執行的過程中,strace會記錄和解析命令進程的所有系統調用以及這個進程所接收到的所有的信號值。

語法

1strace  [  -dffhiqrtttTvxx  ] [ -acolumn ] [ -eexpr ] ...
2    [ -ofile ] [-ppid ] ...  [ -sstrsize ] [ -uusername ]
3    [ -Evar=val ] ...  [ -Evar  ]...
4     [command [ arg ...  ] ]
5
6strace  -c  [ -eexpr ] ...  [ -Ooverhead ] [ -Ssortby ]
7    [ command [ arg...  ] ]

選項

 1-c 統計每一系統調用的所執行的時間,次數和出錯的次數等.
 2-d 輸出strace關於標準錯誤的調試信息.
 3-f 跟蹤由fork調用所產生的子進程.
 4-ff 如果提供-o filename,則所有進程的跟蹤結果輸出到相應的filename.pid中,pid是各進程的進程號.
 5-F 嘗試跟蹤vfork調用.在-f時,vfork不被跟蹤.
 6-h 輸出簡要的幫助信息.
 7-i 輸出系統調用的入口指針.
 8-q 禁止輸出關於脫離的消息.
 9-r 打印出相對時間關於,,每一個系統調用.
10-t 在輸出中的每一行前加上時間信息.
11-tt 在輸出中的每一行前加上時間信息,微秒級.
12-ttt 微秒級輸出,以秒了表示時間.
13-T 顯示每一調用所耗的時間.
14-v 輸出所有的系統調用.一些調用關於環境變量,狀態,輸入輸出等調用由於使用頻繁,默認不輸出.
15-V 輸出strace的版本信息.
16-x 以十六進制形式輸出非標準字符串
17-xx 所有字符串以十六進制形式輸出.
18-a column 設置返回值的輸出位置.默認 爲40.
19-e expr 指定一個表達式,用來控制如何跟蹤.格式:[qualifier=][!]value1[,value2]...
20qualifier只能是 trace,abbrev,verbose,raw,signal,read,write其中之一.value是用來限定的符號或數字.默認的 qualifier是 trace.感嘆號是否定符號.例如:-eopen等價於 -e trace=open,表示只跟蹤open調用.而-etrace!=open 表示跟蹤除了open以外的其他調用.有兩個特殊的符號 all 和 none. 注意有些shell使用!來執行歷史記錄裏的命令,所以要使用\\.
21-e trace=set 只跟蹤指定的系統 調用.例如:-e trace=open,close,rean,write表示只跟蹤這四個系統調用.默認的爲set=all.
22-e trace=file 只跟蹤有關文件操作的系統調用.
23-e trace=process 只跟蹤有關進程控制的系統調用.
24-e trace=network 跟蹤與網絡有關的所有系統調用.
25-e strace=signal 跟蹤所有與系統信號有關的 系統調用
26-e trace=ipc 跟蹤所有與進程通訊有關的系統調用
27-e abbrev=set 設定strace輸出的系統調用的結果集.-v 等與 abbrev=none.默認爲abbrev=all.
28-e raw=set 將指定的系統調用的參數以十六進制顯示.
29-e signal=set 指定跟蹤的系統信號.默認爲all.如 signal=!SIGIO(或者signal=!io),表示不跟蹤SIGIO信號.
30-e read=set 輸出從指定文件中讀出 的數據.例如: -e read=3,5
31-e write=set 輸出寫入到指定文件中的數據.
32-o filename 將strace的輸出寫入文件filename
33-p pid 跟蹤指定的進程pid.
34-s strsize 指定輸出的字符串的最大長度.默認爲32.文件名一直全部輸出.
35-u username 以username的UID和GID執行被跟蹤的命令

實例

追蹤系統調用

現在我們做一個很簡單的程序來演示strace的基本用法。這個程序的C語言代碼如下:

 1# filename test.c
 2#include <stdio.h>
 3
 4int main()
 5{
 6    int a;
 7    scanf("%d", &a);
 8    printf("%09d\n", a);
 9    return 0;
10}

然後我們用gcc -o test test.c編譯一下,得到一個可執行的文件test。然後用strace調用執行:

1strace ./test

執行期間會要求你輸入一個整數,我們輸入99,最後得到如下的結果:

 1// 直接執行test的結果
 2oracle@orainst[orcl]:~ $./test
 3
 4// 執行的結果
 599
 6000000099
 7
 8// 通過strace執行test的結果
 9oracle@orainst[orcl]:~ $strace ./test
10
11// strace的trace結果
12execve("./test", ["./test"], [/* 41 vars */]) = 0
13uname({sys="Linux", node="orainst.desktop.mycompany.com", ...}) = 0
14brk(0)                                  = 0x8078000
15fstat64(3, {st_mode=S_IFREG|0644, st_size=65900, ...}) = 0
16old_mmap(NULL, 65900, PROT_READ, MAP_PRIVATE, 3, 0) = 0xbf5ef000
17close(3)                                = 0
18open("/lib/tls/libc.so.6", O_RDONLY)    = 3
19read(3, "\177ELF\1\1\1\0\0\0\0\0\0\0\0\0\3\0\3\0\1\0\0\0\200X\1"..., 512) = 512
20fstat64(3, {st_mode=S_IFREG|0755, st_size=1571692, ...}) = 0
21old_mmap(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0xbf5ee000
22old_mmap(NULL, 1275340, PROT_READ|PROT_EXEC, MAP_PRIVATE, 3, 0) = 0xa02000
23old_mmap(0xb34000, 12288, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_FIXED, 3, 0x132000) = 0xb34000
24old_mmap(0xb37000, 9676, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_FIXED|MAP_ANONYMOUS, -1, 0) = 0xb37000
25close(3)                                = 0
26set_thread_area({entry_number:-1 -> 6, base_addr:0xbf5ee740, limit:1048575, seg_32bit:1, contents:0, read_exec_only:0, limit_in_pages:1, seg_not_present:0, useable:1}) = 0
27munmap(0xbf5ef000, 65900)               = 0
28fstat64(0, {st_mode=S_IFCHR|0620, st_rdev=makedev(136, 0), ...}) = 0
29mmap2(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0xbf5ff000
30read(0, 99
31"99\n", 1024)                   = 3
32fstat64(1, {st_mode=S_IFCHR|0620, st_rdev=makedev(136, 0), ...}) = 0
33mmap2(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0xbf5fe000
34write(1, "000000099\n", 10000000099
35)             = 10
36munmap(0xbf5fe000, 4096)                = 0
37exit_group(0)                           = ?

從trace結構可以看到,系統首先調用execve開始一個新的進行,接着進行些環境的初始化操作,最後停頓在”read(0,”上面,這也就是執行到了我們的scanf函數,等待我們輸入數字呢,在輸入完99之後,在調用write函數將格式化後的數值”000000099″輸出到屏幕,最後調用exit_group退出進行,完成整個程序的執行過程。

跟蹤信號傳遞

我們還是使用上面的那個test程序,來觀察進程接收信號的情況。還是先strace ./test,等到等待輸入的畫面的時候不要輸入任何東西,然後打開另外一個窗口,輸入如下的命令

1killall test

這時候就能看到我們的程序推出了,最後的trace結果如下:

 1oracle@orainst[orcl]:~
 2$strace ./test
 3
 4execve("./test", ["./test"], [/* 41 vars */]) = 0
 5uname({sys="Linux", node="orainst.desktop.mycompany.com", ...}) = 0
 6brk(0)                                  = 0x9ae2000
 7old_mmap(NULL, 65900, PROT_READ, MAP_PRIVATE, 3, 0) = 0xbf5ef000
 8close(3)                                = 0
 9open("/lib/tls/libc.so.6", O_RDONLY)    = 3
10read(3, "\177ELF\1\1\1\0\0\0\0\0\0\0\0\0\3\0\3\0\1\0\0\0\200X\1"..., 512) = 512
11fstat64(3, {st_mode=S_IFREG|0755, st_size=1571692, ...}) = 0
12old_mmap(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0xbf5ee000
13old_mmap(NULL, 1275340, PROT_READ|PROT_EXEC, MAP_PRIVATE, 3, 0) = 0x2e9000
14old_mmap(0x41b000, 12288, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_FIXED, 3, 0x132000) = 0x41b000
15old_mmap(0x41e000, 9676, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_FIXED|MAP_ANONYMOUS, -1, 0) = 0x41e000
16close(3)                                = 0
17set_thread_area({entry_number:-1 -> 6, base_addr:0xbf5ee740, limit:1048575, seg_32bit:1, contents:0, read_exec_only:0, limit_in_pages:1, seg_not_present:0, useable:1}) = 0
18munmap(0xbf5ef000, 65900)               = 0
19fstat64(0, {st_mode=S_IFCHR|0620, st_rdev=makedev(136, 0), ...}) = 0
20mmap2(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0xbf5ff000
21read(0, 0xbf5ff000, 1024)               = ? ERESTARTSYS (To be restarted)
22--- SIGTERM (Terminated) @ 0 (0) ---
23+++ killed by SIGTERM +++

trace中很清楚的告訴你test進程”+++ killed by SIGTERM +++”。

系統調用統計

strace不光能追蹤系統調用,通過使用參數-c,它還能將進程所有的系統調用做一個統計分析給你,下面就來看看strace的統計,這次我們執行帶-c參數的strace:

strace -c ./test

最後能得到這樣的trace結果:

1oracle@orainst[orcl]:~
2$strace -c ./test
 1execve("./test", ["./test"], [/* 41 vars */]) = 0
 2% time     seconds  usecs/call     calls    errors syscall
 3------ ----------- ----------- --------- --------- ----------------
 4 45.90    0.000140           5        27        25 open
 5 34.43    0.000105           4        24        21 stat64
 6  7.54    0.000023           5         5           old_mmap
 7  2.62    0.000008           8         1           munmap
 8  1.97    0.000006           6         1           uname
 9  1.97    0.000006           2         3           fstat64
10  1.64    0.000005           3         2         1 read
11  1.31    0.000004           2         2           close
12  0.98    0.000003           3         1           brk
13  0.98    0.000003           3         1           mmap2
14  0.66    0.000002           2         1           set_thread_area
15------ ----------- ----------- --------- --------- ----------------
16100.00    0.000305                    68        47 total

這裏很清楚的告訴你調用了那些系統函數,調用次數多少,消耗了多少時間等等這些信息,這個對我們分析一個程序來說是非常有用的。

常用參數說明

除了-c參數之外,strace還提供了其他有用的參數給我們,讓我們能很方便的得到自己想要的信息,下面就對那些常用的參數一一做個介紹。

重定向輸出

參數-o用在將strace的結果輸出到文件中,如果不指定-o參數的話,默認的輸出設備是STDERR,也就是說使用”-o filename”和” 2>filename”的結果是一樣的。

1# 這兩個命令都是將strace結果輸出到文件test.txt中
2strace -c -o test.txt ./test
3strace -c ./test  2>test.txt

對系統調用進行計時

strace可以使用參數-T將每個系統調用所花費的時間打印出來,每個調用的時間花銷現在在調用行最右邊的尖括號裏面。

 1oracle@orainst[orcl]:~
 2$strace -T ./test
 3
 4// 這裏只摘錄部分結果
 5read(0, 1
 6"1\n", 1024)                    = 2 <2.673455>
 7fstat64(1, {st_mode=S_IFCHR|0620, st_rdev=makedev(136, 0), ...}) = 0 <0.000014>
 8mmap2(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0xbf5fe000 <0.000017>
 9write(1, "000000001\n", 10000000001
10)             = 10 <0.000016>
11munmap(0xbf5fe000, 4096)                = 0 <0.000020>
12exit_group(0)                           = ?

系統調用的時間

這是一個很有用的功能,strace會將每次系統調用的發生時間記錄下來,只要使用-t/tt/ttt三個參數就可以看到效果了,具體的例子可以自己去嘗試。

參數名 輸出樣式 說明
-t 10:33:04 exit_group(0) 輸出結果精確到秒
-tt 10:33:48.159682 exit_group(0) 輸出結果精確到微妙
-ttt 1262169244.788478 exit_group(0) 精確到微妙,而且時間表示爲unix時間戳

截斷輸出

-s參數用於指定trace結果的每一行輸出的字符串的長度,下面看看test程序中-s參數對結果有什麼影響,現指定-s爲20,然後在read的是是很我們輸入一個超過20個字符的數字串

1strace -s 20 ./test
2
3read(0, 2222222222222222222222222      // 我們輸入的2一共有25個
4"22222222222222222222"..., 1024) = 26  // 而我們看到的結果中2只有20個

trace一個現有的進程

strace不光能自己初始化一個進程進行trace,還能追蹤現有的進程,參數-p就是取這個作用的,用法也很簡單,具體如下。

1strace -p pid

綜合例子

說了那麼多的功能和參數,現在我們來一個實用點的,就是研究下Oracle的lgwr進程,看看這個進程是不是像文檔所說的那樣沒3s鍾寫一次log文件,考慮到lgwr寫日誌的觸發條件比較多,我們需要找一個空閒的Oracle實例做這個實驗。

我們先要得到lgwr進程的pid,運行下面的命令

1ps -ef|grep lgwr
2
3oracle    5912     1  0 Nov12 ?        00:14:56 ora_lgwr_orcl

得到lgwr的pid是5912,現在啓動strace,然後將trace的幾個輸出到lgwr.txt文件中,執行下面的命令

1strace -tt -s 10 -o lgwr.txt -p 5912

過一會之後停止strace,然後查看結果。由於輸出的結果比較多,爲了方便我們只看Oracle寫入log文件時用的pwrite函數的調用

1grep pwrite\(20 lgwr.txt

等等,爲什麼grep的時候用的是”pwrite(2″呢?,因爲我知道我這個機器打開的當前的log文件的句柄編號都是2開始的。具體查找方法是先使用下面的語句找出當前活動的日誌文件都有哪些:

1select member, v$log.status from v$log, v$logfile
2where v$log.group#=v$logfile.group#;

得到

 1MEMBER                                             STATUS
 2-------------------------------------------------- ----------------
 3/db/databases/orcl/redo-01-a/redo-t01-g03-m1.log    INACTIVE
 4/db/databases/orcl/redo-03-a/redo-t01-g03-m2.log    INACTIVE
 5/db/databases/orcl/redo-02-a/redo-t01-g02-m1.log    CURRENT
 6/db/databases/orcl/redo-04-a/redo-t01-g02-m2.log    CURRENT
 7/db/databases/orcl/redo-01-a/redo-t01-g01-m1.log    INACTIVE
 8/db/databases/orcl/redo-03-a/redo-t01-g01-m2.log    INACTIVE
 9/db/databases/orcl/redo-02-a/redo-t01-g04-m1.log    INACTIVE
10/db/databases/orcl/redo-04-a/redo-t01-g04-m2.log    INACTIVE

然後到/proc中去找打開文件的句柄:

1ll /proc/.5912/fd/

得到

1lrwx------    1 oracle   dba            64 Dec 30 10:55 18 -> /db/databases/orcl/redo-01-a/redo-t01-g01-m1.log
2lrwx------    1 oracle   dba            64 Dec 30 10:55 19 -> /db/databases/orcl/redo-03-a/redo-t01-g01-m2.log
3lrwx------    1 oracle   dba            64 Dec 30 10:55 20 -> /db/databases/orcl/redo-02-a/redo-t01-g02-m1.log
4lrwx------    1 oracle   dba            64 Dec 30 10:55 21 -> /db/databases/orcl/redo-04-a/redo-t01-g02-m2.log
5lrwx------    1 oracle   dba            64 Dec 30 10:55 22 -> /db/databases/orcl/redo-01-a/redo-t01-g03-m1.log
6lrwx------    1 oracle   dba            64 Dec 30 10:55 23 -> /db/databases/orcl/redo-03-a/redo-t01-g03-m2.log
7lrwx------    1 oracle   dba            64 Dec 30 10:55 24 -> /db/databases/orcl/redo-02-a/redo-t01-g04-m1.log
8lrwx------    1 oracle   dba            64 Dec 30 10:55 25 -> /db/databases/orcl/redo-04-a/redo-t01-g04-m2.log

現在能看到我機器當前日誌文件的句柄分別是20和21。

現在我們得到如下結果

 111:13:55.603245 pwrite(20, "\1\"\0\0J!"..., 1536, 4363264) = 1536
 211:13:55.603569 pwrite(21, "\1\"\0\0J!"..., 1536, 4363264) = 1536
 311:13:55.606888 pwrite(20, "\1\"\0\0M!"..., 1536, 4364800) = 1536
 411:13:55.607172 pwrite(21, "\1\"\0\0M!"..., 1536, 4364800) = 1536
 511:13:55.607934 pwrite(20, "\1\"\0\0P!"..., 1536, 4366336) = 1536
 611:13:55.608199 pwrite(21, "\1\"\0\0P!"..., 1536, 4366336) = 1536
 711:13:55.610260 pwrite(20, "\1\"\0\0S!"..., 1536, 4367872) = 1536
 811:13:55.610530 pwrite(21, "\1\"\0\0S!"..., 1536, 4367872) = 1536
 911:14:00.602446 pwrite(20, "\1\"\0\0V!"..., 1536, 4369408) = 1536
1011:14:00.602750 pwrite(21, "\1\"\0\0V!"..., 1536, 4369408) = 1536
1111:14:00.606386 pwrite(20, "\1\"\0\0Y!"..., 1536, 4370944) = 1536
1211:14:00.606676 pwrite(21, "\1\"\0\0Y!"..., 1536, 4370944) = 1536
1311:14:00.607900 pwrite(20, "\1\"\0\0\\"..., 1024, 4372480) = 1024
1411:14:00.608161 pwrite(21, "\1\"\0\0\\"..., 1024, 4372480) = 1024
1511:14:00.608816 pwrite(20, "\1\"\0\0^!"..., 1024, 4373504) = 1024
1611:14:00.609071 pwrite(21, "\1\"\0\0^!"..., 1024, 4373504) = 1024
1711:14:00.611142 pwrite(20, "\1\"\0\0`!"..., 1536, 4374528) = 1536
1811:14:00.611454 pwrite(21, "\1\"\0\0`!"..., 1536, 4374528) = 1536
1911:14:05.602804 pwrite(20, "\1\"\0\0c!"..., 1024, 4376064) = 1024
2011:14:05.603119 pwrite(21, "\1\"\0\0c!"..., 1024, 4376064) = 1024
2111:14:05.607731 pwrite(20, "\1\"\0\0e!"..., 1024, 4377088) = 1024
2211:14:05.608020 pwrite(21, "\1\"\0\0e!"..., 1024, 4377088) = 1024
2311:14:05.608690 pwrite(20, "\1\"\0\0g!"..., 1024, 4378112) = 1024
2411:14:05.608962 pwrite(21, "\1\"\0\0g!"..., 1024, 4378112) = 1024
2511:14:05.611022 pwrite(20, "\1\"\0\0i!"..., 1536, 4379136) = 1536
2611:14:05.611283 pwrite(21, "\1\"\0\0i!"..., 1536, 4379136) = 1536

來源:https://github.com/jaywcjlove/linux-command

最後修改於: Wednesday, January 31, 2024

相關文章:

翻譯: