【原创】Erlang 之 entop 使用问题

2023-09-14 08:59:46
   工欲善其事,必先利其器。排查 erlang 系统问题时,肯定希望能有一个像 Unix top 一样的工具,entop 就是这么个东东。 

(以下内容翻译自 entop 的 README.md 文件) 


如同 Unix 中 top 一样的 Erlang 节点信息查看工具。 

      entop 是用来展示远端 Erlang 节点运行信息的工具,其信息显示的方式类似于 Unix 中的 top 命令。
      若要保证 entop 的正常运行,在 pre-R15 环境下,需要使用 cecho 0.3.0 版本;在 R15 或更高版本的环境下需要 cecho 0.4.0 版本。
      cecho 的 github 地址:这里 。 


./rebar clean

./rebar compile
注意:如果你遇到和 cecho 依赖相关的问题,可以手动创建符号链接到 deps/ 下的 cecho (如果你的 cecho 放在其他目录也可以进行类似操作),或者运行 ./rebar get-deps 以下载最新版本。当通过 rebar 获取到最新版本后,不要忘记重新编译整个应用。 

      若想成功运行 entop ,首先要确保 Erlang 已经安装到你的系统之中,并且 cecho 库所在路径被 Erlang code path 所包含。 项目中默认提供的启动脚本(entop)假定了其在 entop 应用根目录下被执行,如果这与你的实际情况不符,请自行调整脚本的相应路径,或者直接确保 entop 的 ebin/ 目录包含在 Erlang code path 之中。详情请参考启动脚本具体内容。 
Usage: ./entop TARGETNODE [-name NAME |-sname SNAME ] [-setcookie COOKIE ]

entop 的运行示例 
 ./entop rmq_yoyo@YOYO -sname entop -setcookie yoyo

entop 的接口允许用户定制化,所以本节描述的接口均为“内置”接口。 

第一行 主要展示了节点的静态信息,例如节点名、操作系统类型、指定的 erl flag 、当前所运行的 erlang 版本信息。 
第二行 展示了(目标节点所在机器的)本地时间、目标节点已持续运行的时间(格式为 Days:Hours:Minutes:Seconds)、运行 entop 的节点与目标节点之间的网络延迟情况(即 net_adm:ping() 成功交互所需花费的时间) 
第三行 展示了系统中每个进程的具体信息、进程的总数、运行队列中的进程数量(由调度器进行调度的待运行进程数量)、reductions per interval (RpI) 值(自从上一次 called the node 后系统已经 reduction 的次数)、以及每个进程占用的内存量。 
第四行 展示了系统内存使用量、atom 内存占用量(当前使用量/总体分配量)、binary 内存占用量、code 内存占用量,以及 ets 内存占用量。 
第五行 为空白,目前作为预留。 
第六行 为和行内容展示相关的信息,例如信息获取时间间隔、信息展示排序方式,以及获取相关信息所耗费的时间。 

在 entop 运行状态下可以使用的控制命令: 
[1-N]: 根据指定列编号进行输出内容排序。第一列编号为 1 ,其他列按顺序增加。 
r: 在升序排序和降序排序之间进行切换。 
q: 从 entop 中退出返回 shell 命令行。 
Ctrl-C: 等价于 q 命令。 
 和  : 将当前排序列左移或者右移(注意:次数为小于和大于号,非箭头) 

      按照 README.md 中的说明 “entop 的正常运行在 pre-R15 情况下需要 cecho 0.3.0 的支持,在 R15 或更高版本的情况下需要 cecho 0.4.0 的支持” 做了如下配置变更。 
[root@Betty entop]# vi rebar.config 

{erl_opts, [fail_on_warning, debug_info]}.

{deps_dir, "deps"}.

{clean_files, ["ebin/*.beam"]}.

{deps, [{cecho, ".*", {git, "https://github.com/mazenharake/cecho.git", {tag, "0.4.0"}}}]}. -- 这里由原来的 "HEAD" 变更为 {tag, "0.4.0"}

{escript_name, "rebar_tmp"}.
[root@Betty entop]# ./rebar compile

== cecho (compile)

Compiled src/cecho.erl

Compiled src/cecho_srv.erl

Compiled src/cecho_example.erl

Compiling c_src/cecho.c

== entop (compile)

Compiled src/entop_collector.erl

Compiled src/entop_net.erl

Compiled src/entop.erl

Compiled src/entop_format.erl

Compiled src/entop_view.erl

[root@Betty entop]#
通过 entop 连接到 RabbitMQ 进程进行查看 
[root@Betty entop]# ./entop rmq_betty@Betty -sname entop

=INFO REPORT==== 9-Mar-2016::13:58:43 ===

 application: cecho

 exited: {{driver_error,"undefined symbol: scrollok"}, -- 问题出在这里


 type: temporary

[root@Betty entop]#
通过挂起回到前台,查看 entop 相关进程运行情况,并强杀 
[root@Betty entop]# ps aux|grep entop

root 31769 0.0 0.0 106092 1236 pts/2 T 13:58 0:00 /bin/bash ./entop rmq_betty@Betty -sname entop

root 31775 0.0 0.8 748760 33344 pts/2 Tl 13:58 0:00 /usr/local/lib/erlang/erts-6.0/bin/beam.smp -A 20 -Bc -- -root /usr/local/lib/erlang -progname erl -- -home /root -- -noshell -noinput -hidden -pa ./ebin -pa ./deps/cecho/ebin -eval entop:start(rmq_betty@Betty) -sname entop

root 31919 0.0 0.0 103252 856 pts/2 S+ 14:04 0:00 grep entop

[root@Betty entop]# 

[root@Betty entop]# 

[root@Betty entop]# kill -9 31769 31775
可以看到,按照上面的操作,我们失败了,排查错误的原因,我 查看了 cecho 的代码。 

在 cecho_srv.erl 中 
init(no_args) - 

 process_flag(trap_exit, true),

 case load_driver() of

 ok - 

 Port = erlang:open_port({spawn, "cecho"}, [binary]),

 ok = do_call(Port, ?INITSCR),

 ok = do_call(Port, ?WERASE, 0),

 ok = do_call(Port, ?REFRESH),

 {ok, #state{ port = Port }};

 {error, ErrorCode} - 

 exit({driver_error, erl_ddll:format_error(ErrorCode)}) -- 可以看出,上面的错误信息来自这里


load_driver() - 

 Dir = case code:priv_dir(cecho) of

 {error, bad_name} - 

 filename:dirname(code:which(?MODULE)) ++ "/../priv";

 D - 


 erl_ddll:load(Dir, "cecho"). -- 其他代码都不会出错,只能是这里

查看手册,针对 erl_ddll/load/2 有如下说明 

(以下内容翻译自 kernel-2.15.2)

load(Path, Name) - ok | {error, ErrorDesc}
Path = path() 
Name = driver() 
ErrorDesc = term()

加载并链接名为 Name 的动态 driver 。Path 为包含该 driver 的目录。Name 指定的对象必须为共享对象或动态链接库。 
若两个 driver 具有不同的 Path 参数(即在不同路径下),则无法通过相同的 Name 进行加载。 

Name 的值对应 Path 目录下的动态加载对象文件,但是去除了扩展名(例如,移除了 .so 后缀)。 
在 driver 初始化函数中指定的 driver 名字方式,在很大程度上,与指定对应了 .beam 文件的 erlang 模块名一样。 

如果对 driver 执行了卸载动作,但由于 port 仍旧处于 open 状态,故此 driver 实际上仍旧存在,此时若调用 load/2 ,则会停止针对 driver 的卸载行为,使得该 driver 得以保留(只要 Path 没有发生过变更),并会返回 ok 。 
如果确实打算重新加载对象代码(driver),则可以使用 reload/2 或者底层的接口 try_load/3 进行操作。 

如果超过一个进程想要使用相同的 Path 加载一个已经加载过的 driver ,或者如果相同的进程想要加载同一个 driver 多次,该函数调用都会返回 ok 。 
模拟器会跟踪 load/2 被调用的次数,以便在相同数量的 unload/2 被调用后才真正卸载该 driver 。 
如此,才能保证一个应用安全的加载一个 driver ,无论该 driver 是在多 erlang 进程间共享,还是在多 erlang 应用间共享。同样能保证 driver 的安全卸载,而不会对系统的其他部分产生影响。 

以相同的 Name 但不同的 Path 加载多个 driver 是不允许的; 

需要注意的是,Path 参数的值是按字面量解析的,所以针对统一 driver 的多次加载都需要指定具有相同字面量的 Path 字符串,即使不同的路径表达均指向相同的文件系统目录也不行(比如使用相对路径或链接的情况)。 

函数执行成功后返回 ok ;函数执行失败后返回 {error, ErrorDesc} ,其中 ErrorDesc 为 opaque term ,可以通过 format_error/1 翻译成人可读的格式。 
若希望对错误处理有更多控制,则需要使用 try_load/3 接口。 
该函数会在入口参数不符合要求的情况下,抛出 badarg 异常。 

根据上述信息,查看源码目录 priv 下,会在编译 cecho 后生成的 cecho.so 文件 
[root@Betty priv]# ll

总用量 132

-rwxr-xr-x 1 root root 135113 3月 9 13:57 cecho.so

[root@Betty priv]# nm -C cecho.so |grep scrollok

00000000000042ed T do_scrollok

 U scrollok

[root@Betty priv]#
我擦,果然其中没有定义 scrollok 符号……Erlang 果不欺我~~~ 

ok ,变回原始配置再再做一次挑战... 
[root@Betty entop]# vi rebar.config 

{erl_opts, [fail_on_warning, debug_info]}.

{deps_dir, "deps"}.

{clean_files, ["ebin/*.beam"]}.

%%{deps, [{cecho, ".*", {git, "https://github.com/mazenharake/cecho.git", {tag, "0.4.0"}}}]}.

{deps, [{cecho, ".*", {git, "https://github.com/mazenharake/cecho.git", "HEAD"}}]}.

{escript_name, "rebar_tmp"}.

drwxr-xr-x 1 root root 4096 3月 9 13:57 ebin -rwxr-xr-x 1 root root 1723 3月 9 10:16 entop -rwxr-xr-x 1 root root 10175 3月 9 10:16 LICENSE -rwxr-xr-x 1 root root 132 3月 9 10:16 NOTICE -rwxr-xr-x 1 root root 3410 3月 9 13:53 README.md -rwxr-xr-x 1 root root 114109 3月 9 10:16 rebar -rwxr-xr-x 1 root root 302 3月 9 14:48 rebar.config drwxr-xr-x 1 root root 4096 3月 9 10:18 src [root@Betty entop]# [root@Betty entop]# [root@Betty entop]# rm -rf deps/ [root@Betty entop]# ll 总用量 141 drwxr-xr-x 1 root root 4096 3月 9 13:57 ebin -rwxr-xr-x 1 root root 1723 3月 9 10:16 entop -rwxr-xr-x 1 root root 10175 3月 9 10:16 LICENSE -rwxr-xr-x 1 root root 132 3月 9 10:16 NOTICE -rwxr-xr-x 1 root root 3410 3月 9 13:53 README.md -rwxr-xr-x 1 root root 114109 3月 9 10:16 rebar -rwxr-xr-x 1 root root 302 3月 9 14:48 rebar.config drwxr-xr-x 1 root root 4096 3月 9 10:18 src [root@Betty entop]# [root@Betty entop]# [root@Betty entop]# ./rebar get-deps == entop (get-deps) Pulling cecho from {git,"https://github.com/mazenharake/cecho.git","HEAD"} 正克隆到 cecho... == cecho (get-deps) [root@Betty entop]# [root@Betty entop]# ./rebar clean == cecho (clean) == entop (clean) [root@Betty entop]# [root@Betty entop]# ./rebar compile == cecho (compile) Compiled src/cecho.erl Compiled src/cecho_srv.erl Compiled src/cecho_example.erl Compiling c_src/cecho.c == entop (compile) Compiled src/entop_collector.erl Compiled src/entop_net.erl Compiled src/entop.erl Compiled src/entop_format.erl Compiled src/entop_view.erl [root@Betty entop]# [root@Betty entop]# ll deps/cecho/priv/ 总用量 132 -rwxr-xr-x 1 root root 135145 3月 9 14:51 cecho.so [root@Betty entop]# [root@Betty entop]# [root@Betty entop]# nm -C deps/cecho/priv/cecho.so |grep scrollok 00000000000042fd T do_scrollok U scrollok [root@Betty entop]# [root@Betty entop]# ./entop Usage: ./entop TARGETNODE [-name NAME |-sname SNAME ] [-setcookie COOKIE ] [root@Betty entop]# ./entop rmq_betty@Betty -sname entop {error_logger,{{2016,3,9},{14,53,0}},"Protocol: ~tp: the name entop@Betty seems to be in use by another Erlang node",["inet_tcp"]} {error_logger,{{2016,3,9},{14,53,0}},crash_report,[[{initial_call,{net_kernel,init,[Argument__1]}},{pid, 0.21.0 },{registered_name,[]},{error_info,{exit,{error,badarg},[{gen_server,init_it,6,[{file,"gen_server.erl"},{line,322}]},{proc_lib,init_p_do_apply,3,[{file,"proc_lib.erl"},{line,239}]}]}},{ancestors,[net_sup,kernel_sup, 0.10.0 ]},{messages,[]},{links,[#Port 0.190 , 0.18.0 ]},{dictionary,[{longnames,false}]},{trap_exit,true},{status,running},{heap_size,376},{stack_size,27},{reductions,735}],[]]} {error_logger,{{2016,3,9},{14,53,0}},supervisor_report,[{supervisor,{local,net_sup}},{errorContext,start_error},{reason,{EXIT,nodistribution}},{offender,[{pid,undefined},{name,net_kernel},{mfargs,{net_kernel,start_link,[[entop,shortnames]]}},{restart_type,permanent},{shutdown,2000},{child_type,worker}]}]} {error_logger,{{2016,3,9},{14,53,0}},supervisor_report,[{supervisor,{local,kernel_sup}},{errorContext,start_error},{reason,{shutdown,{failed_to_start_child,net_kernel,{EXIT,nodistribution}}}},{offender,[{pid,undefined},{name,net_sup},{mfargs,{erl_distribution,start_link,[]}},{restart_type,permanent},{shutdown,infinity},{child_type,supervisor}]}]} {error_logger,{{2016,3,9},{14,53,0}},crash_report,[[{initial_call,{application_master,init,[Argument__1,Argument__2,Argument__3,Argument__4]}},{pid, 0.9.0 },{registered_name,[]},{error_info,{exit,{{shutdown,{failed_to_start_child,net_sup,{shutdown,{failed_to_start_child,net_kernel,{EXIT,nodistribution}}}}},{kernel,start,[normal,[]]}},[{application_master,init,4,[{file,"application_master.erl"},{line,133}]},{proc_lib,init_p_do_apply,3,[{file,"proc_lib.erl"},{line,239}]}]}},{ancestors,[ 0.8.0 ]},{messages,[{EXIT, 0.10.0 ,normal}]},{links,[ 0.8.0 , 0.7.0 ]},{dictionary,[]},{trap_exit,true},{status,running},{heap_size,376},{stack_size,27},{reductions,117}],[]]} {error_logger,{{2016,3,9},{14,53,0}},std_info,[{application,kernel},{exited,{{shutdown,{failed_to_start_child,net_sup,{shutdown,{failed_to_start_child,net_kernel,{EXIT,nodistribution}}}}},{kernel,start,[normal,[]]}}},{type,permanent}]} {"Kernel pid terminated",application_controller,"{application_start_failure,kernel,{{shutdown,{failed_to_start_child,net_sup,{shutdown,{failed_to_start_child,net_kernel,{EXIT,nodistribution}}}}},{kernel,start,[normal,[]]}}}"} Crash dump was written to: erl_crash.dump Kernel pid terminated (application_controller) ({application_start_failure,kernel,{{shutdown,{failed_to_start_child,net_sup,{shutdown,{failed_to_start_child,net_kernel,{EXIT,nodistribution}}}}},{k Something wrong. Code: 1 [root@Betty entop]# [root@Betty entop]# [root@Betty entop]# ps aux|grep entop root 463 0.0 0.0 103252 840 pts/2 S+ 14:53 0:00 grep entop root 32043 0.0 0.0 106092 1236 pts/2 T 14:06 0:00 /bin/bash ./entop rmq_betty@Betty -sname entop root 32049 0.0 0.9 748760 34824 pts/2 Tl 14:06 0:00 /usr/local/lib/erlang/erts-6.0/bin/beam.smp -A 20 -Bc -- -root /usr/local/lib/erlang -progname erl -- -home /root -- -noshell -noinput -hidden -pa ./ebin -pa ./deps/cecho/ebin -eval entop:start(rmq_betty@Betty) -sname entop [root@Betty entop]# [root@Betty entop]# [root@Betty entop]# kill -9 32043 32049 [root@Betty entop]# [1]+ 已杀死 ./entop rmq_betty@Betty -sname entop [root@Betty entop]# [root@Betty entop]# [root@Betty entop]# [root@Betty entop]# [root@Betty entop]# [root@Betty entop]# ps aux|grep entop root 467 0.0 0.0 103252 844 pts/2 S+ 14:53 0:00 grep entop [root@Betty entop]# [root@Betty entop]# [root@Betty entop]# ./entop rmq_betty@Betty -sname entop Node: rmq_betty@Betty (Connected) (17/6.0) unix (linux 2.6.32) CPU:4 SMP +A:30 +K Time: local time 14:53:34, up for 000:22:27:49, 3ms latency, Processes: total 189 (RQ 0) at 124011 RpI using 13860.0k (13892.3k allocated) Interval 1000ms, Sorting on "Reductions" (Descending), Retrieved in 4ms 1170.1k Pid Registered Name Reductions MQueue HSize SSize HTot 0.179.0 vm_memory_monitor 77427487 06772 97382 0.230.0 background_gc 59304009 0233 7233 0.282.0 rabbit_mgmt_db 44805986 02586 74184 0.208.0 rabbit_memory_monito 31871301 04185 74561 0.243.0 rabbit_mgmt_external 31362904 06772 913544 0.256.0 rabbit_web_dispatch_ 14034430 010958 921916 0.182.0 rabbit_disk_monitor 752889602586 94184 0.25.0 file_server_2 70139900376 9752 0.3.0 erl_prim_loader42681980987 6987 0.7.0 application_controll 282319702586 76771 0.180.0 timer_server 228609901598 91974 0.276.0 - 13847170376 13 752 0.273.0 - 13844820376 13 752 0.275.0 - 13842510376 13 752 0.266.0 - 13838640376 13 752 0.265.0 - 13837490376 13 752 0.268.0 - 13837340376 13 752 0.262.0 - 13836540376 13 752 0.261.0 - 13836280376 13 752 0.267.0 - 13836160376 13 752 0.264.0 - 13835610376 13 752 0.263.0 - 13834900376 13 752 0.270.0 - 13834830376 13 752 0.271.0 - 13828050376 13 752 0.272.0 - 13825730376 13 752 0.269.0 - 13824750376 13 752 0.274.0 - 13823870376 13 752 0.0.0 init 12066000987 2987 0.184.0 os_cmd_port_creator 8509590610 1986 0.148.0 file_handle_cache 8355150610 7986 0.12.0 rex 8075230610 9986 0.26.0 code_server 804759017731 317731 0.173.0 rabbit_event 76952902586 82962 0.177.0 rabbit_alarm 3456710376 8752 0.66.0 mnesia_recover2134950233 9233 0.187.0 rabbit_node_monitor 1169900376 9376 0.21.0 net_kernel 99217 0376 9376 0.145.0 rabbit 77518 0233 5233 0.8965.0 - 68682 0233 11 233 0.11.0 kernel_sup 67885 0376 9376 [root@Betty entop]# ogger 55368 0610 8610 [root@Betty entop]#

      在没有其他思路的请款下,就让我们简单粗暴一点吧,直接拉下来 master 和 0.4.0 两个版本的代码进行比较~~ 
结果很明显,只有 rebar.config 中的不同才是问题关键。 
{port_envs, [{"LDFLAGS", "$LDFLAGS -lncurses"}]}.
这条配置信息从字面上就可以理解,LDFLAGS 是用来设置 link 选项的,所以上面是指定了对 ncurses 库的链接依赖。 

回头再看依赖 cecho.so 的库依赖关系(之前少看了该信息,5555...) 
[root@Betty priv]# ldd cecho.so 

 linux-vdso.so.1 = (0x00007fff10eee000)

 libncurses.so.5 = /lib64/libncurses.so.5 (0x00007fa6c1aef000)

 libc.so.6 = /lib64/libc.so.6 (0x00007fa6c175b000)

 libdl.so.2 = /lib64/libdl.so.2 (0x00007fa6c1556000)

 libtinfo.so.5 = /lib64/libtinfo.so.5 (0x00007fa6c1335000)

 /lib64/ld-linux-x86-64.so.2 (0x000000388c400000)

[root@Betty priv]#
而在引用 0.4.0 版本的 cecho 时,信息如下 
[root@Betty entop]# ldd deps/cecho/priv/cecho.so 

 linux-vdso.so.1 = (0x00007fff8f0c5000)

 libc.so.6 = /lib64/libc.so.6 (0x00007f4fb65bd000)

 /lib64/ld-linux-x86-64.so.2 (0x000000388c400000)

[root@Betty entop]#
果然存在差别!这也就解释了为何 scrollok 符号在两次结果中虽然都是 U 状态,但基于 master 的编译却可用的原因,因为 scrollok 符号在 libncurses.so.5 中~~ 
[root@Betty entop]# nm -D /lib64/libncurses.so.5.7 | grep scrollok 

000000389940a9b0 T is_scrollok

0000003899412980 T scrollok

[root@Betty entop]#
手动在 0.4.0 版本的 cecho 的 rebar.config 文件中添加 {port_envs, [{"LDFLAGS", "$LDFLAGS -lncurses"}]}. 后,重新编译运行,一切正常~~ 

