Linux:fork & execv,等待子进程挂起

Linux: fork & execv, wait for child process hangs

本文关键字:等待 子进程 挂起 execv fork Linux      更新时间:2023-10-16

我写了一个辅助函数来使用fork()和execv()启动一个进程,灵感来自这个答案。 它用于启动例如mysqldump进行数据库备份。该代码在具有不同程序的几个不同位置完全可以正常工作。

现在我击中了一个失败的星座:这是对 systemctl 的调用以停止一个单元。运行系统ctl工作,设备停止。但在中间进程中,当 wait() 对子进程执行时,wait() 挂起,直到超时进程结束。如果我检查,如果工作进程完成了 kill(),我可以说它确实完成了。

重要提示:程序没有行为异常或 seg 错误,此外 wait() 不会发出工作进程结束的信号!我的代码(见下文)中是否有任何不正确的内容可能会触发该行为?我已经阅读了线程和fork():在混合它们之前请三思而后行,但我找不到与我的问题相关的任何内容。

奇怪的是:深,深,深在程序中使用JSON-RPC。如果我使用 JSON-RPC 停用代码,一切正常!?

环境:使用该函数的程序是一个多线程应用程序。所有线程的信号都被阻止。主线程通过 sigtimedwait() 处理信号。

代码(通过 std::cout 将日志记录交易为输出的生产代码),具有示例 main 函数:

#include <iostream>
#include <unistd.h>
#include <sys/wait.h>
namespace {
bool checkStatus(const int status) {
    return( WIFEXITED(status) && ( WEXITSTATUS(status) == 0 ) );
}
}
bool startProcess(const char* const path, const char* const argv[], const unsigned int timeoutInSeconds, pid_t& processId, const int* const fileDescriptor) {
    auto result = true;
    const pid_t intermediatePid = fork();
    if(intermediatePid == 0) {
        // intermediate process
        std::cout << "Intermediate process: Started (" <<  getpid() << ")." << std::endl;
        const pid_t workerPid = fork();
        if(workerPid == 0) {
            // worker process
            if(fileDescriptor) {
                std::cout << "Worker process: Redirecting file descriptor to stdin." << std::endl;
                const auto dupResult = dup2(*fileDescriptor, STDIN_FILENO);
                if(-1 == dupResult) {
                    std::cout << "Worker process: Duplication of file descriptor failed." << std::endl;
                    _exit(EXIT_FAILURE);
                }
            }
            execv(path, const_cast<char**>(argv));
            std::cout << "Intermediate process: Worker failed!" << std::endl;
            _exit(EXIT_FAILURE);
        } else if(-1 == workerPid) {
            std::cout << "Intermediate process: Starting worker failed!" << std::endl;
            _exit(EXIT_FAILURE);
        }
        const pid_t timeoutPid = fork();
        if(timeoutPid == 0) {
            // timeout process
            std::cout << "Timeout process: Started (" << getpid() << ")." << std::endl;
            sleep(timeoutInSeconds);
            std::cout << "Timeout process: Finished." << std::endl;
            _exit(EXIT_SUCCESS);
        } else if(-1 == timeoutPid) {
            std::cout << "Intermediate process: Starting timeout process failed." << std::endl;
            kill(workerPid, SIGKILL);
            std::cout << "Intermediate process: Finished." << std::endl;
            _exit(EXIT_FAILURE);
        }
        // ---------------------------------------
        // This code is only used for double checking if the worker is still running.
        // The if condition never evaluated to true in my tests.
        const auto killResult = kill(workerPid, 0);
        if((-1 == killResult) && (ESRCH == errno)) {
            std::cout << "Intermediate process: Worker is not running." << std::endl;
        }
        // ---------------------------------------
        std::cout << "Intermediate process: Waiting for child processes." << std::endl;
        int status = -1;
        const pid_t exitedPid = wait(&status);
        // ---------------------------------------
        // This code is only used for double checking if the worker is still running.
        // The if condition evaluates to true in the case of an error.
        const auto killResult2 = kill(workerPid, 0);
        if((-1 == killResult2) && (ESRCH == errno)) {
            std::cout << "Intermediate process: Worker is not running." << std::endl;
        }
        // ---------------------------------------
        std::cout << "Intermediate process: Child process finished. Status: " <<  status << "." << std::endl;
        if(exitedPid == workerPid) {
            std::cout << "Intermediate process: Killing timeout process." << std::endl;
            kill(timeoutPid, SIGKILL);
        } else {
            std::cout << "Intermediate process: Killing worker process." << std::endl;
            kill(workerPid, SIGKILL);
            std::cout << "Intermediate process: Waiting for worker process to terminate." << std::endl;
            wait(nullptr);
            std::cout << "Intermediate process: Finished." << std::endl;
            _exit(EXIT_FAILURE);
        }
        std::cout << "Intermediate process: Waiting for timeout process to terminate." << std::endl;
        wait(nullptr);
        std::cout << "Intermediate process: Finished." << std::endl;
        _exit(checkStatus(status) ? EXIT_SUCCESS : EXIT_FAILURE);
    } else if(-1 == intermediatePid) {
        // error
        std::cout << "Parent process: Error starting intermediate process!" << std::endl;
        result = false;
    } else {
        // parent process
        std::cout << "Parent process: Intermediate process started. PID: " << intermediatePid << "." << std::endl;
        processId = intermediatePid;
    }
    return(result);
}
bool waitForProcess(const pid_t processId) {
    int status = 0;
    const auto waitResult = waitpid(processId, &status, 0);
    auto result = false;
    if(waitResult == processId) {
        result = checkStatus(status);
    }
    return(result);
}
int main() {
    pid_t pid = 0;
    const char* const path = "/bin/ls";
    const char* argv[] = { "/bin/ls", "--help", nullptr };
    const unsigned int timeoutInS = 5;
    const auto startResult = startProcess(path, argv, timeoutInS, pid, nullptr);
    if(startResult) {
        const auto waitResult = waitForProcess(pid);
        std::cout << "waitForProcess returned " << waitResult << "." << std::endl;
    } else {
        std::cout << "startProcess failed!" << std::endl;
    }
}

编辑

预期输出应包含

  • 中间进程:等待子进程。
  • 中间进程:子进程已完成。状态:0。
  • 中间进程:终止超时进程。

在错误的情况下,输出如下所示

  • 中间进程:等待子进程。
  • 中间进程:子进程已完成。状态: -1
  • 中间进程:杀死工人进程。

运行示例代码时,您很可能会看到预期的输出。我无法在一个简单的示例中重现不正确的结果。

我发现了问题:

在函数中的猫鼬(JSON-RPC 使用猫鼬)源mg_start我找到了以下代码

#if !defined(_WIN32) && !defined(__SYMBIAN32__)
  // Ignore SIGPIPE signal, so if browser cancels the request, it
  // won't kill the whole process.
  (void) signal(SIGPIPE, SIG_IGN);
  // Also ignoring SIGCHLD to let the OS to reap zombies properly.
  (void) signal(SIGCHLD, SIG_IGN);
#endif // !_WIN32

(void) signal(SIGCHLD, SIG_IGN);

导致

如果父级执行 wait(),则此调用将仅在所有子级退出时返回,然后返回 -1,并将 errno 设置为 ECHILD。

正如在 5.5 Voodoo: wait 和 SIGCHLDD 一节中提到的。

这在 WAIT(2) 的手册页中也有描述。

错误 [...]

ECHILD [...] (这可能发生在 自己的孩子(如果 SIGCHLD 的操作设置为 SIG_IGN)。 另请参阅有关线程的 Linux 注释部分。

我愚蠢的是没有正确检查返回值。尝试之前

if(exitedPid == workerPid) {

我应该检查exitedPid是否!= -1.

如果我这样做errno就会给我ECHILD.如果我一开始就知道这一点,我会阅读手册页,并且可能会更快地发现问题......

皮的猫鼬只是为了弄乱信号处理,无论应用程序想要做什么。此外,猫鼬在被mg_stop停止时不会恢复信号处理的改变。

附加信息:导致此问题的代码已于 2013 年 9 月通过此提交在猫鼬中更改。

在我们的应用程序中,我们遇到了类似的问题。 在重复子进程forks()的激烈情况下,子进程永远不会返回。可以监视子进程的 PID,如果它未返回超过特定应用程序定义的阈值,则可以通过发送 kill/Term 信号来终止该进程。