【泛函向】关于Spearman correlation

  1. ‹ 更旧的帖子
  2. 3月前

    @DTSIo 记号的含义很不明确啊...如果$X'$是随机变量, 那$\int_{X'}$是啥意思...

    如果$q(f)$是通过累分布函数定义的, 那同分布的随机变量是不是在这个变换之下不可区分...

    重新更改了记号。其实同分布反倒不是大问题,怕的是$f_1 \neq f_2$,$q(f_1) \neq q(f_2)$但是代入后出现$q_{f_1}(X) = q_{f_2}(X)$。因此,感觉$f(X)$显然不能是“任意”函数,需要模掉一个等价类。。。总之,还是想知道数学上如何处理这样的情况?有什么结果么?

  3. 3月前DTSIo 重新编辑

    @foozhencheng 重新更改了记号。其实同分布反倒不是大问题,怕的是$f_1 \neq f_2$,$q(f_1) \neq q(f_2)$但是代入后出现$q_{f_1}(X) = q_{f_2}(X)$。因此,感觉$f(X)$显然不能是“任意”函数,需要模掉一个等价类。。。总之,还是想知道数学上如何处理这样的情况?有什么结果么?

    我仍旧没看懂你的记号, 这里定义的rank到底是什么意思? 你能不能改成标准的概率论记号? 什么叫"代入函数$f(X)$"? (3)式用到的$X'$是什么东西, 上下文根本就没有? 这个问题的叙述到底有没有打算叫别人看懂?

  4. @DTSIo 我仍旧没看懂你的记号, 这里定义的rank到底是什么意思? 你能不能改成标准的概率论记号? 什么叫"代入函数$f(X)$"? (3)式用到的$X'$是什么东西, 上下文根本就没有? 这个问题的叙述到底有没有打算叫别人看懂?

    rank是CDF啊,文中给了定义,怎么说标准概率论记号?代入$f(X)$是因为如果不代入的话,$q(f)$是从$f$的值域到$[0, 1]$的映射,代入后才是从$X$的取值范围到$[0, 1]$的映射(或者应该叫复合映射?)。$X'$就是积分哑变量,不然都用$X$的话,记号上更混乱。。。

  5. @foozhencheng rank是CDF啊,文中给了定义,怎么说标准概率论记号?代入$f(X)$是因为如果不代入的话,$q(f)$是从$f$的值域到$[0, 1]$的映射,代入后才是从$X$的取值范围到$[0, 1]$的映射(或者应该叫复合映射?)。$X'$就是积分哑变量,不然都用$X$的话,记号上更混乱。。。

    随机变量$f(X)$累分布函数的定义是
    $$q_f(t)=\mathbb{E}[I_{f(X)\leq t}]=\int_{Ω(X)}I_{f(X)⩽t}dμ_X,$$
    可是你的定义式(2)把它写成
    $$q_f(f)=\mathbb{E}[I_{f(X)\leq f}]=\int_{Ω(X)}I_{f(X)⩽f}dμ_X,$$
    $f$既是下标又是自变量, 这令人困惑.

    照我的理解, 你是想谈论随机变量$f(X)$的累分布函数$q_f$(定义在实数域上, 取值在区间$[0,1]$内)与随机变量$f(X)$ (定义在底概率空间$\Omega$上, 取值在实数域内) 的复合, 即
    $$\Omega\xrightarrow{f(X)}\mathbb{R}\xrightarrow{q_f}[0,1].$$
    如果我理解没错的话, 你应该专门固定好一个记号来表示这个东西, 比如$q(f)(\omega)$, 其中$\omega$是底概率空间$\Omega$的采样点.

    回到问题. 我理解为你固定了一个随机变量$X:\Omega\to\mathbb{R}$, 然后要研究空间$\{f(X)\}$和$\{q(f)\}$, 这里$f$跑遍所有的Borel可测函数. 既然空间$\{q(f)\}$里所有的随机变量取值都在$[0,1]$内, 那么它甚至都不是个线性空间, 遑论其上的内积. 至于$f$和$q(f)$之间是否一一对应, 这好像不是能立刻确定的...

  6. @DTSIo 随机变量$f(X)$累分布函数的定义是
    $$q_f(t)=\mathbb{E}[I_{f(X)\leq t}]=\int_{Ω(X)}I_{f(X)⩽t}dμ_X,$$
    可是你的定义式(2)把它写成
    $$q_f(f)=\mathbb{E}[I_{f(X)\leq f}]=\int_{Ω(X)}I_{f(X)⩽f}dμ_X,$$
    $f$既是下标又是自变量, 这令人困惑.

    照我的理解, 你是想谈论随机变量$f(X)$的累分布函数$q_f$(定义在实数域上, 取值在区间$[0,1]$内)与随机变量$f(X)$ (定义在底概率空间$\Omega$上, 取值在实数域内) 的复合, 即
    $$\Omega\xrightarrow{f(X)}\mathbb{R}\xrightarrow{q_f}[0,1].$$
    如果我理解没错的话, 你应该专门固定好一个记号来表示这个东西, 比如$q(f)(\omega)$, 其中$\omega$是底概率空间$\Omega$的采样点.

    回到问题. 我理解为你固定了一个随机变量$X:\Omega\to\mathbb{R}$, 然后要研究空间$\{f(X)\}$和$\{q(f)\}$, 这里$f$跑遍所有的Borel可测函数. 既然空间$\{q(f)\}$里所有的随机变量取值都在$[0,1]$内, 那么它甚至都不是个线性空间, 遑论其上的内积. 至于$f$和$q(f)$之间是否一一对应, 这好像不是能立刻确定的...

    是的是的,$q(f)(\omega)$这样会好一点,以及如果随机变量的取值范围有界的话,就没办法弄线性空间了么?不能有什么实数域上的线性空间,能不能模掉某个集合构造线性空间?我之前也是觉得有界的取值范围对一般的线性运算不封闭很烦。。。

  7. @foozhencheng 是的是的,$q(f)(\omega)$这样会好一点,以及如果随机变量的取值范围有界的话,就没办法弄线性空间了么?不能有什么实数域上的线性空间,能不能模掉某个集合构造线性空间?我之前也是觉得有界的取值范围对一般的线性运算不封闭很烦。。。

    我觉得$\{q(f)\}$这个集合的性质应该挺差的. 你可以先研究一下它是不是凸集(我猜不是)...模掉什么东西变成线性空间对于这个例子恐怕也很难成立.

  8. @DTSIo 我觉得$\{q(f)\}$这个集合的性质应该挺差的. 你可以先研究一下它是不是凸集(我猜不是)...模掉什么东西变成线性空间对于这个例子恐怕也很难成立.

    好,我先看看什么是凸集,看看$\{q(f)\}$是不是。。。其实我是更希望参考:Reproducing kernel Hilbert space 的想法,把Spearman correlation 看成是一种reproducing kernel来讨论,但是这样的话我还是不知道这个意义下的完备正交基地该怎么弄。。。

  9. @foozhencheng 好,我先看看什么是凸集,看看$\{q(f)\}$是不是。。。其实我是更希望参考:Reproducing kernel Hilbert space 的想法,把Spearman correlation 看成是一种reproducing kernel来讨论,但是这样的话我还是不知道这个意义下的完备正交基地该怎么弄。。。

    我觉得不可能的,reproducing kernel对空间的要求太高了,你看看定义,连L^2空间上都没有这样的东西...最常见的reproducing kernel是复变函数里会研究的Bergman kernel

  10. @DTSIo 我觉得不可能的,reproducing kernel对空间的要求太高了,你看看定义,连L^2空间上都没有这样的东西...最常见的reproducing kernel是复变函数里会研究的Bergman kernel

    想了一下:$\{ q(f) \}$ 应该是凸集,可以参考:law of total probability 这说明对于convex combinations是封闭的,然后下一步该肿么办? /><

  11. @foozhencheng 想了一下:$\{ q(f) \}$ 应该是凸集,可以参考:law of total probability 这说明对于convex combinations是封闭的,然后下一步该肿么办? /><

    然后我猜它可以被度量化成紧致度量空间, 这几乎是能期望的最好的结果了...至于Hilbert内积什么的, 就不用想了, 没有线性结构的话可能性为零...

  12. @DTSIo 然后我猜它可以被度量化成紧致度量空间, 这几乎是能期望的最好的结果了...至于Hilbert内积什么的, 就不用想了, 没有线性结构的话可能性为零...

    对convex combination封闭也不能进行更进一步地操作么?比如把线性结构中的所有linear combination的部分全都换成convex combination什么的,也不能得到更多东西?

  13. 3月前DTSIo 重新编辑

    @foozhencheng 对convex combination封闭也不能进行更进一步地操作么?比如把线性结构中的所有linear combination的部分全都换成convex combination什么的,也不能得到更多东西?

    没有这样的东西...主要是看你想要干什么?

  14. @DTSIo 没有这样的东西...主要是看你想要干什么?

    也算是工作中衍生的数学问题。。。我希望能做到两件事情:1.生成正交基,在已知$X$以及其测度的情况下,构造一组$\{ f_n(X) \}$,使得它们在上面定义的Spearman correlation的意义下“正交”,即:$\forall i, j \quad Corr \big( q(f_i), q(f_j) \big) = \delta_{ij}$。2. 正交化,给定一组函数$\{ g_n(X) \}$,我希望能有一个“正交化”变换将$\{ g_n(X) \}$映射到$\{ h_n(X) \}$使得$\{ h_n(X) \}$在Spearman correlation的意义下两两“正交”。由此看来,是否线性倒不是最关键的问题(而且很有可能没有能实现这两点的线性操作)。目前大家在用的方法是:以$Cov \big( f_i(X), f_j(X) \big)$为内积,在它的意义下正交化,然则很容易出现这种在通常的意义下协方差为0的变量但是它们的Spearman correlation不为0,甚至接近1的情况。这样错误地应用数学手段后续会衍生一系列问题,然后就只能依靠大量的民工(比如像我这样的)去尝试各种各样可能的函数$\{ f(X) \}$,然后祈求它们之间的Spearman correlation会低一些(这背后又有大量类似于物理图像一样的直觉)。

  15. @foozhencheng 也算是工作中衍生的数学问题。。。我希望能做到两件事情:1.生成正交基,在已知$X$以及其测度的情况下,构造一组$\{ f_n(X) \}$,使得它们在上面定义的Spearman correlation的意义下“正交”,即:$\forall i, j \quad Corr \big( q(f_i), q(f_j) \big) = \delta_{ij}$。2. 正交化,给定一组函数$\{ g_n(X) \}$,我希望能有一个“正交化”变换将$\{ g_n(X) \}$映射到$\{ h_n(X) \}$使得$\{ h_n(X) \}$在Spearman correlation的意义下两两“正交”。由此看来,是否线性倒不是最关键的问题(而且很有可能没有能实现这两点的线性操作)。目前大家在用的方法是:以$Cov \big( f_i(X), f_j(X) \big)$为内积,在它的意义下正交化,然则很容易出现这种在通常的意义下协方差为0的变量但是它们的Spearman correlation不为0,甚至接近1的情况。这样错误地应用数学手段后续会衍生一系列问题,然后就只能依靠大量的民工(比如像我这样的)去尝试各种各样可能的函数$\{ f(X) \}$,然后祈求它们之间的Spearman correlation会低一些(这背后又有大量类似于物理图像一样的直觉)。

    我一时想不到...

  16. @DTSIo 我一时想不到...

    我在想能不能把那个convex set一一映射到某个性质较好的集合上。根据convex的要求,我们知道肯定可以映射到第一象限的球面上,之后可能可以通过球极投影再映射到第一象限平面(考虑二维的情况,也可以推广到n维)。然后看看能不能推广在这个集合上定义的运算:向量的加减法以及数乘等等回推至在原始convex set中的情况。当然,这只是一个想法。。。能不能走得通再说了。。。或许还有别的什么办法。因为线性变换和线性空间的自同构有关,所以我还专门查了一下automorphism of convex set,得到的结果也不好,多数的convex set的automorphism group只含有identity。。。所以我只能再看看有没有别的东西了。。。总之,使用正确并合适的数学的道路总是艰辛的。。。这也是为什么物理/金融/。。。等等学科自己会用不正确、不合适但是简单好用的数学吧。。。 /--

  17. @foozhencheng 我在想能不能把那个convex set一一映射到某个性质较好的集合上。根据convex的要求,我们知道肯定可以映射到第一象限的球面上,之后可能可以通过球极投影再映射到第一象限平面(考虑二维的情况,也可以推广到n维)。然后看看能不能推广在这个集合上定义的运算:向量的加减法以及数乘等等回推至在原始convex set中的情况。当然,这只是一个想法。。。能不能走得通再说了。。。或许还有别的什么办法。因为线性变换和线性空间的自同构有关,所以我还专门查了一下automorphism of convex set,得到的结果也不好,多数的convex set的automorphism group只含有identity。。。所以我只能再看看有没有别的东西了。。。总之,使用正确并合适的数学的道路总是艰辛的。。。这也是为什么物理/金融/。。。等等学科自己会用不正确、不合适但是简单好用的数学吧。。。 /--

    你不是想要关于Spearman correlation的正交吗,不如先假设$X$服从一些比较简单的分布律,然后看看能不能凑出什么来

  18. @DTSIo 你不是想要关于Spearman correlation的正交吗,不如先假设$X$服从一些比较简单的分布律,然后看看能不能凑出什么来

    我先考虑的是:给定一个Spearman correlation matrix,将它视为一个Gram matrix,然后嵌入一个欧式空间。。。至少先把每个$q(f_i)$表示出来。。。

  19. @DTSIo 你不是想要关于Spearman correlation的正交吗,不如先假设$X$服从一些比较简单的分布律,然后看看能不能凑出什么来

    想到的一点是:如果$q(f)(\omega_1) \leqslant q(f)(\omega_2) \leqslant ... \leqslant q(f)(\omega_n)$,那么也会有$q(q(f))(\omega_1) \leqslant q(q(f))(\omega_2) \leqslant ... \leqslant q(q(f))(\omega_n)$

  20. 对于这一问题我感觉自己已经想到了一个绝妙的解决方案,可惜这里空白太小,写不下~ /<< /<< /<<

  21. @foozhencheng 对于这一问题我感觉自己已经想到了一个绝妙的解决方案,可惜这里空白太小,写不下~ /<< /<< /<<

    然后你打算立刻下线, 让后人永远也猜不出你到底想出了什么办法?

 

后才能发言