mxr612

pilot test:语义相似度与item相关性


先上逆天图:$r = .620, p < .001$

虽然这个图不说明什么,但是震撼就对了。因为是直接取了绝对值,而不是根据语义相反取负的。

算法

Git

用Embedding计算余弦相似度,调用numpy计算变量的皮尔森$r$.

对于每对item输出一个点 (similarity, correlation) 进行回归分析。

若不作特殊处理,容易发现当similarity高时correlation的绝对值高。可以考虑手动翻转reverse项目。


这个是正常的图:$r = .305, p<.001$

后续准备做完这一个dataset再看看。
然后合并其他dataset。

数据

数据从网上找的Answers to Cattell's 16 Personality Factors Test with items from the IPIP.
https://openpsychometrics.org/_rawdata/

根据codebook选取了subscales A, B, and C 做运算。subscale选的不多,但是差不多五万条数据,计算量也不小的。

当前页面是本站的「Google AMP」版。查看和发表评论请点击:完整版 »