pilot test:语义相似度与item相关性
摘要: 本文通过计算语义相似度和项目相关性,并进行回归分析,发现两者存在显著正相关。作者使用网上收集的 Cattell 16 种人格因素测试的数据进行了初步测试,后续还将处理其他数据集并进行合并。
先上逆天图:$r = .620, p < .001$
虽然这个图不说明什么,但是震撼就对了。因为是直接取了绝对值,而不是根据语义相反取负的。
算法
用Embedding计算余弦相似度,调用numpy计算变量的皮尔森$r$.
对于每对item输出一个点 (similarity, correlation) 进行回归分析。
若不作特殊处理,容易发现当similarity高时correlation的绝对值高。可以考虑手动翻转reverse项目。
这个是正常的图:$r = .305, p<.001$
后续准备做完这一个dataset再看看。
然后合并其他dataset。
数据
数据从网上找的Answers to Cattell's 16 Personality Factors Test with items from the IPIP.
https://openpsychometrics.org/_rawdata/
根据codebook选取了subscales A, B, and C 做运算。subscale选的不多,但是差不多五万条数据,计算量也不小的。