摘要: ItemStudy 新增利用大语言模型判断,因之前语义判断有问题且不能用 ReverseItem 作判断,现调用大语言模型判断 item 对语义是否相反,将语义相反的 item 对 similarity 取负。在特定模型下选取两端测试,正 correlation 区在现有样例中全部维持原判,负 correlation 区误判率约 0.325。此方法不能很好解决负 correlation 问题,需进一步研究。

CF1E9C4E73CE6187D071753377915C83.jpg

由于之前判断语义存在问题,且无法简单用ReverseItem作判断,现通过调用大语言模型判断item对语义是否相反,并将语义相反的item对的similarity取负。在特定模型下(这次是deepseek-chat)选取两端(similarity $>0.5$)进行测试($N=204$),发现正correlation区在现有样例中全部维持原判($N=161$),而负correlation区有$29$个判负,$14$个判正(即约$0.325$的误判率)。

所以这种方法并不能很好地解决负correlation的问题,需要进一步研究。

标签: none

添加新评论