家里乱了要整理,数据乱了也得收拾。就像衣柜里的衣服分门别类放好才容易找,一堆杂乱的数据也需要用方法理出头绪。比如你想知道每天睡几个小时和第二天工作效率之间的关系,或者想知道每月花多少时间整理家务会不会影响心情,这时候就可以用R做个回归分析,把变量之间的“收纳关系”理清楚。
准备你的“收纳箱”:数据和R环境
打开R或RStudio,先把你收集的数据读进去。假设你记录了一周的睡眠时长和第二天的精神评分(满分10分),数据存在一个叫sleep_data.csv的文件里:
data <- read.csv("sleep_data.csv")
head(data)
输出可能长这样:
sleep_hours mood_score
1 6.5 6.2
2 7.0 7.1
3 8.0 8.0
4 5.5 5.0
5 7.5 7.8
开始“分类收纳”:做线性回归
你想看看睡眠时长是不是能“解释”心情好坏,就可以用lm()函数来建模:
model <- lm(mood_score ~ sleep_hours, data = data)
summary(model)
结果会告诉你斜率是多少,也就是每多睡一小时,情绪评分大概提升多少。如果截距合理、p值小于0.05,说明这个关系不是瞎猜的。
检查收纳效果:画个图看看
光看数字不够直观,就像整理完柜子还得回头看一眼整不整洁。画个散点图加回归线:
plot(data$sleep_hours, data$mood_score,
xlab = "睡眠时长(小时)", ylab = "情绪评分", main = "睡眠与情绪的关系")
abline(model, col = "red")
红线上升,说明睡得多情绪越好,这跟你平时的感受可能差不多。
多个因素一起理:多元回归
生活中影响情绪的不只有睡眠,还有运动时间、喝水量等等。把这些都加进去也没问题:
model_multi <- lm(mood_score ~ sleep_hours + exercise_min + water_cups, data = data)
summary(model_multi)
R会帮你算出每个因素的独立影响。比如可能发现运动的影响比喝水还明显,那就知道该优先安排锻炼了。
数据分析就像整理生活,不是为了堆数字,而是让模糊的感觉变成清晰的线索。下次再纠结“到底什么对我最重要”,不妨用R跑个回归,让数据帮你决定先收哪一筐。