2.1.2 · 建议 20 分钟 · 满分 16
低碳生活行为影响因素数据清洗和标注流程设计
背景
在应对气候变化的背景下,了解和促进低碳生活行为变得越来越重要。现要求根据提供的“大学生低碳生活行为的影响因素数据集”,选择合适的特征,开发一个预测大学生低碳生活行为的模型。提供的数据集样本数据包含 300 多个关于大学生低碳生活行为的自变量和因变量。自变量为主观规范、知觉行为控制、低碳行为态度,中介变量为行为意愿,因变量为低碳生活行为。同时,性别、生源地、月生活费作为控制变量进行研究。在开发预测模型之前,首先要对数据进行数据清洗和标注。
工作任务
- 正确加载数据集,并显示前五行的数据。
- 检查数据集中的缺失值,使用删除包含缺失值的行的办法处理,记录缺失值处理后的数据行数。
- 检查数据集中的重复值并删除所有重复值,并记录删除的行数。
- 对数值型数据进行标准化处理,确保数据在同一量纲下进行分析。
- 根据业务需求和数据特性,选择对低碳生活行为预测最有用的特征,将“低碳行为积极性”设为目标变量并标注。选择性别、年级、生源地、月生活费、绿色低碳生活方式、低碳与生活的关系、未来主流生活方式判断、生活质量提升判断等八个特征。
- 对数据进行划分(8:2)。
- 保存处理后的数据,并命名为:2.1.2_cleaned_data.csv。
素材预览
大学生低碳生活行为的影响因素数据集.xlsx
二进制文件,见素材包
代码填空
import pandas as pd
#读取一个Excel文件,并将读取到的数据存储在变量data中
data =
#打印出数据集的前5行
print(data.head())
#处理数据集中的缺失值
initial_row_count = #处理前的数据行数
data = #删除缺失值所在行
final_row_count = #处理后的数据行数
print(f'处理后数据行数: {final_row_count}, 删除的行数: {initial_row_count - final_row_count}')
#删除重复行
data =
from sklearn.preprocessing import StandardScaler
numerical_features = ['4.您的月生活费○≦1,000元 ○1,001-2,000元 ○2,001-3,000元 ○≧3,001元']
scaler = StandardScaler()
data[numerical_features] =
#选择特征
selected_features = []
X =
# 创建目标变量
y =
from sklearn.model_selection import train_test_split
# 数据划分(测试集取20%)
X_train, X_test, y_train, y_test = (, random_state=42)
# 合并处理后得数据,并将其保存(保存中不用额外创建索引)
cleaned_data = (, axis=1)
('2.1.2_cleaned_data.csv', )