2.1.2 · 建议 20 分钟 · 满分 16

低碳生活行为影响因素数据清洗和标注流程设计

背景

在应对气候变化的背景下，了解和促进低碳生活行为变得越来越重要。现要求根据提供的“大学生低碳生活行为的影响因素数据集”，选择合适的特征，开发一个预测大学生低碳生活行为的模型。提供的数据集样本数据包含 300 多个关于大学生低碳生活行为的自变量和因变量。自变量为主观规范、知觉行为控制、低碳行为态度，中介变量为行为意愿，因变量为低碳生活行为。同时，性别、生源地、月生活费作为控制变量进行研究。在开发预测模型之前，首先要对数据进行数据清洗和标注。

工作任务

正确加载数据集，并显示前五行的数据。
检查数据集中的缺失值，使用删除包含缺失值的行的办法处理，记录缺失值处理后的数据行数。
检查数据集中的重复值并删除所有重复值，并记录删除的行数。
对数值型数据进行标准化处理，确保数据在同一量纲下进行分析。
根据业务需求和数据特性，选择对低碳生活行为预测最有用的特征，将“低碳行为积极性”设为目标变量并标注。选择性别、年级、生源地、月生活费、绿色低碳生活方式、低碳与生活的关系、未来主流生活方式判断、生活质量提升判断等八个特征。
对数据进行划分（8:2）。
保存处理后的数据，并命名为：2.1.2_cleaned_data.csv。

素材预览

大学生低碳生活行为的影响因素数据集.xlsx

二进制文件，见素材包

代码填空

import pandas as pd
#读取一个Excel文件，并将读取到的数据存储在变量data中
data = 
#打印出数据集的前5行
print(data.head())

#处理数据集中的缺失值
initial_row_count =    #处理前的数据行数
data =                 #删除缺失值所在行
final_row_count =      #处理后的数据行数
print(f'处理后数据行数: {final_row_count}, 删除的行数: {initial_row_count - final_row_count}')

#删除重复行
data = 

from sklearn.preprocessing import StandardScaler
numerical_features = ['4.您的月生活费○≦1,000元   ○1,001-2,000元   ○2,001-3,000元   ○≧3,001元']
scaler = StandardScaler()
data[numerical_features] = 

#选择特征
selected_features = []
X = 

# 创建目标变量
y = 

from sklearn.model_selection import train_test_split
# 数据划分（测试集取20%）
X_train, X_test, y_train, y_test = (, random_state=42)

# 合并处理后得数据，并将其保存（保存中不用额外创建索引）
cleaned_data = (, axis=1)
('2.1.2_cleaned_data.csv', )