跳转到主要内容
2.1.2 · 建议 20 分钟 · 满分 16

低碳生活行为影响因素数据清洗和标注流程设计

背景

在应对气候变化的背景下,了解和促进低碳生活行为变得越来越重要。现要求根据提供的“大学生低碳生活行为的影响因素数据集”,选择合适的特征,开发一个预测大学生低碳生活行为的模型。提供的数据集样本数据包含 300 多个关于大学生低碳生活行为的自变量和因变量。自变量为主观规范、知觉行为控制、低碳行为态度,中介变量为行为意愿,因变量为低碳生活行为。同时,性别、生源地、月生活费作为控制变量进行研究。在开发预测模型之前,首先要对数据进行数据清洗和标注。

工作任务

  1. 正确加载数据集,并显示前五行的数据。
  2. 检查数据集中的缺失值,使用删除包含缺失值的行的办法处理,记录缺失值处理后的数据行数。
  3. 检查数据集中的重复值并删除所有重复值,并记录删除的行数。
  4. 对数值型数据进行标准化处理,确保数据在同一量纲下进行分析。
  5. 根据业务需求和数据特性,选择对低碳生活行为预测最有用的特征,将“低碳行为积极性”设为目标变量并标注。选择性别、年级、生源地、月生活费、绿色低碳生活方式、低碳与生活的关系、未来主流生活方式判断、生活质量提升判断等八个特征。
  6. 对数据进行划分(8:2)。
  7. 保存处理后的数据,并命名为:2.1.2_cleaned_data.csv。

素材预览

大学生低碳生活行为的影响因素数据集.xlsx
二进制文件,见素材包

代码填空

import pandas as pd
#读取一个Excel文件,并将读取到的数据存储在变量data中
data = 
#打印出数据集的前5行
print(data.head())

#处理数据集中的缺失值
initial_row_count =    #处理前的数据行数
data =                 #删除缺失值所在行
final_row_count =      #处理后的数据行数
print(f'处理后数据行数: {final_row_count}, 删除的行数: {initial_row_count - final_row_count}')

#删除重复行
data = 

from sklearn.preprocessing import StandardScaler
numerical_features = ['4.您的月生活费○≦1,000元   ○1,001-2,000元   ○2,001-3,000元   ○≧3,001元']
scaler = StandardScaler()
data[numerical_features] = 

#选择特征
selected_features = []
X = 

# 创建目标变量
y = 

from sklearn.model_selection import train_test_split
# 数据划分(测试集取20%)
X_train, X_test, y_train, y_test = (, random_state=42)

# 合并处理后得数据,并将其保存(保存中不用额外创建索引)
cleaned_data = (, axis=1)
('2.1.2_cleaned_data.csv', )