2.1.1 · 建议 20 分钟 · 满分 16

智慧交通中燃油效率模型的数据清洗和标注流程设计

背景

在现代交通中，燃油效率（MPG）是衡量汽车性能和交通系统优化的重要指标之一。高效的燃油利用不仅能够降低车辆运营成本，还能减少碳排放，促进环保。开发一个用于预测汽车燃油效率的模型可以帮助智慧交通系统优化路线规划和车辆调度，从而提升整体交通效率和减少能源消耗。此外，这样的模型还可以帮助消费者做出更明智的购车决策，并帮助厂商优化汽车设计。现要求根据提供的汽车燃油效率数据集，补全 2.1.1.ipynb 代码。选择合适的特征，开发一个燃油效率预测模型。在开发预测模型之前，首先要对数据进行数据清洗和标注。

工作任务

正确加载数据集，并显示前五行的数据及数据类型。
检查数据集中的缺失值并删除缺失值所在的行。
将“horsepower”列转换为数值类型，并处理转换中的异常值。
对数值型数据进行标准化处理，确保数据在同一量纲下进行分析。
根据业务需求和数据特性，选择对燃油效率预测最有用的特征：'cylinders'、'displacement'、'horsepower'、'weight'、'acceleration'、'model year'、'origin'。
将“mpg”设为目标变量并标注。
对数据进行标注和划分（训练集占 8 成）。
保存处理后的数据，并命名为：2.1.1_cleaned_data.csv。

素材预览

auto-mpg.csv

mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
18,8,,130,3504,12,70,1,chevrolet chevelle malibu
15,8,350,165,3693,11.5,70,1,buick skylark 320
...

代码填空

import pandas as pd

# 加载数据集并显示数据集的前五行 1分
data = 
print("数据集的前五行:")
print()

# 显示每一列的数据类型
print(data.dtypes)

# 检查缺失值并删除缺失值所在的行  2分
print("\n检查缺失值:")
print(..)  
data = 

# 将 'horsepower' 列转换为数值类型，并（删除）处理转换中的异常值 1分
data['horsepower'] = (data['horsepower'], errors='coerce')
data = 

# 显示每一列的数据类型
print(data.horsepower.dtypes)

# 检查清洗后的缺失值
print("\n检查清洗后的缺失值:")
print(data.isnull().sum())

from sklearn.preprocessing import StandardScaler
# 对数值型数据进行标准化处理 1分
numerical_features = ['displacement', 'horsepower', 'weight', 'acceleration']
scaler = StandardScaler()
data[numerical_features] = 

from sklearn.model_selection import train_test_split
# 选择特征、自变量和目标变量 2分
selected_features = 
X = 
y = 

# 划分数据集为训练集和测试集（训练集占8成） 1分
X_train, X_test, y_train, y_test = (, random_state=42)


# 将特征和目标变量合并到一个数据框中
cleaned_data = X.copy()
cleaned_data['mpg'] = y

# 保存清洗和处理后的数据（不存储额外的索引号） 1分
('2.1.1_cleaned_data.csv', )

# 打印消息指示文件已保存
print("\n清洗后的数据已保存到 2.1.1_cleaned_data.csv")