基于机器学习的DDoS检测系统实战

基于机器学习的DDoS检测系统实战（Python+Scikit-learn）｜毕业设计必备

摘要：本文手把手教你从0到1实现一个轻量级DDoS攻击检测系统，涵盖数据预处理、特征工程、模型训练与可视化分析。

一、项目背景与意义

DDoS（分布式拒绝服务攻击）是网络安全领域的“头号公敌”，传统基于阈值的检测方法误报率高且难以应对新型攻击。机器学习通过分析流量行为模式，能更精准识别异常。
适合场景：

毕业设计选题（网络安全/人工智能方向）
企业级安全防护的简化原型
学术论文实验模块开发

二、环境准备与数据集

1. 工具清单

Python 3.8+（必备库：Scikit-learn, Pandas, Matplotlib）
数据集：CIC-DDoS2019（学术研究免费使用）
代码编辑器：VS Code/Jupyter Notebook

2. 数据集关键特征

# 数据集字段示例（共87个特征）
features = [
    'Flow Duration', 'Total Fwd Packets', 'Total Bwd Packets',
    'Flow Bytes/s', 'Packet Length Mean', 'ACK Flag Count',
    'Init_Win_bytes_forward', 'Label'  # 标签：Benign或DDoS
]

三、核心代码实现（附详细注释）

步骤1：数据预处理

import pandas as pd
from sklearn.model_selection import train_test_split

# 加载数据集（假设已下载并解压为train.csv）
data = pd.read_csv('train.csv')

# 清洗数据：删除空值、重复项
data = data.dropna().drop_duplicates()

# 标签编码：Benign->0, DDoS->1
data['Label'] = data['Label'].apply(lambda x: 0 if x == 'Benign' else 1)

# 划分训练集和测试集（8:2）
X = data.drop('Label', axis=1)
y = data['Label']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

步骤2：特征工程——选择关键特征

# 通过随机森林评估特征重要性
from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier(n_estimators=100)
rf.fit(X_train, y_train)

# 可视化Top10重要特征
import matplotlib.pyplot as plt

feature_importances = pd.Series(rf.feature_importances_, index=X.columns)
top_features = feature_importances.nlargest(10)
top_features.plot(kind='barh', title='Feature Importance')
plt.show()

# 选取Top10特征重构数据集
selected_features = top_features.index.tolist()
X_train = X_train[selected_features]
X_test = X_test[selected_features]

步骤3：模型训练与评估（以XGBoost为例）

from xgboost import XGBClassifier
from sklearn.metrics import classification_report, roc_auc_score

# 初始化模型
model = XGBClassifier(
    n_estimators=200,
    max_depth=5,
    learning_rate=0.1,
    subsample=0.8
)

# 训练与预测
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

# 输出评估报告
print(classification_report(y_test, y_pred))
print(f"ROC-AUC Score: {roc_auc_score(y_test, y_pred):.4f}")

输出示例：

              precision  recall  f1-score   support
           0       0.98      0.99      0.99     35621
           1       0.99      0.98      0.98     28379
    accuracy                           0.98     64000
   ROC-AUC Score: 0.9836

四、可视化分析与创新点

1. 实时检测模拟（Flask部署示例）

from flask import Flask, request, jsonify
import joblib

app = Flask(__name__)
model = joblib.load('ddos_model.pkl')  # 加载保存的模型

@app.route('/detect', methods=['POST'])
def detect():
    data = request.json
    features = [data[f] for f in selected_features]  # 使用之前选定的特征
    prediction = model.predict([features])[0]
    return jsonify({'is_ddos': int(prediction)})

if __name__ == '__main__':
    app.run(port=5000)