导出图片 - DjangoCon Europe 25 | KEYNOTE: Django for Data Science: Deploying Machine Learning Models with Django

DjangoCon Europe 25 | KEYNOTE: Django for Data Science: Deploying Machine Learning Models with Django

类型: 音频媒体上传时间: 2025-06-21 10:42 摘要时间: 2025-06-21 10:56

概览/核心摘要 (Executive Summary)

本次演讲由JetBrains的开发者倡导者William Vincent主讲，核心论点是：使用Django部署机器学习(ML)模型是一个出乎意料地简单且高效的过程。演讲旨在弥合Web开发者与数据科学家之间的知识鸿沟，展示Django作为“开箱即用”的框架，其内置的表单、ORM和Admin后台等功能，能为不熟悉Web开发的数据科学家提供巨大价值。

演讲通过一个完整的实例，分两步进行了演示。首先，在Jupyter Notebook中，使用Pandas和Scikit-learn库，以经典的Iris鸢尾花数据集为例，训练了一个支持向量机(SVM)分类器，并将其保存为.joblib文件。这个过程刻意简化，避开了复杂的数据清洗，以聚焦于模型训练和部署的核心流程。其次，演讲详细展示了如何从零开始创建一个Django项目，将训练好的模型文件集成进去，通过视图(Views)加载模型、处理用户表单输入、进行实时预测，并将用户的输入和预测结果利用Django Models存入数据库，最后通过Admin后台进行查看。

结论强调，尽管数据科学家可能对Web开发感到畏惧，但Django的“全家桶”特性使其成为部署ML模型的理想选择。然而，演讲也指出，Django社区在向数据科学领域推广方面做得不足，这块潜力巨大的市场有待开发。

引言：弥合Django与数据科学的鸿沟

演讲者背景：William Vincent，现任JetBrains的PyCharm IDE开发者倡导者，专注于Web工具和数据科学领域。
核心观察：在更广泛的Python世界里，数据科学已成为主导力量。然而，Web开发者和数据科学家之间存在明显的壁垒，许多拥有博士学位的数据科学家也常常对Web开发和Django感到“恐惧”(terrified)。
历史背景：演讲者指出，Python在Web和数据科学领域的统治地位并非一蹴而就。回顾2010年左右，R和MATLAB在数据科学领域更具优势，而如今的许多核心Python库（如Pandas, Scikit-learn, TensorFlow, PyTorch）和Web框架（如FastAPI）当时或尚未发布，或远未成熟。这为理解当前生态和弥合知识鸿沟提供了重要背景。
演讲目标：通过一个完整的端到端示例，证明训练一个基础的机器学习模型并使用Django进行部署，既简单又有趣，旨在打破这种隔阂。

第一部分：训练机器学习模型

本部分聚焦于在Jupyter Notebook中训练一个简单的分类模型。

工具与数据集

环境与库：
- Jupyter Notebook：用于交互式地编写和执行代码。
- Pandas：用于数据处理和分析。
- Scikit-learn：用于构建、训练和评估机器学习模型。
- Joblib：用于将训练好的模型序列化（保存）为文件，以便后续在其他应用中加载使用。
数据集选择：Iris (鸢尾花)
- 演讲者选择了经典的Iris数据集，因为它数据干净（150行，无缺失值），非常适合初学者专注于模型训练本身，而非复杂的数据预处理。
- 实践提示：演讲者提醒，网络上存在多个版本的Iris数据集CSV文件，内容略有差异，实践时需注意文件来源以避免问题。

核心训练流程

加载与准备数据：使用Pandas从CSV文件加载数据。
数据分割：调用scikit-learn的train_test_split函数，将数据集按80%训练集和20%测试集的比例进行划分。
模型训练：选择支持向量机分类器 (Support Vector Machine Classifier, SVC) 作为模型，并调用.fit()方法在训练数据上进行训练。
评估与预测：根据演讲者说明，训练出的模型在测试集上达到了97%的准确率。
模型保存：使用joblib.dump()将训练好的模型对象保存为一个名为iris.joblib的二进制文件。

数据可视化与模型扩展

可视化分析：使用seaborn和matplotlib库创建pairplot（配对图），直观展示了不同特征间的关系。图表显示部分数据点存在重叠，这为模型分类提供了一定的挑战，也证明了使用机器学习模型的必要性。
模型扩展讨论 (整合Q&A)：
- 大型模型处理：当被问及如何处理体积过大、不便存入Git仓库的模型时，演讲者承认这是一个重要的实际问题，但他目前没有确切的最佳实践，并表示想进一步探索Jupyter Notebook处理能力的上限。
- 长期兼容性：对于joblib（其底层使用pickle）在不同Python或库版本下的兼容性问题，演讲者同样承认其重要性，但表示自己尚不清楚最佳实践。

第二部分：使用Django部署模型

本部分详细介绍了如何将训练好的模型集成到一个新建的Django Web应用中。

项目设置与模型集成

目标：创建一个网站，用户可以输入花瓣和花萼的四项尺寸数据，网站返回对应的鸢尾花种类预测。
Django项目设置：遵循了标准的Django项目创建流程（startproject, startapp）。
集成模型：将之前生成的iris.joblib文件直接复制到Django项目中，并在views.py中使用joblib.load()加载该模型文件。

构建Web界面与逻辑

URL, View, Template：创建了标准的URL路由、一个名为predict的函数式视图以及一个predict.html模板。
视图逻辑 (views.py)：处理来自HTML表单的POST请求，获取用户输入，将其转换为NumPy数组，并传递给加载好的模型进行预测，最后将结果渲染到模板上。
数据持久化：
- 在models.py中定义了一个IrisPrediction模型，用于存储用户的输入和模型的预测结果。
- 更新视图逻辑，在每次成功预测后，使用IrisPrediction.objects.create()将数据保存到数据库中。
Admin后台：将IrisPrediction模型注册到Django Admin中，从而可以方便地查看所有历史预测记录。
数据源扩展 (整合Q&A)：当被问及如何直接使用Django QuerySet而非CSV文件作为训练数据源时，演讲者表示这是一个很好的方向，但他自己还未尝试过，这为未来探索留下了空间。

生产环境部署清单

演讲者提供了一个简明的部署清单，用于实现一个“不算非常不安全”的生产环境：

配置静态文件 (STATIC_ROOT)。
使用环境变量管理敏感信息（如使用django-environ）。
更新settings.py：设置DEBUG=False, ALLOWED_HOSTS, SECRET_KEY, CSRF_TRUSTED_ORIGINS等。
使用生产级数据库（如PostgreSQL），并安装相应驱动（如psycopg2）。
使用生产级WSGI服务器（如Gunicorn）。
创建Procfile（适用于Heroku等平台）。
维护requirements.txt文件。

核心观点与讨论

主要结论：Django是部署ML模型的绝佳工具，其“开箱即用”的特性（表单、ORM、Admin）正是数据科学家所需要的，整个部署过程比想象中更直接。
对数据科学家的营销不足：演讲者完全同意听众的观点，认为Django社区未能有效地向数据科学界推广自己，存在巨大的市场机会。
官方教程建议：有听众建议将此内容制作成一个官方Django教程以吸引数据科学家。演讲者对此表示开放，并开玩笑说可以顺便做一个比投票应用更简单的“Hello World”教程。

StreamSparkAI

导出设置

预览