第1章:环境搭建与安装
在开始学习 Scikit-learn 之前,我们需要先搭建好开发环境。本章将详细介绍如何安装和配置 Scikit-learn 及其相关依赖。
1.1 系统要求
Scikit-learn 支持以下操作系统:
- Windows 7 及以上版本
- macOS 10.9 及以上版本
- Linux(大多数发行版)
Python版本要求:
- Python 3.8 或更高版本
- 推荐使用 Python 3.9 或 3.10
1.2 安装方式
方式一:使用 pip 安装(推荐)
这是最简单的安装方式:
bash
# 安装最新版本的 scikit-learn
pip install scikit-learn
# 或者指定版本
pip install scikit-learn==1.3.0方式二:使用 conda 安装
如果你使用 Anaconda 或 Miniconda:
bash
# 从 conda-forge 频道安装
conda install -c conda-forge scikit-learn
# 或者从默认频道安装
conda install scikit-learn方式三:从源码安装
适合需要最新开发版本的用户:
bash
# 克隆仓库
git clone https://github.com/scikit-learn/scikit-learn.git
cd scikit-learn
# 安装依赖
pip install -e .1.3 核心依赖包
Scikit-learn 依赖以下核心包,通常会自动安装:
bash
# 核心数值计算库
pip install numpy>=1.17.3
# 科学计算库
pip install scipy>=1.5.0
# 作业调度库
pip install joblib>=1.1.11.4 推荐的额外包
为了更好的学习体验,建议安装以下包:
bash
# 数据处理和分析
pip install pandas>=1.0.5
# 数据可视化
pip install matplotlib>=3.1.3
pip install seaborn>=0.11.0
# 交互式开发环境
pip install jupyter>=1.0.0
pip install ipython>=7.15.0
# 一次性安装所有推荐包
pip install pandas matplotlib seaborn jupyter ipython1.5 验证安装
创建一个简单的Python脚本来验证安装是否成功:
python
# test_installation.py
import sklearn
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
print("✅ 安装验证")
print(f"Scikit-learn 版本: {sklearn.__version__}")
print(f"NumPy 版本: {np.__version__}")
print(f"Pandas 版本: {pd.__version__}")
# 测试基本功能
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
# 加载数据
iris = load_iris()
X, y = iris.data, iris.target
# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 训练模型
model = LogisticRegression()
model.fit(X_train, y_train)
# 预测
accuracy = model.score(X_test, y_test)
print(f"测试准确率: {accuracy:.2f}")
print("🎉 所有组件工作正常!")运行验证脚本:
bash
python test_installation.py预期输出类似:
✅ 安装验证
Scikit-learn 版本: 1.3.0
NumPy 版本: 1.24.3
Pandas 版本: 2.0.3
测试准确率: 1.00
🎉 所有组件工作正常!1.6 开发环境选择
Jupyter Notebook(推荐初学者)
Jupyter Notebook 非常适合学习和实验:
bash
# 启动 Jupyter Notebook
jupyter notebookVS Code
Visual Studio Code 是优秀的代码编辑器:
- 安装 VS Code
- 安装 Python 扩展
- 安装 Jupyter 扩展
PyCharm
专业的 Python IDE:
- 下载 PyCharm Community Edition(免费)
- 配置 Python 解释器
- 安装必要插件
1.7 虚拟环境管理
强烈建议使用虚拟环境来管理项目依赖:
使用 venv
bash
# 创建虚拟环境
python -m venv sklearn_env
# 激活虚拟环境
# Windows
sklearn_env\Scripts\activate
# macOS/Linux
source sklearn_env/bin/activate
# 安装包
pip install scikit-learn pandas matplotlib jupyter
# 退出虚拟环境
deactivate使用 conda
bash
# 创建环境
conda create -n sklearn_env python=3.10
# 激活环境
conda activate sklearn_env
# 安装包
conda install scikit-learn pandas matplotlib jupyter
# 退出环境
conda deactivate1.8 常见安装问题
问题1:权限错误
bash
# 解决方案:使用用户安装
pip install --user scikit-learn问题2:网络问题
bash
# 使用国内镜像源
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scikit-learn问题3:版本冲突
bash
# 升级 pip
pip install --upgrade pip
# 强制重新安装
pip install --force-reinstall scikit-learn问题4:编译错误
bash
# 安装预编译版本
pip install --only-binary=all scikit-learn1.9 性能优化建议
使用优化的 BLAS 库
bash
# 安装 Intel MKL(推荐)
conda install mkl
# 或者使用 OpenBLAS
conda install openblas多线程配置
python
# 设置线程数
import os
os.environ['OMP_NUM_THREADS'] = '4'
os.environ['MKL_NUM_THREADS'] = '4'1.10 下一步
恭喜!你已经成功搭建了 Scikit-learn 开发环境。现在你可以:
- 继续学习快速入门指南
- 熟悉 Jupyter Notebook 的使用
- 浏览 Scikit-learn 官方文档
练习题
- 在你的环境中运行验证脚本,确保所有组件正常工作
- 创建一个新的虚拟环境,并在其中安装 Scikit-learn
- 尝试在 Jupyter Notebook 中运行一个简单的机器学习示例
小结
本章我们学习了:
- Scikit-learn 的系统要求和安装方法
- 核心依赖包和推荐工具的安装
- 开发环境的选择和配置
- 虚拟环境的使用
- 常见问题的解决方案
掌握了这些基础知识后,我们就可以开始真正的机器学习之旅了!
下一章预告:在快速入门指南中,我们将创建第一个机器学习模型,体验 Scikit-learn 的强大功能。