Skip to content

第1章:环境搭建与安装

在开始学习 Scikit-learn 之前,我们需要先搭建好开发环境。本章将详细介绍如何安装和配置 Scikit-learn 及其相关依赖。

1.1 系统要求

Scikit-learn 支持以下操作系统:

  • Windows 7 及以上版本
  • macOS 10.9 及以上版本
  • Linux(大多数发行版)

Python版本要求

  • Python 3.8 或更高版本
  • 推荐使用 Python 3.9 或 3.10

1.2 安装方式

方式一:使用 pip 安装(推荐)

这是最简单的安装方式:

bash
# 安装最新版本的 scikit-learn
pip install scikit-learn

# 或者指定版本
pip install scikit-learn==1.3.0

方式二:使用 conda 安装

如果你使用 Anaconda 或 Miniconda:

bash
# 从 conda-forge 频道安装
conda install -c conda-forge scikit-learn

# 或者从默认频道安装
conda install scikit-learn

方式三:从源码安装

适合需要最新开发版本的用户:

bash
# 克隆仓库
git clone https://github.com/scikit-learn/scikit-learn.git
cd scikit-learn

# 安装依赖
pip install -e .

1.3 核心依赖包

Scikit-learn 依赖以下核心包,通常会自动安装:

bash
# 核心数值计算库
pip install numpy>=1.17.3

# 科学计算库
pip install scipy>=1.5.0

# 作业调度库
pip install joblib>=1.1.1

1.4 推荐的额外包

为了更好的学习体验,建议安装以下包:

bash
# 数据处理和分析
pip install pandas>=1.0.5

# 数据可视化
pip install matplotlib>=3.1.3
pip install seaborn>=0.11.0

# 交互式开发环境
pip install jupyter>=1.0.0
pip install ipython>=7.15.0

# 一次性安装所有推荐包
pip install pandas matplotlib seaborn jupyter ipython

1.5 验证安装

创建一个简单的Python脚本来验证安装是否成功:

python
# test_installation.py
import sklearn
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

print("✅ 安装验证")
print(f"Scikit-learn 版本: {sklearn.__version__}")
print(f"NumPy 版本: {np.__version__}")
print(f"Pandas 版本: {pd.__version__}")

# 测试基本功能
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

# 加载数据
iris = load_iris()
X, y = iris.data, iris.target

# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练模型
model = LogisticRegression()
model.fit(X_train, y_train)

# 预测
accuracy = model.score(X_test, y_test)
print(f"测试准确率: {accuracy:.2f}")
print("🎉 所有组件工作正常!")

运行验证脚本:

bash
python test_installation.py

预期输出类似:

✅ 安装验证
Scikit-learn 版本: 1.3.0
NumPy 版本: 1.24.3
Pandas 版本: 2.0.3
测试准确率: 1.00
🎉 所有组件工作正常!

1.6 开发环境选择

Jupyter Notebook(推荐初学者)

Jupyter Notebook 非常适合学习和实验:

bash
# 启动 Jupyter Notebook
jupyter notebook

VS Code

Visual Studio Code 是优秀的代码编辑器:

  1. 安装 VS Code
  2. 安装 Python 扩展
  3. 安装 Jupyter 扩展

PyCharm

专业的 Python IDE:

  1. 下载 PyCharm Community Edition(免费)
  2. 配置 Python 解释器
  3. 安装必要插件

1.7 虚拟环境管理

强烈建议使用虚拟环境来管理项目依赖:

使用 venv

bash
# 创建虚拟环境
python -m venv sklearn_env

# 激活虚拟环境
# Windows
sklearn_env\Scripts\activate
# macOS/Linux
source sklearn_env/bin/activate

# 安装包
pip install scikit-learn pandas matplotlib jupyter

# 退出虚拟环境
deactivate

使用 conda

bash
# 创建环境
conda create -n sklearn_env python=3.10

# 激活环境
conda activate sklearn_env

# 安装包
conda install scikit-learn pandas matplotlib jupyter

# 退出环境
conda deactivate

1.8 常见安装问题

问题1:权限错误

bash
# 解决方案:使用用户安装
pip install --user scikit-learn

问题2:网络问题

bash
# 使用国内镜像源
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scikit-learn

问题3:版本冲突

bash
# 升级 pip
pip install --upgrade pip

# 强制重新安装
pip install --force-reinstall scikit-learn

问题4:编译错误

bash
# 安装预编译版本
pip install --only-binary=all scikit-learn

1.9 性能优化建议

使用优化的 BLAS 库

bash
# 安装 Intel MKL(推荐)
conda install mkl

# 或者使用 OpenBLAS
conda install openblas

多线程配置

python
# 设置线程数
import os
os.environ['OMP_NUM_THREADS'] = '4'
os.environ['MKL_NUM_THREADS'] = '4'

1.10 下一步

恭喜!你已经成功搭建了 Scikit-learn 开发环境。现在你可以:

  1. 继续学习快速入门指南
  2. 熟悉 Jupyter Notebook 的使用
  3. 浏览 Scikit-learn 官方文档

练习题

  1. 在你的环境中运行验证脚本,确保所有组件正常工作
  2. 创建一个新的虚拟环境,并在其中安装 Scikit-learn
  3. 尝试在 Jupyter Notebook 中运行一个简单的机器学习示例

小结

本章我们学习了:

  • Scikit-learn 的系统要求和安装方法
  • 核心依赖包和推荐工具的安装
  • 开发环境的选择和配置
  • 虚拟环境的使用
  • 常见问题的解决方案

掌握了这些基础知识后,我们就可以开始真正的机器学习之旅了!


下一章预告:在快速入门指南中,我们将创建第一个机器学习模型,体验 Scikit-learn 的强大功能。

本站内容仅供学习和研究使用。