练习1

本题中我们使用Dry_Bean_Dataset数据集。使用高分辨率相机拍摄了7种不同风干菜豆的共13611粒的图像,共有16个特征,其中包括12种尺寸和4种形状特征(菜豆的区域,周长,长轴长、短轴长等等)。Class代表菜豆的种类。

  1. 选取MajorAxisLengthMinorAxisLength两个特征和前3349组数据,绘制散点图;

  2. 使用随机数set.seed(2024)构造一个包含\(0.7n\)个样本的训练集和一个包含\(0.3n\)个样本的测试集,通过MASS包中的lda()函数拟合LDA;

  3. 通过predict()函数计算LDA在测试集上的混淆矩阵和整体准确率;

  4. 通过pROC包中的roc()函数绘制LDA在测试集上的ROC曲线并计算AUC;

  5. 通过klaR包中的partimat()函数绘制LDA的分类边界;

  6. 通过MASS包中的qda()函数拟合QDA,并重复3-5中的工作,将LDA与QDA的ROC曲线绘制在同一张图中并比较;

  7. 通过e1071包中的naiveBayes()函数拟合朴素贝叶斯,并重复3-5中的工作,将LDA,QDA与朴素贝叶斯的ROC曲线绘制在同一张图中并比较;

  8. 通过glm()函数拟合逻辑回归并重复3-5中的工作,将LDA,QDA,朴素贝叶斯与逻辑回归的ROC曲线绘制在同一张图中并比较;

  9. 编写梯度下降算法来实现逻辑回归,将结果与glm()函数拟合的结果比较。

提交时间

请于11.17日晚24点前提交以HW3+学号+姓名.html/pdf文件至Canvas。