计算机视觉导论 (Introduction to Computer Vision)
王鹤 2024春
Github 仓库所有笔记更新完毕, 完结撒花!!!
♪───O(≧∇≦)O────♪
June 18th, 2024 Update: PDF 格式的笔记在 GitHub 上作为 Releases
发布
June 8th, 2024 Update: Embodied AI 相关笔记
June 1st, 2024 Update: Generative Model 相关笔记
May 25th, 2024 Update: Detection and Instance Segmentation 相关笔记
May 18th, 2024 Update: Transformer 相关笔记
课程听感:
(以下是在课程笔记前写的前言)
作为北京大学信息科学技术学院的学生,长期以来饱受糟糕课程质量、糟糕课程作业、糟糕考试难度的折磨。 比如算法设计与分析的等课程的教学质量极低,教考分离,ICS 考试一面黑板的考试错误题目订正等等。 在这样的环境下, 遇到了王鹤老师开设的计算机视觉导论课程,这门课程的内容丰富,作业质量高,考试难度适中,称得上是精品课程(与算分这种国家精品课程相区别).
王鹤老师将计算机视觉的发展脉络呈现给大家,在这个深度学习时代,老师并没有完全忽视传 统 CV 的方法,而是挑选了其中具有代表性的工作,这些工作为深度学习时代的 CV 打下了良好 的基础,提供了许多基础工具和数据集的构建方式。同时老师也更加注重深度学习的基础知识,如 BatchNorm 的特性和与其他 Norm 的区别,许多人仅仅只是会 PyTorch 的积木搭建,但是对于这 些基础知识的原理和性质却不甚了解,导致在实际使用中遇到问题时无法解决,王老师在这方面往 往提出 intuitive 的问题,引人深思.
我是在大三下学期选修了这门课程,即使我已经具有了一定的深度学习基础,但是我仍然很享受上课 (看回放) 的过程,因为对于许多已经了解的知识,王老师会再度给出解释,总是让我在同一个地方有不同的收获.
我在本学期期中考试之前偶然了解到曾经有学长撰写了一本笔记,但是许多内容已经进行了 更新或者删改,因此我联系上林晓疏(笔名)学长,获取了这份笔记的源代码,并在此基础上进行更新,以飨后人.
该笔记按照讲授先后顺序进行排列,但是章节编排按照知识结构划分,因此章节划分可能与课程进度有所不同。同时本笔记不能替代课程,只是对这部分知识的总结和思考,建议与课程回放配合食用.
作业/任务量:
作业是四次 lab , 没有其它作业, 对我来讲周更笔记算是比较有趣的事情, 一边看回放一边记记笔记需要两三个小时, 预计总时长会在25小时左右 (更新完之后发现总时长在35小时左右)
Lab1
都不能使用 for 循环
- 实现卷积, 包括 pedding , 使用 Toeplitz Matrix 实现卷积, 使用 Sliding Window 实现卷积
- 实现 Canny Edge Detector, 包括包括 NMS 和 Edge Linking with Hysteresis Threshold
- 实现 Harris Corner Detector
- 使用 RANSAC 进行平面 fitting
Lab2
- 手工实现反向传播 (不是很要求矩阵求导, 考试也不考察矩阵求导)
- 手工实现 Batch Norm
- 使用前两问的函数在 Cifar-10 上训练一个 CNN
- 使用 PyTorch 实现一个 CNN
Lab3
除了 Marching Cube 都不能使用 for 循环
- 实现相机校准
- 从 depth image 重建点云
- 从 mesh sample 点云, 使用两种 metric 计算点云距离
- 使用 Marching Cube 从 SDF 重建 mesh
Lab4
可以使用 for 循环
- 实现 Point Net
- Mask RCNN
- RNN
时间: 3-4个小时
lab质量较前三个有所下降, 大概是因为这几个网络复杂度提高了太多了, 想要好好写任务量太大了.
考试:
期中考试
还是有一些难度的, cheatsheet实际上用处不大, 记录一些公式或者课上老师口述的例子就够了, 我考试的时候就看了两三次, 还是确认一下我记的名词是不是对的
需要对CV的知识和老师上课讲的 insight 比较熟悉才能拿到90+的分数
期末考试
几个记忆比较深刻的地方
- 对于 RCNN, Fast RCNN, Faster RCNN 的算法流程要熟悉, 比如具体为什么 Fast RCNN 比 RCNN 快, 快在哪里了
- Embodied AI 和一些相关知识点我的笔记都有提到
- SDF 哪边是正数, 因为我有个同学记错了🙂↔️
- Object detection 的 IoU, PR曲线, AP计算模拟
Github repo
这个仓库包括:
- Latex 格式的课程笔记, 编译好的 PDF 格式笔记可以在
Releases
中下载 - Lab 及其解答
- 一些相关 Cheatsheet