MIT6.S081
  • 简介
  • Lec01 Introduction and Examples (Robert)
    • 1.1 课程内容简介
    • 1.2 操作系统结构
    • 1.3 Why Hard and Interesting
    • 1.4 课程结构和资源
    • 1.5 read, write, exit系统调用
    • 1.6 open系统调用
    • 1.7 Shell
    • 1.8 fork系统调用
    • 1.9 exec, wait系统调用
    • 1.10 I/O Redirect
  • Lec03 OS Organization and System Calls (Frans)
    • 3.1 上一节课回顾
    • 3.2 操作系统隔离性(isolation)
    • 3.3 操作系统防御性(Defensive)
    • 3.4 硬件对于强隔离的支持
    • 3.5 User/Kernel mode切换
    • 3.6 宏内核 vs 微内核 (Monolithic Kernel vs Micro Kernel)
    • 3.7 编译运行kernel
    • 3.8 QEMU
    • 3.9 XV6 启动过程
  • Lec04 Page tables (Frans)
    • 4.1 课程内容简介
    • 4.2 地址空间(Address Spaces)
    • 4.3 页表(Page Table)
    • 4.4 页表缓存(Translation Lookaside Buffer)
    • 4.5 Kernel Page Table
    • 4.6 kvminit 函数
    • 4.7 kvminithart 函数
    • 4.8 walk 函数
  • Lec05 Calling conventions and stack frames RISC-V (TA)
    • 5.1 C程序到汇编程序的转换
    • 5.2 RISC-V vs x86
    • 5.3 gdb和汇编代码执行
    • 5.4 RISC-V寄存器
    • 5.5 Stack
    • 5.6 Struct
  • Lec06 Isolation & system call entry/exit (Robert)
    • 6.1 Trap机制
    • 6.2 Trap代码执行流程
    • 6.3 ECALL指令之前的状态
    • 6.4 ECALL指令之后的状态
    • 6.5 uservec函数
    • 6.6 usertrap函数
    • 6.7 usertrapret函数
    • 6.8 userret函数
  • Lec08 Page faults (Frans)
    • 8.1 Page Fault Basics
    • 8.2 Lazy page allocation
    • 8.3 Zero Fill On Demand
    • 8.4 Copy On Write Fork
    • 8.5 Demand Paging
    • 8.6 Memory Mapped Files
  • Lec09 Interrupts (Frans)
    • 9.1 真实操作系统内存使用情况
    • 9.2 Interrupt硬件部分
    • 9.3 设备驱动概述
    • 9.4 在XV6中设置中断
    • 9.5 UART驱动的top部分
    • 9.6 UART驱动的bottom部分
    • 9.7 Interrupt相关的并发
    • 9.8 UART读取键盘输入
    • 9.9 Interrupt的演进
  • Lec10 Multiprocessors and locking (Frans)
    • 10.1 为什么要使用锁?
    • 10.2 锁如何避免race condition?
    • 10.3 什么时候使用锁?
    • 10.4 锁的特性和死锁
    • 10.5 锁与性能
    • 10.6 XV6中UART模块对于锁的使用
    • 10.7 自旋锁(Spin lock)的实现(一)
    • 10.8 自旋锁(Spin lock)的实现(二)
  • Lec11 Thread switching (Robert)
    • 11.1 线程(Thread)概述
    • 11.2 XV6线程调度
    • 11.3 XV6线程切换(一)
    • 11.4 XV6线程切换(二)
    • 11.5 XV6进程切换示例程序
    • 11.6 XV6线程切换 --- yield/sched函数
    • 11.7 XV6线程切换 --- switch函数
    • 11.8 XV6线程切换 --- scheduler函数
    • 11.9 XV6线程第一次调用switch函数
  • Lec13 Sleep & Wake up (Robert)
    • 13.1 线程切换过程中锁的限制
    • 13.2 Sleep&Wakeup 接口
    • 13.3 Lost wakeup
    • 13.4 如何避免Lost wakeup
    • 13.5 Pipe中的sleep和wakeup
    • 13.6 exit系统调用
    • 13.7 wait系统调用
    • 13.8 kill系统调用
  • Lec14 File systems (Frans)
    • 14.1 Why Interesting
    • 14.2 File system实现概述
    • 14.3 How file system uses disk
    • 14.4 inode
    • 14.5 File system工作示例
    • 14.6 XV6创建inode代码展示
    • 14.7 Sleep Lock
  • Lec15 Crash recovery (Frans)
    • 15.1 File system crash概述
    • 15.2 File system crash示例
    • 15.3 File system logging
    • 15.4 log_write函数
    • 15.5 end_op函数
    • 15.6 File system recovering
    • 15.7 Log写磁盘流程
    • 15.8 File system challenges
  • Lec16 File system performance and fast crash recovery (Robert)
    • 16.1 Why logging
    • 16.2 XV6 File system logging回顾
    • 16.3 ext3 file system log format
    • 16.4 ext3如何提升性能
    • 16.5 ext3文件系统调用格式
    • 16.6 ext3 transaction commit步骤
    • 16.7 ext3 file system恢复过程
    • 16.8 为什么新transaction需要等前一个transaction中系统调用执行完成
    • 16.9 总结
  • Lec17 Virtual memory for applications (Frans)
    • 17.1 应用程序使用虚拟内存所需要的特性
    • 17.2 支持应用程序使用虚拟内存的系统调用
    • 17.3 虚拟内存系统如何支持用户应用程序
    • 17.4 构建大的缓存表
    • 17.5 Baker's Real-Time Copying Garbage Collector
    • 17.6 使用虚拟内存特性的GC
    • 17.7 使用虚拟内存特性的GC代码展示
  • Lec18 OS organization (Robert)
    • 18.1 Monolithic kernel
    • 18.2 Micro kernel
    • 18.3 Why micro kernel?
    • 18.4 L4 micro kernel
    • 18.5 Improving IPC by Kernel Design
    • 18.6 Run Linux on top of L4 micro kernel
    • 18.7 L4 Linux性能分析
  • Lec19 Virtual Machines (Robert)
    • 19.1 Why Virtual Machine?
    • 19.2 Trap-and-Emulate --- Trap
    • 19.3 Trap-and-Emulate --- Emulate
    • 19.4 Trap-and-Emulate --- Page Table
    • 19.5 Trap-and-Emulate --- Devices
    • 19.6 硬件对虚拟机的支持
    • 19.7 Dune: Safe User-level Access to Privileged CPU Features
  • Lec20 Kernels and HLL (Frans)
    • 20.1 C语言实现操作系统的优劣势
    • 20.2 高级编程语言实现操作系统的优劣势
    • 20.3 高级编程语言选择 --- Golang
    • 20.4 Biscuit
    • 20.5 Heap exhaustion
    • 20.6 Heap exhaustion solution
    • 20.7 Evaluation: HLL benefits
    • 20.8 Evaluation: HLL performance cost(1)
    • 20.9 Evaluation: HLL performance cost(2)
    • 20.10 Should one use HLL for a new kernel?
  • Lec21 Networking (Robert)
    • 21.1计算机网络概述
    • 21.2 二层网络 --- Ethernet
    • 21.3 二/三层地址转换 --- ARP
    • 21.4 三层网络 --- Internet
    • 21.5 四层网络 --- UDP
    • 21.6 网络协议栈(Network Stack)
    • 21.7 Ring Buffer
    • 21.8 Receive Livelock
    • 21.9 如何解决Livelock
  • Lec22 Meltdown (Robert)
    • 22.1 Meltdown发生的背景
    • 22.2 Speculative execution(1)
    • 22.3 Speculative execution(2)
    • 22.4 CPU caches
    • 22.5 Flush and Reload
    • 22.6 Meltdown Attack
    • 22.7 Meltdown Fix
  • Lec23 RCU (Robert)
    • 23.1 使用锁带来的问题
    • 23.2 读写锁 (Read-Write Lock)
    • 23.3 RCU实现(1) - 基本实现
    • 23.4 RCU实现(2) - Memory barrier
    • 23.5 RCU实现(3) - 读写规则
    • 23.6 RCU用例代码
    • 23.7 RCU总结
Powered by GitBook
On this page

Was this helpful?

  1. Lec19 Virtual Machines (Robert)

19.6 硬件对虚拟机的支持

Previous19.5 Trap-and-Emulate --- DevicesNext19.7 Dune: Safe User-level Access to Privileged CPU Features

Last updated 4 years ago

Was this helpful?

接下来我将讨论硬件对于虚拟机的支持,这里特指的就是Intel的VT-x。为什么Intel和其他的硬件厂商会为虚拟机提供直接的硬件支持呢?

  • 首先虚拟机应用的非常广泛,硬件厂商的大量客户都在使用虚拟机

  • 其次,我们刚刚描述的Trap and Emulate虚拟机方案中,经常会涉及到大量高成本的trap,所以这种方案性能并不特别好。

  • 第三个原因或许就没那么有趣了。RISC-V非常适合Trap and Emulate虚拟机方案,但是Intel的x86处理器的一些具体实现使得它可以支持虚拟化,但是又没那么容易。所以Intel也有动力来修复这里的问题,因为它的很多客户想要在x86上运行VMM。

这里硬件上的支持,是为了让人们能够更容易地构建运行更快的虚拟机。它已经存在了10年左右了,并且现在在构建虚拟机时使用的非常非常广泛。在Trap and Emulate方案中,VMM会为每个Guest在软件中保存一份虚拟状态信息,而现在,这些虚拟状态信息会保存在硬件中。这样Guest中的软件可以直接执行privileged指令来修改保存在硬件中的虚拟寄存器,而不是通过trap走到VMM来修改VMM中保存在软件中的虚拟寄存器。所以这里的目标是Guest可以在不触发trap的前提下,执行privileged指令。

我们还是有一个VMM在内核空间,并且Guest运行在用户空间。当我们使用这种新的硬件支持的方案时,我们的VMM会使用真实的控制寄存器,而当VMM通知硬件切换到Guest mode时,硬件里还会有一套完全独立,专门为Guest mode下使用的虚拟控制寄存器。在Guest mode下可以直接读写控制寄存器,但是读写的是寄存器保存在硬件中的拷贝,而不是真实的寄存器。

硬件会对Guest操作系统的行为做一些额外的操作,以确保Guest不会滥用这些寄存器并从虚拟机中逃逸。在这种硬件支持的虚拟机方案中,存在一些技术术语,至少Intel是这么叫的,Guest mode被称为non-root mode,Host mode中会使用真实的寄存器,被称为root mode。所以,硬件中保存的寄存器的拷贝,或者叫做虚拟寄存器是为了在non-root mode下使用,真实寄存器是为了在root mode下使用。

现在,当我们运行在Guest kernel时,可以在不触发任何trap的前提下执行任何privileged指令。比如说如果想读写STVEC寄存器,硬件允许我们直接读写STVEC寄存器的non-root拷贝。这样,privileged指令可以全速运行,而不用通过trap走到VMM。这对于需要触发大量trap的代码,可以运行的快得多。

现在当VMM想要创建一个新的虚拟机时,VMM需要配置硬件。在VMM的内存中,通过一个结构体与VT-x硬件进行交互。这个结构体称为VMCS(注,Intel的术语,全称是Virtual Machine Control Structure)。当VMM要创建一个新的虚拟机时,它会先在内存中创建这样一个结构体,并填入一些配置信息和所有寄存器的初始值,之后VMM会告诉VT-x硬件说我想要运行一个新的虚拟机,并且虚拟机的初始状态存在于VMCS中。Intel通过一些新增的指令来实现这里的交互。

  • VMLAUNCH,这条指令会创建一个新的虚拟机。你可以将一个VMCS结构体的地址作为参数传给这条指令,再开始运行Guest kernel。

  • VMRESUME。在某些时候,Guest kernel会通过trap走到VMM,然后需要VMM中需要通过执行VMRESUME指令恢复代码运行至Guest kernel。

  • VMCALL,这条新指令在non-root模式下使用,它会使得代码从non-root mode中退出,并通过trap走到VMM。

通过硬件的支持,Guest现在可以在不触发trap的前提下,直接执行普通的privileged指令。但是还是有一些原因需要让代码执行从Guest进入到VMM中,其中一个原因是调用VMCALL指令,另一个原因是设备中断,例如定时器中断会使得代码执行从non-root模式通过trap走到VMM。所以通常情况下设备驱动还是会使得Guest通过trap走回到VMM。这表示着Guest操作系统不能持续占有CPU,每一次触发定时器中断,VMM都会获取控制权。如果有多个Guest同时运行,它们可以通过定时器中断来分时共享CPU(注,类似于线程通过定时器中断分时共享CPU一样)。

VT-x机制中的另外一大部分是对于Page Table的支持。当我们在Guest中运行操作系统时,我们仍然需要使用Page Table。首先Guest kernel还是需要属于自己的Page Table,并且会想要能够加载CR3寄存器,这是Intel中类似于SATP的寄存器。VT-x使得Guest可以加载任何想要的值到CR3寄存器,进而设置Page Table。而硬件也会执行Guest的这些指令,这很好,因为现在Guest kernel可以在不用通过trap走到VMM再来加载Page Table。

但是我们也不能让Guest任意的修改它的Page Table,因为如果这样的话,Guest就可以读写任意的内存地址。所以VT-x的方案中,还存在另一个重要的寄存器:EPT(Extended Page Table)。EPT会指向一个Page Table。当VMM启动一个Guest kernel时,VMM会为Guest kernel设置好EPT,并告诉硬件这个EPT是为了即将运行的虚拟机准备的。

之后,当计算机上的MMU在翻译Guest的虚拟内存地址时,它会先根据Guest设置好的Page Table,将Guest虚拟地址(gva)翻译到Guest 物理地址(gha)。之后再通过EPT,将Guest物理地址(gha)翻译成主机物理地址(hpa)。硬件会为每一个Guest的每一个内存地址都自动完成这里的两次翻译。EPT使得VMM可以控制Guest可以使用哪些内存地址。Guest可以非常高效的设置任何想要的Page Table,因为它现在可以直接执行privileged指令。但是Guest能够使用的内存地址仍然被EPT所限制,而EPT由VMM所配置,所以Guest只能使用VMM允许其使用的物理内存Page(注,EPT类似于19.4中的Shadow Page Table)。

学生提问:我对于硬件中保存的虚拟寄存器有问题,如果你有两个CPU核,然后你想要运行两个虚拟机,你会得到多少虚拟寄存器?

Robert教授:每一个CPU核都有一套独立的VT-x硬件。所以每一个CPU核都有属于自己的32个通用寄存器,属于自己的真实的控制寄存器,属于自己的用在Guest mode下的虚拟控制寄存器,属于自己的EPT,所以你可以在两个CPU核上运行两个不同的虚拟机,它们不会共用任何寄存器,每个CPU核都有属于自己的寄存器。

学生提问:那也需要一个新的VMM吗?

Robert教授:VMM可以像一个普通的操作系统一样。XV6可以支持多个进程,并且为每个进程配备一个proc结构体。而我们的VMM也会为每个虚拟机配备一个vm结构体,用来跟踪Guest的信息。并且,如我之前所说的,如果你只有一个CPU核,但是有3个Guest,可以通过定时器中断结合VMM在3个Guest之间切换。