Linux性能之DVFScpufreq

Linux性能之DVFScpufreq,第1张

DVFS全称Dynamic Voltage and Frequency Scaling,即动态电压频率调整。这项技术可以根据芯片运行的应用程序的计算需求,动态调整电压和频率,从而达到节能的目的。

DVFS技术是一项需要软硬件结合的技术,硬件方面比如Intel的SpeedStep技术以及由此衍生的EIST技术,ARM的IEM和AVS技术等。软件方面对于Linux而言主要就是CPUfreq技术,下面我们着重分析一下这项技术。在开始之前,稍微讲一点硬件知识。

CMOS电路中分为动态功耗和静态功耗,公式为 power=Σ(CV²αf + VI)。 C 代表负载电容的容值,V 是工作电压,α 是当前频率下的翻转率,f为工作频率,I代表静态电流。公式中加号前面部分代表动态功耗,后半部分代表静态功耗。要想降低动态功耗的话,需要从C/α/V/f几个参数入手,而对于软件而言,通常可以调节的只有V和f。

好,基于上面的背景,对于Cpufreq技术其实也就是软件根据系统的负载,动态的去调整电压和频率来平衡性能和功耗。

总体而言,Cpufreq包含两部分内容,一是策略部分,该部分与具体CPU无关;而是driver部分,与具体平台实现策略有关系。这种设计的优点是实现了策略和实现机制的分离。首先看策略部分,目前Linux上通用的策略有五种,如下表所示:

对于安卓系统而言,还增加了一种interactive策略针对延时敏感的UI任务,当有UI任务时,改策略会采取更加激进的方式调节CPU频率。

对于用户空间而言,一般可通过/sys/devices/system/cpu/cpu[x]/cpufreq/xxx来查看CPU的调度策略或者进行设置。

主要有以下接口暴露给用户:

当切换不同调度策略时,还会出现一些新的接口。但通用接口如上表所示。

对于dirver而言,如果需要监控CPUfrq系统的变化,那么存在两种类型的通知,一种是CPUfreq的策略变化,另一种是CPU频率的变化。

策略变化总共有三种类型的通知:

CPUFREQ_ADJUST-只要有需要,所有的被通知者可以在此时修改policy的限制信息,比如温控系统可能会修改在大允许运行的频率。

CPUFREQ_INCOMPATIBLE-只是为了避免硬件错误的情况下,可以在该通知中修改policy的限制信息。

CPUFREQ_NOTIFY-真正切换policy前,该通知会发往所有的被通知者。

CPU频率变化会发出两种类型的通知:

CPUFREQ_PRECHANGE-调整前的通知

CPUFREQ_POSTCHANGE-完成调整后的通知

另外,系统休眠/唤醒如果CPU频率发生变化,还会发出CPUFREQ_SUSPENDCHANGE和CPUFREQ_RESUMECHANGE这两个通知。

需要注意的是,除了CPU之外,其他设备也可能存在DVFS的调整需求,可以关注devfreq,对应到driver/devfreq驱动目录。

内核在编译阶段就可以选择支持的governor以及默认governor。在menuconfig中可配置CONFIG_CPU_FREQ,CONFIG_CPU_FREQ_GOV_PERFORMANCE, CONFIG_CPU_FREQ_GOV_POWERSAVE, CONFIG_CPU_FREQ_GOV_USERSPACE, CONFIG_CPU_FREQ_GOV_ONDEMAND, CONFIG_CPU_FREQ_GOV_CONSERVATIVE

等来选择是否开启CPUfreq,以及选择哪种governor。

Linux 3.1之后内核将cpupower-utils集成进内核tools/power/cpupower目录,改工具集的cpufreq-bench工具可以用来分析不同策略对CPU性能的影响。该工具的原理是模拟系统运行的状态来对比其他策略相比于performance高频模式完成任务的时间比例。以ondemand策略为例,命令使用方式如下:

cpufreq-bench -l 50000 -s 100000 -x 50000 -y 100000 -g ondemand -r 5 -n 5 -v

一般达到目标90%左右的比例视为理想比例。

本文基于 RockPi 4A 单板 Linux4.4 内核介绍 OPP Table 。

内核中将频率、电压的相关配置放在 DTSI 文件中,这些配置信息组成的节点被称为 OPP Table(Operating Performance Points) 。

定义文件: arch/arm64/boot/dts/rockchip/rk3399-opp.dtsi ,内容如下:

上面节点中的相关属性含义如下:

1、 opp-shared :表示 opp-table1 是小核的各 CPU 共用。

2、 rockchip,temp-hysteresis :迟滞参数,防止频繁进入高温或低温,单位:毫摄氏度。

3、 rockchip,low-temp :低温阈值。小于该值时,进入低温,大于‘该值+迟滞参数’时,恢复常温。

4、 rockchip,low-temp-min-volt :低温下最低电压,单位:微伏。

5、 nvmem-cells :从 eFUSE 中读取相关信息值(小核漏电流)。

6、 rockchip,pvtm-voltage-sel :min-pvtm(单位KHz)、max-pvtm(单位KHz)和 voltage-selector (用于匹配 opp 节点中 opp-microvolt-L* 属性的序列号)。例:pvtm值为:0 ~ 143500 使用 opp-microvolt-L0 ,143501 ~ 148500使用 opp-microvolt-L1

7、 rockchip,pvtm-freq :时钟频率(KHz),在获取 pvtm 的频率前,先设置 CPU 频率。

8、 rockchip,pvtm-volt :电压(微伏),在获取 pvtm 的频率前,先设置 CPU 电压。

9、 rockchip,pvtm-ch : PVTM 通道,格式<通道号 sel的序号>

10、 rockchip,pvtm-sample-time : PVTM 采样时间,单位:毫秒。

11、 rockchip,pvtm-number : PVTM 采样个数。

12、 rockchip,pvtm-error :允许采样数据之间的误差。

13、 rockchip,pvtm-ref-temp :参考温度。

14、 rockchip,pvtm-temp-prop : PVTM 随温度变化的比例系数,格式<小于参考温度的比例系数 大于参考温度的比例系数>。

15、 rockchip,thermal-zone :获取温度的 thermal-zone 。

16、 opp-microvolt-L* :电压(微伏),格式<target min max>

17、 clock-latency-ns :完成变频需要的时间,单位:纳秒。

在 RK3399 中,除了配置上述小核的 opp table 外,还设置了大核( cluster1_opp )、 gpu(gpu_opp_table) 等的相关值。查看命令如下:

注:

CPU PVTM(Process Voltage Temperature Monitor) 是一个位于 CPU 附近,能反应出不同芯片之间性能差异的模块,受工艺,电压和温度 的影响。

参考:

Documentation/devicetree/bindings/cpufreq/cpufreq-rockchip.txt

Documentation/devicetree/bindings/cpufreq/cpufreq-rockchip.txt


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/7332671.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-04
下一篇 2023-04-04

发表评论

登录后才能评论

评论列表(0条)

保存