PHP底层学习

前言

周末两天,打了TCTF/0ctf,发现底层真的贼菜,最终就解出一道题,还有一道坐等wp

PHP的四层体系

image.png

Zend引擎:Zend整体用纯C实现,是PHP的内核部分,它将PHP代码翻译(词法、语法解析等一系列编译过程)为可执行opcode处理,并实现相应的处理方法,实现了基本的数据结构(如hashtable、oo)、内存分配及管理、提供了相应的api方法供外部调用,是一切的核心,所有的外围功能均围绕Zend实现。

Extensions:围绕着Zend引擎,extensions通过组件式的方式提供各种基础服务,我们常见的各种内置函数(如array系列)、标准库等都是通过extension来实现,用户也可以根据需要实现自己的extension以达到功能扩展、性能优化等目的(如贴吧正在使用的PHP中间层、富文本解析就是extension的典型应用)。

Sapi:Sapi全称是Server Application Programming Interface,也就是服务端应用编程接口,Sapi通过一系列钩子函数,使得PHP可以和外围交互数据,这是PHP非常优雅和成功的一个设计,通过sapi成功的将PHP本身和上层应用解耦隔离,PHP可以不再考虑如何针对不同应用进行兼容,而应用本身也可以针对自己的特点实现不同的处理方式。我们常见的一些sapi有:apache2handler(mod_php)、cgi(fashcgi协议)、cli(命令行)

Application:这就是我们平时编写的PHP程序,通过不同的sapi方式得到各种各样的应用模式,如通过webserver实现web应用、在命令行下以脚本方式运行等等。

PHP执行流程


PHP实现了一个典型的动态语言执行过程:拿到一段代码后,经过词法解析、语法解析等阶段后,源程序会被翻译成一个个指令(opcodes),然后ZEND虚拟机顺次执行这些指令完成操作。PHP本身是用C实现的,因此最终调用的也都是C的函数,实际上,我们可以把PHP看做是一个C开发的软件。

变量的类型实现

php中的变量是使用结构体zval来表示的,其中php5一个变量实际占用内存大小为48字节,php7一个变量实际占用内存大小为16字节,所以php7性能提升很多,从这里多多少少可以看的出来改进之处,而我个人认为最大的提升来自于垃圾回收(怎么实现垃圾回收后面会讲),php7中复杂类型的引用计数都是由自身来维护的,解决了php5中重复计数的问题。怎么实现
php5
php7

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
# 这里给出php7的zval结构体
struct _zval_struct{
zend_value value;
union{
struct{
ZEND_ENDIAN_LOHI_4(
zend_uchar type, /*定义在zend_types.h文件*/
zend_uchar type_flags,
zend_uchar const_flags,
zend_uchar reserver)
}v;
uint32_t type_info;
}u1;
union{
uint32_t next;
uint32_t cache_slot;
uint32_t lineno;
uint32_t num_args;
uint32_t fe_pos;
uint32_t fe_iter_idx;
uint32_t access_flags;
uint32_t property_guard;
}u2;
};

typedef union _zend_value{
zend_long lval;
double dval;
zend_refcounted *counted;
zend_string *str;
zend_array *arr;
zend_object *obj;
zend_resource *res;
zend_reference *ref;
zend_ast_ref *ast;
zval *zv;
void *ptr;
zend_class_entry *ce;
zend_function *func;
struct{
uint32_t w1;
uint32_t w2;
}ww;
}zend_value

垃圾回收

前面也提到了,复杂类型的引用计数由自身维护,也就是头部都有一个gc。这个gc结构体如下

1
2
3
4
5
6
7
8
9
10
11
12
typedef struct _zend_refcounted_h{
uint32_t refcount; /*32bit长度的引用计数*/
union{
struct{
ZEND_ENDIAN_LOHI_3(
zend_uchar type,
zend_uchar flags,
uint16_t gc_info)
} v;
uint32_t type_info;
}u;
}zend_refcounted_h;

image.png
阐明一下每个字节的意义:

  • type: 记录当前元素的类型(同zval的u1.v.type)
  • flags: 用来标记数据类型,可以是字符串类型或数组类型。
  • gc_info: 标记当前元素的颜色和垃圾回收池中的文职,高地址的两位用来标记颜色(what???颜色?)

php7垃圾回收包含两个部分:垃圾收集器和垃圾回收算法。垃圾收集器是将可能是垃圾的元素收集在回收池中,然后由垃圾回收算法回收。
垃圾回收直接参考此篇文章:PHP的垃圾回收机制
下面总结一下垃圾收集和回收的过程:
一、收集

1) 要求数据类型是数组和对象
2) 没有在缓冲区中存在过
3) 没有被标记过
4) 将其gc_info标记为紫色,且记录其在缓冲区的位置
二、回收

1) 对roots环中每个元素进行深度优先遍历,将每个元素中的gc_info为紫色的标记元素为灰色,且引用技术减一。
2) 扫描roots环中的gc_info为灰色的元素,如果发现其引用计数仍旧大于0,说明这个元素还在其他地方使用,那么将其颜色重新标记为黑色,并将其引用计数加1(在第一步有减1操作).如果发现其引用计数为0,则将其标记为白色。该过程同样为深度优先遍历。
3) 扫描roots环,将gc_info颜色为黑色的元素从roots移除。然后对roots中颜色为白色的元素进行深度优先遍历,将其引用计数加1(在第一步有减1操作),然后将roots链表移动到待释放的列表中(to_free)。
4) 释放to_free列表的元素。
image.png

PHP垃圾回收的相关配置

可以通过修改配置文件 php.ini 中的 zend.enable_gc 来打开或关闭 PHP 的垃圾回收机制,也可以通过调用 gc_enable() 或 gc_disable() 打开或关闭 PHP 的垃圾回收机制。