在社会科学研究中,调查得来的数据往往具有层次结构(嵌套结构)的特点。在教育学与心理学的研究中这种情况尤为常见,如关于学业成绩影响因素的研究中,我们可以考虑的预测变量有学生的入学成绩、学生性别、学生的社会经济地位、班级人数、班主任和任课教师、教室环境等,这些变量中有的是学生个体层面的变量,有的是班级层面的变量。这样的数据具有两个水平,第一水平是学生,第二水平是班级,学生嵌套于到级之中,称之为分层数据。如果观测涉及不同的学校,同时考虑不同的学校变量,则构成一个三水平模型。学生水平嵌套于班级水平,班级水平嵌套于学校水平。在层次结构数据中,不仅有描述个体的变量,而且有个仍组成的更高一层的变量。在经济学、地理学、心理学和社会学的研究中不乏这样的数据存在。根据层次结构数据的特点,重复测量的数据也互以看成是具有层次结构的数据,其第一水平为不同测量,第二水平为个体,重复测量数据的这一层次性的特点扩大了多层线性模型的使用范围‘
对于多层数据,传统的回归分析有两种处理方法:
(1)将所有的更高一层的变量都看做是第一水平的变量,直接在学生个体水平上对数据进行分析。这样做存在的问题是,班级变量对同一个班级内的学生有相同的影响,不同班级学生对应不同的班级变量,而不区分班级对学生的影响,假设同一班级的学生间相互独立是不合理的,同样对不同班级的学生和相同班级的学生作同一假设也是不合理的。
(2)将第一水平的观测直接合并为第二水平的观测,然后直接对班级作分析,这样做的主要问题是丢失了班级内学生个体间的差异的信息,而在实际中,这一部分的变异有可能占总变异中很大的一部分。
上述两种方法有可能得到不同的结果,在对结果的解释上也很不一致。基于上述的讨论,这两种分析数据的方法有一个共同点:它们都没有考虑数据间分层的特点,有可能对数据结果作出不合理的甚至是错误的解释。这就是传统回归分析方法在分析具有结构层次特点数据时的局限性。
传统的线性回归模型假设变量间存在直线关系,变量总体上服从正态分布,方差齐性,个体间随机误差相互独立。前两个假设较易保证,但方差齐性,尤其是个体间随机误差相互独立的假设却很难满足。即不同班级的学生可以假设相互独立,但是同一班级的学生由于受相同班级变量的影响,很难保证相互独立。因此在分析具有层次结构特点的数据时,应将传统回归分析中的误差分解为两部分,一部分是第一水平个体间差异带来的误差,另一部分是第二水平班级的差异带来的误差。可以假设第一水平个体间的测量误差相互独立,第二水平班级带来的误差在不同班级之间相互独立。多水平分析法同时考虑到不同水平的变异,这也正是多层线性分析法的应用越来越受重视的原因,它不仅在模型的假设上与实际情况更加吻合,更重要的是由这种方法得到的结果能更合理、正确地揭示事物之间的真正关系。