光华讲坛——社会名流与企业家论坛第6202期
主题:Group-Orthogonal Subsampling for Big Data Linear Mixed Models
主讲人:东北师范大学 孙法省教授
主持人:统计学院 常晋源教授
时间:2022年7月8日(周五)上午9:00-10:00
举办地点:腾讯会议,129 853 380
主办单位:数据科学与商业智能联合实验室 统计学院 科研处
主讲人简介:
孙法省,东北师范⼤学数学与统计学院教授、博导,国家级青年人才项目入选者,吉林省优秀教师。博士毕业于南开大学概率论与数理统计专业,先后到加拿大西蒙弗雷泽大学统计与精算学系、美国加州大学洛杉矶分校统计学系访问。主要研究方向包括计算机试验、大数据抽样、高维数据分析,及统计学在机器学习与人工智能领域的应用。曾获教育部自然科学二等奖、全国统计科学研究优秀成果奖、吉林省青年科技奖、吉林省自然科学学术成果奖。现为全国工业统计学教学研究会数字经济与区块链技术协会副理事长、中国数学会均匀设计分会常务委员、中国现场统计研究会试验设计分会常务理事。研究成果发表在国际统计学顶级期刊Ann.Stat.、Biometrika、JASA上,部分研究成果先后被大段收录到Chapman & Hall/CRC出版社与Springer出版社出版的英文专著中。
内容简介:
Linear mixed model is a popular and common modeling method in statistical analysis. It is computationally difficult to obtain parameter estimates in linear mixed model for big data. The current subsampling methods are mainly aimed at the situation where the data is independent, without considering the correlation within the data. We provide some theoretical results on information matrix for linear mixed model. Based on these findings, an optimal subsampling method for linear mixed model is proposed, which maximizes the determinant of the variance-covariance matrix of the subsampling estimator. Besides, the proposed subsampling procedure is also optimal under A-optimality criterion, which minimizes the trace of the variance-covariance matrix of the subsampling estimator. Furthermore, asymptotic property of the subsampling estimator is established. Numerical examples based on both simulated and real data are provided to illustrate the proposed subsampling method.
线性混合模型是统计分析中常用的一种建模方法。对于大数据,线性混合模型的参数估计存在计算难度。目前的子采样方法主要针对数据独立的情况,没有考虑数据内部的相关性。本文给出了线性混合模型中欧宝平台(中国)集团有限公司信息矩阵的一些理论结果。在此基础上,提出了一种线性混合模型的最优子抽样方法,该方法使子抽样估计量的方差-协方差矩阵的行列式最大化。此外,在A最优性准则下,提出的子抽样估计过程也是最优的,可使子抽样估计的方差-协方差矩阵轨迹最小化。进一步证明了子采样估计量的渐近性质。基于模拟数据和实际数据的数值例子也可证明所提出的分采样方法。