大东方・理论探索 2015年第12期 试论大数据背景下统计学面临的机遇和挑战 文/努尔兰・艾山拜 摘要:在大数据背景的影响下,统计学面临着非常大的 机遇和挑战。本文主要对大数据环境下,数据的目的和变革进 行分析,介绍了数据研究的发展动态,同时对大数据时代包含 的信息进行探讨,最后实施了预期处理、抽样和分析。 关键词:大数据;抽样;数据分析 在大数据时代的作用下,一方面人们主动地的获得数据, 并对自然、人文、科学微观数据进行等收集整理。还有很多人 开始广泛的进行数据研究,或是在囤积数据。在信息时代的到 来下,数据规模不断扩展,数据获取发生了显著变化,必须在 方法上实现突破。 大数据及其目的 大数据是高维变量和数据的整合,统计学经常使用抽样方 法减少数据量。大数据包含多种领域,实现了自然科学、人文 社会、经济、网络、娱乐等各项数据的整合。各学科知识间可 以相互贯通、相互融合。经过对大数据环境的分析发现,大数 据环境主要包含数据流环境、分布储存环境、多线条环境、磁 盘储存环境等。大数据的主要目的是实现数据的转化,给人们 提供有用的信息,探索数据产生机制,进而制定合适的政策。 大数据还具有对社会现状和自然发展保存的作用。虽然现阶段 很多数据依然没有得到彻底分析,但是仍可记录社会发展过程。 二、大数据时代给统计学带来的变革 在大数据背景下,人们习惯于借助数据进行问题研究。在 今后的发展中,很多研究和决策都将由数据决定。现阶段,很 多科学家开始利用软件,对发表中的论文成功数据进行汇总。 在古希腊时代,很多哲学家都是综合性任务,随着文艺复兴的 到来,转变成了单一专家。在大数据时代,会再次出现综合性 专家。大数据减弱了专家在各领域的作用,严重时还将导致专 家消亡。大数据的数据类型较多,综合利用并分析可以获得很 多意外成果。例如,实现信用卡和医院病例的结合,可以得到 食品与健康的关系。经过分析发现大数据时代主要面临以下挑 战:第一,数据统计职能弱化。随着互联网的迅速发展,一些 与国民经济密切联系的工业生产、人口数量等数据都可以利用 互联网得出,然后利用计算机计算,削弱了网通统计部门的工 作职能;第二,部门工作方式受到影响。随着大数据时代的到来, 传统纸质办公方式已经不能适应时代发展的需求,很多行政记 录、网络信息资源共享开始广泛应用到企业中,扩宽了数据收 集渠道,改变了传统工作方式。 三、大数据的研究方向 美国科学院全国研究理事会阐述了大数据具有挑战的问题: 处理分布较高的资源,对数据进行追踪,核实并处理样本数据, 实施了分布式算法和并行算法,对各种格式的数据进行处理, 给决策制定提供依据。我国也召开了两次香山大会,计划设定 大数据重大建设项目。由于大数据分析超出了单一学科领域, 因此,必须实现计算机资源和决策的结合,充分发挥相关专家 的专业知识。 四、大数据的信息和问题 大数据包含各种领域的数据。为了实现各种数据分析,必 须对数据来源和数据库方式进行描述,给数据分析提供支撑。 由于很多数据的来源较曲折,存在各种误差和错误,导致数据 分析和决策的不符合,影响了推断结果。数据量大并不代表数 据的有用信息多,相反大量偏差数据会削弱数据的利用力。在 大数据环境下,主要存在收集数据,不明白数据用途;使用数 据者不明白数据如果获取;构建模型构建时,不明确模型数据 一到来等问题。很多数据都存在偏倚,例如,医院病人和互联网 并不能代表研究总体。除此之外,很多观察和试验数据代表着 不同信息和不同认知范围。 五、大数据的处理、抽样与分析 (一)数据预处理 数据清洗、数据纠偏和矫正、不完全数据填补等是数据预 处理的主要部分,可以利用随机抽样法进行数据纠偏。虽然统 计机构的数据具有很强的代表性、系统误差小,但是数据更新 及获取时间较长,数据涵盖面较小。虽然使用互联网获得的数 据具有量大、获取速度快等优点,但是还会存在数据偏倚,可 以利用多源数据重叠实现数据资源整合,完成单一数据不能完 成的目标。 (二)大数据环境抽样 、大数据抽样方法处于研究状态。根据数据流关系,可以获 得统计精确度高度的数据,然后再对数据适应性、动态和连贯 性进行研究。根据获取样本对调查项目及调查对象进行调整, 获得人们感兴趣的数据。对于罕见案例,需要研究大数据案例 抽样方法。在大数据环境,可以采用非随机抽样,如滚雪球方法, 从种子开始扩大样本。 (三)大数据的分析及整合 在大数据时代背景下,传统数据库连接方法已经不能进行 数据收集利用,必须根据数据库对重叠项目进行研究,利用条 件独立性整合多个变量,给大数据的完整变量提供方法。在多 源及多专题数据库环境下,还可以利用数据收集获得统计结论, 最后实现数据集的统计结论的整合,如荟萃分析法。例如,变 量A对变量B有正作用,变量B对变量C有正作用,但变量A 对变量c有副作用。为了避免“中间变量悖论”发生,可以先 进行数据整合,再进行整合数据分析。 (四)网络图模型 借助网络图模型可以描述高维变量关系。网络图模型是一种 分析处理高维数据的工具,已经形成了很多丰富的图像模型系统 软件,如MIM、MSBN、BN等。在变量较多的节点网络中,如果 需要获得部分变量信息,不用计算高维联合,可直接利用网络传 播信息流进行高维联合概率计算,构建数据因果关系网络。 在网络图像模型的作用下,可以实现数据集合和局部数据 计算。除此之外,网络模型还可以引入隐性变量,简化了量化 关联关系。“盲人摸象”是我们使用的一种整体网络结构算法。 首先,利用数据库学习局部网络结构,然后实现因果交流,最 后整体网络结构。如果产生的因果关系不能得到确认,可以利 用主动学习方法,对主要变量进行干预试验,进而确定因果关系。 六、结束语 大数据时代的来临,既给统计学带来了机遇,也给现代统 计带来了挑战。现在的统计方法只适合全部数据放在单计算机 内部环境计算,在分布式数据和数据流等环境的作用下,给统 计学产生了很多问题。在未来研究中,应该灵活变通,适应大 数据的新统计方法。 参考文献: [1]耿直.大数据时代统计学面,临的机遇与挑战Ⅱ].统计研究,2014, (11). f2]汪海亚.探析大数据时代背景下基层数据统计面临的机遇和 挑战卟统计与管理,2015,(O3). 洪莉,孙文浩.大数据背景下官方统计工作面临的机遇和挑 战 中国集体经济,2015,(O3). (作者简介:新疆阿勒泰畜牧兽医职业学校) 一l2一