编码机

如何适当运用抽样技术应对海量文本

发布时间:2025/3/9 12:49:50   
北京中科专注治疗白癜风 https://disease.39.net/yldt/bjzkbdfyy/

在以数据为对象的研究中,我们经常要面对一个问题:需要研究多少个样本,才能得出有效的结论?什么样本、样本有多大,才能较好地代表母体?很多研究需要通过对部分样本进行分析,进而“扩展”至对母体的认识?这里便涉及到抽样的学问。

抽样(Sampling)是研究者常用的方法,从总体对象中抽取一部分,并通过对该部分进行研究,得出对总体的认识。今天,我们就来聊聊抽样。

传统调研方法中,有哪些抽样方法?

抽样环节遍布于各种研究之中:民意调查、满意度调查、收入工资调查,不一而足。在传统的研究中,抽样方法至关重要,直接影响研究的代表性和有效性。

一般会使用随机抽样方法与非随机抽样方法两大类,可以根据不同的需求,选择不同的抽样方法:

随机抽样包括简单随机抽样、系统抽样、分层抽样等,随机抽样更利于我们运用统计学知识,通过样本去推断母体的状况,比如通过随机抽样电话调查来进行民意调查;

非随机抽样则包括便利抽样、滚雪球抽样、判断抽样等,在难以进行随机抽样或者没有必要对整个母体进行精确推估的时候,进行非随机抽样就可以增强抽样的便利性并减少研究所需的人力物力,合理的非随机抽样也可以增强研究的探索性和前沿性,比如对某几个人的生活进行长时间深入研究以描绘某一群体的生活状况。

以文本数据为对象的内容分析法,也会用到抽样吗?

是的。内容分析法作为强调科学性、系统性、客观性的量化研究方法,也是有可能会用到抽样的。在进行内容分析前,需要确定样本范围,比如,是研究全体样本,还是需要抽样?如果需要抽样,如何来抽样呢?

传统内容分析法通常要求确定抽样的范围:媒介来源的抽样,比如报刊、书籍、官方声明;时间和事件的抽样,比如在什么时候发布、关于什么事件的文本内容。这些都需要研究者进行一定的判定,在研究条件有限的情况下,尽可能做到科学的抽样。

大数据研究中,产生了新的抽样需求

如今,互联网发展兴旺发达,并且随着以“我即媒体”为象征的社交媒体时代来临,潜在的文本数量出现爆炸式增长,报刊书籍等各种媒介皆扩展至互联网多种渠道上。内容分析法的应用亦需要与时俱进,以及时应对海量的文本数据。

将大数据技术、人工智能、深度学习及其它网络技术手段引入到内容分析法的实践当中,帮助实现了处理文本数据能力的飞跃。似乎只要有权限触及互联网各个网站的数据、运用足够先进的数据采集技术、拥有足够强大运算能力的研究分析工具,就能采集到海量的文本数据,抽样技术也就不那么重要了。大数据技术给了我们充分的自信,但这依然并不完美:收集到海量的文本数据,但依然需要过滤掉存在歧义或无关的“杂质”信息;自然语言、尤其是汉语,是博大精深、千变万化的,在实际应用中,相近或相同的语句,其实际语义会存在很大的差别,即使我们对算法不断进行优化和改进,也无法制造出放之四海而皆准的分析工具。

在研究实践当中,当前的研究环境下,以大体量数据为对象的内容分析法,在样本的选取上,可以总结出两种选择方向:

第一类是利用计算机技术分析全体样本,比如,在强大的计算能力和算法的加持下,快速分析文本数据的客观性信息(来源分布、时间序列、主题、人物、表达词等);

第二类是需要分析文本相对主观性内容,例如态度的分化等,技术所不能达,需要人工介入,而由于人工内容编码需要时间和人力,当需要应对海量文本数据的时候,如果人工编码的压力过大,时效性会大打折扣。这种场景下就可能要考虑抽样,选取部分样本,在编码的时效性、样本的覆盖广度和编码后的分析深度上做出一个平衡。

想要抽样,我该怎么做?

在研究实践中,抽样需要考虑两个问题,一是抽样规则,二是执行操作。依据研究需求,通常可选择对文本内容采用系统抽样或分层随机抽样,形成可供操作的编码样本库。具体选择何种抽样规则因研究场景而异。而在执行操作层面,不用担心,在DiVoMiner平台上点几下鼠标,就搞定了,多复杂的抽样规则也不用怕!

小编演示来了,一共三步:建立抽样库,设置抽样规则,执行抽样,done!严格来说,需要用户操作的只有两步哦!具体方法是在界面,在需要进行抽样的数据库上点击,弹框将显示抽样步骤。

点击抽样后,如果没有已有的抽样库,即手动输入抽样库的名称,如“抽样库1”,新建一个抽样库,随后点击。

进入设置抽样规则,如果进行简单随机抽样的话,那么我们只需要输入随机抽出的文本数据百分比、或者固定的微博数量,即可点击。

但是,在实际的文本分析中,在很多情况下,微博与微博之间的分析价值是不同的,比如小编在这次分析中,根据研究需求,希望优先抽出热门微博,进行人工分析。那么我们就可以点击,对抽样规则进行个性化的制定。

在点击后,调整抽样的条件和规则,既可以是满足下列“全部条件”(AND逻辑),也可以是“任意条件”(OR逻辑),点击“+”号或“-”号对条件进行增减。

小编一口气设置了5个条件,使用“全部条件”,意思是,只有同时满足这5个条件的文本,才会被筛选出来作为进一步的分析样本。

首先,小编选择了未进行人工编码的微博,如果要对已进行人工编码的微博进行抽样查看、或者改成机器编码,那么只需要调整选项即可;其次,小编选择了发布日期在1月1日到6月10日之间的微博;然后,再选择微博的来源,手动输入了“央视网”;当然我们也可以优先抽出更“热门”的微博,可以在点赞、评论、转发等条件上进行筛选设置,此处小编选择了评论大于等于1的微博,最后即可点击。

当然,这些条件都是可以自由选取的。回到步骤,调整抽样字段和规则就可以了,比如根据点赞、评论、转发等条件进行升降序的抽样。

由于小编在设置抽样范围时,选择的是“全部条件”,抽样得出的微博可能比较少,所以小编就选择了随机抽取%、也就是符合上述所有条件的所有微博,然后点击,即可开始抽样。

接下来,只需要稍等片刻,抽样也就完成啦!是不是很方便、很高效呢!在DiVoMiner平台上一次性完成多条件的复杂抽样,也是很容易的!

最后点击,就可以看到根据条件抽出来的20条符合条件数据了。小编提醒,在抽样后,会形成独立数据库,可以单独操作、多库并行,但是、抽样库是占用话题数据容量和文件容量的哟~记得合理规划话题使用情况。

经过小编的示范,你是否对DiVoMiner方便快捷的数据抽样方法有所了解了呢?适当运用抽样技术,可以从整体数据中抽取部分数据形成抽样库,并单独执行算法编码、人工编码、统计分析和可视化等功能,可以大大增强应对海量文本的能力!这也是小编在此提出的在实践中运用抽样技术进行内容分析的新方向,今天就聊到这里啦!



转载请注明:http://www.aideyishus.com/lkzp/8031.html
------分隔线----------------------------