2025-06-23 16:03来源:本站
在这里,我们概述了我们用来比较在线图像和文本中的性别偏见的计算和实验技术。我们首先描述为研究的观察成分开发的数据收集方法和分析方法。然后,我们详细介绍了在线搜索实验中部署的研究设计。我们的在线实验的预注册可在https://osf.io/3jhzx上获得。请注意,这项研究是对先前研究的成功复制,除了原始研究不包括对照条件或文本条件的几种版本。先前研究的预注册可在https://osf.io/26kbr上获得。
我们的众包方法包括四个步骤(扩展数据图1)。首先,我们在WordNet中收集了所有社交类别,WordNet是一个典型的英语词汇数据库。WordNet包含3,495个社会类别,包括职业(例如“物理学家”)和通用社会角色(例如“同事”)。其次,我们从Google和Wikipedia收集了与每个类别相关联的图像。第三,我们使用Python的OpenCV(一个流行的开源深度学习框架)从每个图像中提取面孔。该算法会自动隔离每个面部,并提取一个正方形,包括整个面部和最小周围环境。使用OPENCV提取面孔有助于我们确保每个图像中的每个面部都以标准化的方式分别分类,并避免在编码人员的决策中主观偏见,每个图像都要关注和分类每个图像。第四,我们雇用了来自MTURK的6,392名人类编码人员来对面部的性别进行分类。在较早的工作之后,每张脸部都由三个独特的注释16,17分类,以便可以根据三个编码者的大多数(模态)性别分类来确定每个面孔(“男性”或“女性”)的性别(“男性”或“女性”)(我们还为编码人员提供了将面孔的性别标记为“非比率”的选项,但是我们在2%的案例中选择了这些群体,因此我们将这些群体分别用于2%的数据,因此我们将其排除在2%的案例中,因此我们将其排除在2%的案例中。直到每张脸与三个独特的编码器相关联,使用“男性”或“女性”标签)。尽管要求编码人员标记呈现面部的性别,但我们的措施是不可知论的,其中包括编码者用来确定其性别分类的措施。他们可能使用了面部功能, 以及与表达性别的美学(例如头发或配件)有关的特征。每个搜索都是从没有先前历史记录的新鲜Google帐户实施的。搜索是2020年8月由纽约市的十个不同的数据服务器进行的。这项研究得到了加利福尼亚大学伯克利分校的机构审查委员会的批准,所有参与者均提供了知情同意。
为了从Google收集图像,我们遵循了早期的工作,以检索使用3,495个类别中的每个类别中的每个图像,使用公共Google Images搜索引擎16,17,18(Google为其初始搜索结果提供了大约100张图像)。为了从Wikipedia收集图像,我们确定了基于2021 Wikipedia的图像文本数据集(WIT)27中与每个社交类别相关的图像。WIT将Wikipedia上的所有图像映射到文本描述的基础上,基于它们出现的主动Wikipedia文章的标题,内容和元数据。WIT包含与所有英语Wikipedia文章中WordNet的1,523个社会类别相关的图像(有关Wikipedia分析的详细信息,请参见A.1.1补充信息部分)。编码人员将18%的图像确定为不包含人脸。这些是从我们的分析中删除的。我们还要求所有注释者完成注意检查,该检查涉及选择正确的答案,以解决常识性问题:“'down'一词的相反?”一词是什么?从以下选项中:“鱼”,“上”,“和尚”和“苹果”。我们从未通过注意力检查的所有注释者(15%)中删除了数据,并继续收集分类,直到每个图像与三个独特编码器的判断相关联,所有图像都通过了注意力检查。
我们雇用了来自MTURK的2,500名人类编码人员的单独样本,以完成一项调查研究,其中向他们提供了社会类别(每个任务五个类别),并要求通过以下问题的方式评估每个类别(每个类别都由20个独特的人类编码者评估):“您最期望哪个性别属于此类别?”这是作为标量的回答,滑块范围为-1(女性)至1(男性)。所有mturkers均已预先筛选,使得只有流利的英语的美国Mturkers被邀请参加这项任务。
人类编码员都是美国的所有成年人,他们的英语流利。补充表1表明,我们的主要结果对控制人类编码者的人口组成是可靠的。在我们的编码人员中,有44.2%的女性被确定为女性,男性为50.6%,非二元为3.2%;其余的更喜欢不披露。就年龄而言,有42.6%的年龄为18-24岁,22.9%为25-34,32.5%为35-54,1.6%,为55-74,小于1%,超过75。在种族中,46.8%被识别为白种人,11.6%为非裔美国人,17%AS ASASIAN ASIAN ASIAN AS ASEAIN ASSPASAN ASSPASANIC和10%ASPPEPANSANIC ASPANSAN和1.3%和1.3%和10.3%和10.3%;其余的被确定为混合种族或不愿透露的优先种族。就政治意识形态而言,有37.2%的人被确定为保守派,33.8%为自由主义者,20.3%的独立性为20.3%,而其他3.9%则为3.9%;其余的更喜欢不披露。就年收入而言,14.3%的人报告的收入少于10,000美元,33.4%的人报告说,$ 10,000–50,000,22.7%的报告报告US 50,000-75,000美元,14.9%报告US $ 75,000-100,000,10.5%报告US 100,000–150,000,000,000,000,000,2.8%报告US报告了150,000-250 $ 150,000-250%,比1%比1%比1%;其余的更喜欢不披露。就每个注释者获得的最高教育水平而言,有2.7%的人选择“高中”,17.5%的选择“高中”,29.2%的选择“技术/社区学院”,34.5%的选择“本科学位”,14.8%的选择“硕士学位”,少于1%的“博士学位”;其余的更喜欢不披露。
我们在文本中衡量性别关联的方法取决于以下事实:单词嵌入模型使用文本中单词之间共同发生的频率(例如,它们是否出现在同一句子中)将单词定位在n维空间中,因此在这个n维空间中更近地表示,同时存在更频繁地共同存在的单词表示。给定单词的“嵌入”是指该单词在模型构建的n维空间中的特定位置。该向量空间中单词嵌入之间的余弦距离提供了一种强大的语义相似性度量,该量度被广泛用于解开与类别相关的文化含义13,22,31。为了在单词嵌入空间中构建性别维度,我们采用了Kozlowski等人最近开发的方法。22。在论文中,Kozlowski等人22在嵌入空间中构建一个性别维度,可以将不同的类别定位(例如,他们的分析侧重于运动类型)。他们首先确定单词嵌入空间中的两个聚类区域,分别与女性和男性的传统表示相对应。具体而言,女性簇由“女人”,“她”,“她”,“女性”和“女孩”一词组成,而男性簇则由“男人”,“他的”,“他”,“男”,“男”和“男孩”组成。然后,对于WordNet中的3,495个社会类别中的每一个,我们计算了该类别与女性和男性集群之间的平均余弦距离。因此,每个类别都与两个数字相关联:其余弦距离与雌性簇(在余弦的距离之间平均,每个项在女性簇中的每个项)以及与雄性簇的余弦距离(在男性群集中的每个术语中平均其余弦距离平均)。将类别的余弦距离与男性和男性集群之间的差异允许每个类别沿-1(雌性)至1(男性)的位置 扩展嵌入空间。例如,“阿姨”类别沿着这个规模接近-1,而“叔叔”类别沿着这个规模接近1。在WordNet中的类别中,其中有2,986个与300维Word2Vec的Google新闻模型中的嵌入有关,因此可以沿该量表定位。我们所有的结果都可以使用不同的术语来构建该性别维度的极点(补充图18)。但是,我们的主要分析使用与参考文献相同的性别簇。22。
为了计算Bigrams代表的社会类别的向量之间的距离(例如“专业舞者”),我们使用了Gensim Python软件包中的短语类别,该类别提供了预先构建的功能来识别和计算BigRAM嵌入的距离。该方法通过识别与Bigram中每个单词分别对应的向量之间的中间位置的n维向量(例如,“专业”和“舞者”)。然后,该技术将中间向量视为对应于Bigram“ Professional Dancer”的单数矢量,因此用于计算其他类别向量的距离。同样的方法应用于所有模型中所有BIGRAM类别的嵌入构建。
为了最大程度地提高我们基于文本的性别关联和基于图像的度量之间的相似性,我们采用了以下三种技术。首先,我们使用最小值 - 最大归一化对性别关联的文本度量进行了归一化,这确保了兼容的值范围涵盖了我们的基于文本和基于图像的性别关联的度量。这很有帮助,因为由于某些类别与100%的女性面孔或100%男性面孔相关,因此基于图像的测量的性别关联分布扩展到-1至1连续的两端。相比之下,尽管上面描述的文本度量包含-1(女)至1(男性)量表,但我们的WordNet样本中最大的女性类别的性别关联为-0.42(“主席”),而最大的男性类别的性别关联为0.33(“ Guy”)。归一化确保在基于图像和文本的度量中的性别关联的分布均同样涵盖-1至1连续体,因此这些量表之间的配对比较(在类别级别匹配)可以直接检查每个度量中类别性别关联的相对排名。最小值 - 最大归一化由以下公式给出:
其中XI代表类别XI的性别关联([-1,1]),Xmin表示性别最低的类别,XMAX代表具有最高性别评分的类别,代表XI类别的归一化性别关联。为了在应用最小值 - 最大归一化时保留-1至1量表,我们将此过程分别应用于男性偏压类别(即,所有性别关联的类别高于0),因此Xmin代表男性类别中最小的男性,Xmax代表了男性中最大的男性类别。我们将同样的程序应用于女性扭曲的类别,除了,由于女性量表为-1至0,Xmin代表女性中最大的女性类别,而Xmax代表女性最小的女性。因此,在构建0-1个女性量表之后,我们将女性得分乘以-1,因此-1代表女性中最大的女性类别,而0表示最少。然后,我们附加了女性归一化(-1至0)和男性归一化(0至1)尺度。正常化之前的男性和女性尺度都包含含量在四个小数点零(| x | <0.0001)之内的值的类别,因此这种归一化技术没有将某些类别推向0的影响。相反,上述技术具有将基于文本的性别关联延伸到整个男性方向的基于文本的衡量标准的优势,以确保持续分布的范围,以确保持续的分布和各个方向的分布。基于图像的度量的值。
在此实验中,从流行的众包平台多产中招募了全国代表性的参与者样本(n = 600),该平台多产,该平台为在线研究提供了审查的高质量人参与者。没有使用统计方法来确定此样本量。共有575名参与者完成了这项任务,表现为4.2%。我们只检查完成实验的参与者的数据。我们的主要结果报告了与图像,文本和控制条件相关的结果(n = 423);在补充信息中,我们报告了涉及通用Google搜索栏的文本条件的额外版本的结果(n = 150;补充图26)。我们只检查完成任务的参与者的数据。为了招募全国代表性的样本,我们使用了多产的预筛查功能,旨在在性别,年龄和种族的方面提供全国代表性的美国代表性样本。仅当参与者在美国,流利的说英语的人并年龄超过18岁的情况下,才被邀请参加研究。共有50.8%的参与者是女性(没有参与者被确定为非二进制)。所有参与者在参加之前均提供知情同意。该实验于2022年3月5日进行。
扩展数据图2显示了完整实验设计的示意图。该实验得到了加州大学伯克利分校的机构审查委员会的批准。在该实验中,参与者被随机分配到四个条件之一:(1)图像条件(他们使用Google图像搜索引擎来检索职业的图像),(2)Google新闻文本条件(他们使用了Google News搜索引擎,即news.google.com,即google.com,职业)和(4)控制条件(在其中要求他们随机使用Google图像或中性(标准)Google搜索引擎来检索随机,非性别类别的描述,例如“ Apple”)。请注意,在主要文本中,我们报告了比较图像,控制和Google新闻文本条件的实验结果;我们介绍了有关Google中性文本条件的结果,作为补充信息中的鲁棒性测试(补充图26)。
在上载了给定职业的描述后,参与者使用-1(女)到1(男性)量表,以指示他们与该职业最合并的性别。这样,用于表明他们的性别关联的量表参与者与我们在线图像和文本的观察分析中用来衡量性别关联的规模相同。在控制条件下,要求参与者在上传无关类别的描述后,指示他们与给定的随机选择职业相关联的性别。在所有条件下的参与者都完成了22个独特职业的序列(从更广泛的54个职业中随机取样)。选择这些职业包括科学,技术,工程和数学以及文科的职业。每个被用作刺激的职业也可以与我们的观察数据有关,即从Google图像和Google News的文本中测得的性别关联。Here is the full preregistered list of occupations used as stimuli: immunologist, mathematician, harpist, painter, piano player, aeronautical engineer, applied scientist, geneticist, astrophysicist, professional dancer, fashion model, graphic designer, hygienist, educator, intelligence analyst, logician, intelligence agent, financial analyst, chief executive officer, clarinetist, chiropractor, computer expert,intellectual, climatologist, systems analyst, programmer, poet, astronaut, professor, automotive engineer, cardiologist, neurobiologist, English professor, number theorist, marine engineer, bookkeeper, dietician, model, trained nurse, cosmetic surgeon, fashion designer, nurse practitioner, art teacher, singer, interior decorator, media consultant, art student, dressmaker, English teacher, literary agent, social worker,屏幕演员,总编辑,学校老师。参与者评估的一组职业在各个条件下都是相同的。
一旦每个参与者完成了22名职业的这项任务,他们就被要求完成IAT,旨在衡量将男性与科学和妇女与自由主义艺术相关联的隐性偏见33,34,35,38。IAT在跨条件下是相同的(“使用IAT测量隐式偏差”)。总体而言,实验大约需要35分钟才能完成。参与者的参与率为每小时15美元。
我们实验中的IAT是使用IATGEN TOOL33(https://iatgen.wordpress.com/)设计的。IAT是一种心理学研究工具,用于测量目标对(例如不同种族或性别)和类别维度(例如,积极 - 阴性,科学 - 自由主义艺术)之间的心理关联。IAT并没有通过自我报告来衡量人们明确地相信的东西,而是衡量人们在心理上的联系以及他们建立这些关联的速度。IAT具有以下设计(从IATGEN借来的描述)33:“ IAT由七个“块”组成(一组试验)。在每个试验中,参与者在屏幕上看到一个刺激性单词。刺激代表“目标”(例如,昆虫和花朵)或类别(例如,刺激性的刺激性)是刺激性的。或在键盘上右手(在IATGEN中,“ E”和“ I”键)。例如,在我们的研究的某些部分中,参与者可能会用左手为所有男性+科学刺激,以及所有女性+文科刺激的右手。
IAT背后的理论是,参与者将以与一个人的潜在关联一致的方式进行排序,这有望导致一个人的直觉反应的认知流利性。例如,期望有人在用一只手和昆虫与另一只手+昆虫+另一方的刺激分类时会更快,因为这(很可能)与人们的隐性心理关联(例如,从IATGEN借来)是一致的。但是,当类别配对被翻转时,人们应该必须从事认知工作以覆盖其心理关联,并且任务应该较慢。一个部分或另一个部分更快的程度是衡量一个人隐性偏见的量度。
在我们的研究中,我们使用的目标对是“男性”和“女性”(对应于性别),类别维度为科学 - 自由主义艺术。为了构建IAT,我们遵循Rezaei38使用的设计。对于成对的男性单词,我们使用以下术语:男人,男孩,父亲,男性,爷爷,丈夫,儿子,叔叔。对于成对的女性单词,我们使用了以下术语:女人,女孩,母亲,女,奶奶,妻子,女儿,姨妈。对于科学类别,我们使用以下单词:生物学,物理学,化学,数学,地质,天文学,工程,医学,计算,人工智能,统计。对于文科类别,我们使用以下单词:哲学,人文,艺术,文学,英语,音乐,历史,诗歌,时尚,电影。扩展数据图。3–6说明了参与者完成的四个主要IAT块(根据标准IAT设计,还显示了参与者的第2、3和4块,左 - 权利的目标是反向的)。参与者依次完成了七个块。扩展数据的IAT指令图3状态:“将左右食指放在e和i键上。在屏幕的顶部,在屏幕的顶部是2类。在任务和/或图像中,单词和/或图像出现在屏幕中间。当单词/图像属于左侧的类别时,请尽可能快地按E efor。按照您的范围,请尽可能快地按A键。出现。这些说明在任务中的所有块中都重复。
为了根据IAT期间参与者的反应时间来衡量隐式偏见,我们采用了以下标准方法(IATGEN使用)。我们合并了所有四个块(IATGEN中的3、4、6和7块)的分数。一些参与者的速度也比其他参与者更快,从而增加了统计“噪声”,这是由于总体反应时间差异的结果。因此,该差异不是在参与者级别进行标准化,而不是比较原始潜伏期的人内部差异,将人体内部差异除以“合并”的标准偏差。这种汇集的标准偏差使用了所谓的实践和关键块的标准偏差。这会得分。在IATGEN中,正d值表示目标A+阳性,靶B+阴性的形式相关,在我们的情况下,这是男性+科学,女性+自由主义艺术),而负d值表示相反的偏见(目标A+负面,目标B+阳性,在我们的情况下,这是男性+自由主义艺术,女性+科学,零是Bias的偏差。
我们的主要实验结果评估了参与者在搜索任务中遇到的Google图像中的明确和隐性性别关联与性别关联的强度与性别关联的强度之间的关系。参与者明确的性别关联的强度被计算为他们分类后使用-1(雌性)至1(男性)量表输入数量的绝对值(扩展数据图2)。参与者的隐式偏见是通过其成果的D分数来衡量的,该成果的成绩是在IAT上,旨在检测男性与科学与女性与文科艺术之间的关联。为了衡量参与者遇到的Google图像中性别关联的强度,我们计算了所有分类给定职业的参与者中上传的面孔的性别均衡。例如,我们确定了为职业“遗传学家”提供图像搜索结果的所有参与者的反应,并且我们构建了与主文本中所述相同的性别维度,因此-1代表100%的女性脸,0代表50%的女性(男性)面孔,1个代表100%的男性面孔。为了确定参与者上传的图像面孔的性别,我们招募了一个单独的MTURK工人小组(n = 500),他们对每个面孔进行了分类(总共有3,300张图像)。每个脸部都被两个独特的mturkers分类。如果他们不同意性别分配,则聘请了第三名MTURK工人来提供回应,并选择了大多数人确定的性别。我们采用了一种类似的方法来注释参与者在文本条件下上传的文本描述的性别。这些注释者确定了参与者上传的每个文本或视觉描述是女性(1),中性(0)还是男性(1)。每个文本描述均编码为男性, 女性还是中立的,它是使用男性还是女性代词或名字来描述职业(例如,称为“医生”为“他”);如果文本描述未将特定性别归因于所述职业,则将其确定为中性。然后,我们能够计算出与图像分析中应用的每个职业上传的文本描述中相同的性别平衡度量。
有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。