GAITC专题论坛丨Amy Bruckman:“真相”的搭建是一个社会过程

7月26日,由中国人工智能学会主办、新浪新闻联合浙江大学承办的2020全球人工智能技术大会(2020GAITC)“AI时代下的新媒体与社交娱乐”专题论坛拉开帷幕,新浪集团首席信息官、新浪AI媒体研究院院长王巍,浙江大学特聘教授、悉尼科技大学教授、百度研究院访问教授杨易共同担任论坛主席。

乔治亚理工大学互动计算学院副院长、教授、ACM Fellow Amy Bruckman在本次专题论坛上,与来自业界、学术界的嘉宾们分享了《我们应该相信维基百科吗?——社会认知论如何让我们成为更好的互联网研究员和数据科学家》。

GAITC专题论坛丨Amy Bruckman:“真相”的搭建是一个社会过程

乔治亚理工大学互动计算学院副院长、教授、ACM Fellow Amy Bruckman

Amy Bruckman认为,“知识”由社会共识搭建。“真相”的搭建是一个社会过程。社会计算研究者可以对“真相”和“知识”的本质进行更多的研究。如果我们对这些社会行为越多了解,就越可能搭建一个更好的互联网。

  以下为Amy Bruckman演讲实录,内容经编辑略有删减:

大家好,我是Amy Bruckman,来自乔治亚理工大学。今天,我很高兴在今年的全球人工智能技术大会上与大家见面。我今天演讲的主题是《我们应该相信维基百科吗?——社会认知论如何让我们成为更好的互联网研究员和数据科学家》。

人类活动是否改变了气候?你是怎么知道这个答案的?

几年前,我在办公室大楼附近试着跟路过的人交流,向他们询问这个问题。我得到的答案各种各样。有人说,读过相关的研究报道;还有人说,是在新闻上看到的;其他人告诉我说,小学六年级的时候老师就教过这些。

有趣的是,有一个人,我跟她聊了之后,向我讲述了她对气候变化的直接感触。她说,有一次她去阿拉斯加度假。巴士将他们带到车站,让游客去看冰川。导游告诉他们,如今从车站出发去看冰川还需要走两小时。而以前下车就可以看到冰川。

我们所有人,都没有时间成为一个气候科学家,进而决定我们怎么看待全球气候变化。我们只是依赖我们所信任的信息来源。我们也没有时间成为流行病学家。但是当我们在决定是否要为孩子接种疫苗时,我们依旧会依赖我们所信任的信息来源。

那么,知道某件事意味着什么呢?

作为互联网研究员,我们跟知识打交道。但,什么是知识?

今天,我想跟大家从哲学角度聊聊这个问题,希望我的内容能给大家带来帮助,帮助你们更好地处理大数据,更好地了解计算机科学家的工作。

我们对知识有一个正式的定义,即知识是“确证的真信念”。什么是“确证的真信念”?比如,在美国有一档电视游戏节目,参与者可以赢取大奖。节目里,他们准备了三块帘幕,其中一块帘幕后藏着一部新车。其他两块帘幕后可能藏着一年的洗衣液或一只烧鸡之类的。如果你说,我猜新车在三号帘幕背后。如果你只是凭直觉猜测的话,那这就不算是“确证的真信念”。但是,如果有人告诉你,选择三号帘幕,车就在三号帘幕背后,然后你也相信这个后台工作人员的话,那么这时候这就可以算作“确证的真信念”。

对于拥有知识这件事,首先知识应该是真实的,其次你也有理由相信这个知识。接下来问题又出现了:什么是真相?

我们对世界的认识基于我们对世界的感知。世界的一切表象都是近似的。当我还在本科读物理专业的时候,作为大一新生,他们教给我们正在研究的现象的近似模型。因为我们是新手物理学家。等我们长大一些后,他们会教我们一些真实的现象。很快我就发现,所有表象都是近似的。即便是一个成熟的物理学家,你也会发现其实没有真实的答案或真实的模型可以研究。我们对现实中的现象做心理表征,我们对现实中的现象做物理表征,我们用我们的感官去感知事物,然后做出表征,这些都是近似的。事实上,我们的世界只有一种完美的模型,就是世界本身。我非常喜欢博尔赫斯(Borges)的短篇小说。他画过一幅非常详尽的地图,俨然一个真实的地区。某一地区的唯一完美地图就是该地区本身。

那是一张椅子吗?你看到那有一张椅子吗?看到椅子的照片了吗?我看到一张椅子的照片。这对于真实意味着什么?那有一张椅子,真实吗?我们对客观现实是否存在,有不同的理解方式。

纯粹主观主义认为,我们受制于主观感知。也就是说,我觉得我看到了一张椅子,但我无法向你证明我看到一张椅子。我们永远不会知道答案。也许,我们都陷入了黑客帝国电影情节的循环往复中。也许,有人知道什么是真实的,什么不是真实的。我们都囿于自己的主观感知。因而也不存在客观现实。反之,客观主义认为,世界是存在的,跟我们的感知是主观的这一事实无关。真相是存在的,感知真相也是没有问题的。

若这两种方法都有些极端的话,那么好在我们还有折衷方案。哲学家希拉里?普特南(Hilary Putnam)提出了介于两个极端之间的内在实在论(internal realism)。内在实在论认为,我受限于我的主观感知;你受限于你的主观感知。但是我们为什么不能一致同意,确实有一张椅子的照片就在那里呢?因为椅子的确存在。所以,虽然我们都受限于我们各自的主观感知,但由于世界的存在,我们主观感知之间便有了不太可能产生的相关性。现实真实存在。

那么,什么是真相?

有三种理解方式。基础论认为,所有信念都可以从一组确证的基础信念中衍生得出。也就是说,如果我相信某件事,那么我肯定有理由来解释我为什么相信这件事,再往下分析即我肯定有理由来解释我为什么相信那些用来解释我为什么相信这件事的事情,如此不断剖析下去,一直到建立这一系列信任的基础事实。而这些基础事实源于我们的感官感知。这个方式虽然严谨,但在现实中这么刨根究底地证明下去显然非常不切实际。

于是,融贯论认为,我们不必让所有事实都立足于基本事实,只需让你的世界观内部融贯即可。融贯论的问题在于某些错误的世界观似乎也可以融贯起来。比如,登月伪造论也可以具有相关性。所以,融贯论对我们没有实际帮助。

随后又来到另一个极端。怀疑论认为,确证的基础信念并不存在,一切都是不可确证的。

好在,我们在这里也有一个合理且适度的折衷办法可以让我们摆脱困境。基础论和怀疑论都不尽如人意。两者的中间即温和基础论。温和基础论认为,基础信念是自发形成的。关于外部世界的信念,包括关于经验和感官品质的信念等等,都是合理而基础的。如果自发形成的信念是对经验的正确反应,那么自发形成的信念就是合理的。非基础信念可以从一组基础信念中推断得出。所以,这是在更极端的主观主义与客观主义之间对认识理由的一种很好的折衷。

现在让我们来回顾一下。我们知道,我们每一个人囿于自己的主观感知,现实是存在的。以及,若信念是对经验的正确反应,则信念是确证的且不会被其他信念挑战。但是,不同的人如何对一个事实达成同意呢?知识的社会建构论认为,我们决定什么是真实的方式,本质上取决于社会。拉图(Latour)和伍尔加(Woolgar)共同撰写的著作谈到了科学事实的建构。

这里我们用密立根(Millikan)和福莱柴尔(Fletcher)的电子电荷实验为例。当你第一次提到油滴实验时,可能有人会说密立根和福莱柴尔称电子带单一电荷。当越来越多人知道这件事后,你可能就会说电子电荷是单一的。随着更多人知道这件事,你可能觉得都没有必要再提起这个证明。我们知道电子电荷就是e。

某件事变为事实的过程,其实就是越来越多人接受这件事的过程。相信的人越多,真实性越高。这就是知识的社会建构论。但是,如果大家都错了呢?(谚语云“三人成虎”。)

毫无疑问,我们都会犯错。但是在任何给定的时间,我们都同意的事实是我们去了解真相所能做的最大努力。我们也会不断纠正已知的事实,根据经验合理调整信念。所以,知识是社会构建的。越是经过仔细审核的事实,越经得起考验,可信度就越高。知识和科学的社会构建的一个机制就是同行评议。同行评议是这样的:你提交一份科学论文给同行评议,有三位同行会阅读你的论文。这三个阅读论文的人,分别是他们审阅内容领域的专家。如果他们审阅的那部分内容不在他们的专业领域内,他们就会不断学习。

如果科学论文草稿引用了他们从未亲自阅读过的参考文献,那么他们会确保在撰写评论之前自己已经阅读且熟悉这些引用的内容。理论上是这样,但实际情况可能并非如此。

也许不是每个人在审阅论文的时候都会这么做。我们也不必理想化同行评议的过程。想象一下实际的情况:人们拿到一份需要评议的论文,然后根据自己的知识和能力,尽力审阅手头的论文。这个过程有利也有弊。而且,多个领域的学科交叉趋势也给同行评议带来诸多困难,因为找到在内容涉及的各个方面都真正具有背景的评审员也越来越困难。

以上都是背景介绍。现在,我想回到我一开始提出的问题:你应该相信维基百科吗?我知道维基百科在中国的使用率不高,但我希望各位有机会可以去了解一下。

维基百科很棒。它的神奇之处在于,它是一个人人都可编辑的百科全书,具有高质量的内容。我想跟大家说的是,维基百科上的内容是怎么审核的。

我给大家举个例子。某个在一夜之间成名之人的维基百科页面的编辑历史,是个极好的例子。比如,新教皇的任命或者某人被任命为美国最高法院法官等等。我在这里要举的一个例子是美国最高法院大法官约翰?罗伯茨(John Roberts)。

罗伯茨的维基页面创建于2005年5月。当时,他的维基页面上内容寥寥无几,只介绍了他是一名法官,在哪里上过学,被谁任命过等信息。在接下来的几个月里,他的维基页面一共才被编辑过9次。但是,在他被提名为最高法院大法官那天,页面一共被编辑过31次。到7月底,一共有359人对该维基页面进行了1200次编辑。其中174人是登录用户,其余为匿名用户。当前版本的内容超过7000个单词。内容的丰富程度令人叹为观止,包括完整的传记,他的所有司法观点索引以及他在各种问题上的立场。内容非常全面,也非常令人印象深刻。

让我们将期刊论文的同行评议与热门的维基页面编辑做一个比较。对于经过高质量同行评议审阅过的期刊论文,会有三名审稿人阅读该论文,一旦这三名审稿人说论文可以发表,那么文章就会发出去,然后再也不能编辑修改。但是对于一个热门的维基页面,可能有上千人在审阅上面的内容。恶意破坏行为通常也会在几秒内得到修正,并且页面内容也会不断更新,但这是热门的维基页面的情况。

我们说说冷门的维基页面。比如,这是马萨诸塞州议会大厦的维基页面。这个页面上说壁画“Columbia Knighting Her World War Disabled”里的模特是诺玛?布罗德尼?科恩(Norma Brodney Cohen)。如果你查看页面下方引用的文献,你会发现有证据支持以下说法:壁画中的模特之一是壁画作者的母亲莎拉?布罗德尼(Sarah Brodney)。但却没有证据支持画中哥伦比亚的模特是画家的姐姐诺玛这一说法。既然没有证据支持这个说法,那为什么这个内容还出现在维基页面上呢?因为那是我放上去的。诺玛是我的奶奶。如果我有证据,我一定会把引用文献放上去,证明诺玛确实是画中的模特。但遗憾的是,没有这样的证据。那为什么一个没有证据支持的说法依旧出现在维基页面上呢?答案是没人在乎马萨诸塞州议会大厦内的壁画。一个相对鲜为人知的页面,可靠性也相对低一些。题外话,我可以向你们保证,画中哥伦比亚的模特真的是诺玛。如果我找到可以引用的文献,我一定会加到那个维基页面上。但这里我真正想阐述的是,一个维基页面的可靠性取决于该页面的热门程度。

在我看来,对于一个热门的页面,维基页面可以说是有史以来最准确的信息形式。但越是冷门的页面,可靠性越低。这么说有点复杂。但要理解这一点,你首先得理解知识的社会建构。

所以,维基百科的功能可见性完美地匹配了知识的社会建构。我们知道,在维基页面上有修订历史。你可以查看每一个维基页面的所有历史版本,包括最初版本。每个维基页面都有一个讨论页。你可以转到首页跟其他编辑人员讨论如何编辑该页面。事实上,规定什么可以出现在维基页面上、什么不可以出现在维基页面上的政策也可以被用户编辑。这些也在维基页面上,你要做的就是在讨论页上跟大家讨论。如果某个政策更改获得大家的一致同意,那么你就可以更改政策页的内容。但如果你不跟大家商量径直更改内容的话,内容很快就会被恢复到原样。维基百科上还有一些维基项目,维基项目是一群在某一领域有共同兴趣并协调编辑活动的人。例如,有一个医学维基项目,旨在改善维基百科上的所有医学文章;还有鲨鱼维基项目,旨在管理所有鲨鱼条目。所有这些机制都是为了改进维基百科上社会建构的知识质量。

作为数据科学家,我们在真相方面,面临独特的挑战。我们处理的不是不确定性,而是概率。我认为,我们数据科学家有这份道德责任来阐明我们所发现事物的局限性,尤其是数据和模型的局限性。比如,我们在做机器学习,从数据集学习的时候,结果的好坏取决于初始数据的质量。如果初始数据不可靠,那么结果也一样不可靠。如果初始数据带有历史偏见,那么结果也会带有历史偏见。输入的是垃圾,输出的也是垃圾。我们对大数据的分析质量完全取决于我们输入的数据。至于模型的质量,有时我们可以对现象建模,我们尝试推断事务,有时理想,有时则不太理想。所以我们负有道德责任,来阐明数据和模型的局限性。我们也尽可能创建与现实具有一定程度对应性的表述。如果我们阐明支持我们表述之证据的局限性,或许可以帮助我们更好的分享知识。

最后,总结一下我今天演讲的内容。世界真实存在,但我们只能通过易出差错的感官来感知现实世界。知识由社会共识搭建。真相的搭建是一个社会过程。社会计算研究者可以对“真相”和“知识”的本质进行更多的研究。如果我们对这些社会行为越多了解,就越可能搭建一个更好的互联网。

我们可以从诸如维基百科这些成功的项目中获益匪浅。维基百科理论上行不通,但只在实践中行得通。希望我今天的内容能给大家带来一些启发。无论你是否经常使用维基百科,你都可以将其视为一个展示互联网潜力的神奇模型。

今天的演讲内容来自我正在撰写一书的第二章。这本书的书名叫《你应该相信维基百科吗——知识和在线社区的设计》。这本书将在明年由剑桥大学出版社出版。最后,希望大家对今天的内容感兴趣,或许今天的分享也能让各位对新书感兴趣。

最后再次感谢各位。希望这次演讲对大家有帮助。也感谢我的同事和学生们。感谢收听!

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )