余福祺：反歧视引发对AI偏差审视

美国黑人佛洛依德（George Floyd）遭白人警察粗暴对待致死而引发的全美示威抗议浪潮，不只引发了美国许多企业首席执行员纷纷发表公司内部声明，重申反对种族歧视的个人和公司立场；美国的科技界也有不少有识之士开始反思由于大多数人工智能系统开发团队被白人精英所垄断，团队种族分布不够多元，造成所采集的数据只反映白人的世界观而出现偏差和歧视有色人种的运算结论。

近期由前谷歌大脑（Google Brain）主管、Deep Learning AI创办人，现为Landing AI首席执行官吴恩达（Andrew Ng）所主编的《The Batch》人工智能周讯，以及6月5日《麻省理工学院科技评论：算法──揭开人工智能的神秘面纱》每周快报（MIT Technology Review - The Algorithm Weekly Newsletter），不约而同的花费大篇幅探讨种族歧视和偏见，被内化于科技产品之中，或被执法单位滥用来监控平民的担忧，以及解决之道。

人工智能算法有偏差

另外，美国知名科技杂志《连线》（Wired）也在6月6日于面子书专页发布一个视频（https://www.facebook.com/watch/?v=934930453645402），以简明易懂的方式解释，为何数据驱动的人工智能算法会产生偏差，尤其是当人工智能建模所采用的数据往往聚焦在科研人员自身的族群时。这种偏颇人工智能算法的结果是，人工智能人脸识别系统能够以高准确率辨识白人和证明他们的无辜，却在辨认非白人时表现不佳，出现较高的误差率。执法人员基于人工智能系统倾向于锁定有色人种为可疑犯罪份子，而对无辜的有色人种展开调查，进而增加刑事迫害的几率。

这个由《连线》杂志制作的视频直截了当的表示，人工智能算法之所以可能出现偏颇是一个简单的数学题。当开发团队只采集符合白人世界观的数据来培训人工智能建模时，数据驱动算法，也就自然而然地反映片面数据的面貌。

开发团队应更多元

事实上，早在2016年，美国调查式新闻网站《ProPublica》就发现，在佛罗里达州布劳沃德县（Broward County）所使用的一种评估犯罪份子重犯概率的刑事司法算法错将美籍非裔被告标记为“高风险”的比率，几乎是被错误标记的白人被告的两倍。其他研究也揭露，以既有新闻文章来培训的自然语言处理模型（Natural Language Processing Model），也在语言的运用中，展示对性别的刻板印象，譬如说首席执行官、工程师和程序编写员大多被概括为男性；而侍应生和接待员则被等同于女性等。

我们应该如何杜绝或至少减低人工智能的偏差呢？

专家们建议人工智能系统开发团队成员的背景应该更加多元。涵盖不同性别、族群、宗教和世界观的团队能够更有效的预测、审查及发现系统算法所产生的偏见，并与受偏颇算法影响的个人、单位、群体与社区展开对话和获取反馈。

还有就是确保用来培训人工智能建模的数据具备广泛的代表性，并且摒弃使用数据标注人员会用来做出主观价值判断的标贴（label）或参数（parameter），如性别、种族和国籍等。这能够避免人类不自觉的把自己的片面世界观内化于人工智能的数据、算法或结论中，继而产生影响深远的负面社会、经济甚至是政治效应。

也许让人工智能不偏不倚、绝对公正客观的执行日常细琐任务，以便让人类能够把更多心思投注在创意、创新事业，或需要发挥同情、同理心的人本互动一直是许多论者和预言家的梦想。但是，这些对人工智能的期许皆建立在机器终将具备主观能动性的设想。然而，在可预期的中短期内，这样的愿景也许不太容易实现。

这是因为，迄今为止最流行的两大人工智能技术流派，不论是联结主义（Connectionism）或是符号主义（Symbolism），主要还是著重于如何更高效的让人类将人本智能转换为人工智能（mapping human intelligence to machine intelligence）。

以人工神经网络（Artificial Neural Network）为代表的联结主义，近年来主要以机器学习（Machine Learning）和深度学习（Deep Learning）技术著称。人类通过喂养人工神经网络大量经过淬炼的高素质数据，来培训人工智能建模掌握辨识特定事物规律的能力。有专家为了让一般人更容易理解人工神经网络的运作原理，把它形容为以例子来解释世界（explain with examples），用例子而非指令来编程和告诉电脑如何运作的技术。

但是，值得探讨的是，开发人员用来培训人工智能建模的例子和专业领域数据不会从天而降；而且大量能够协助建模推导出精辟洞见的数据，可能以格式不一、条理紊乱的形式散布在不同的资讯媒介里。这些有用的例子或数据，需要领域专才、熟练和半熟练员工，以脑力和劳力来分析、分类、整理、校对，以达到去芜存菁的数据形态。

这个“精炼数据”的过程，本身就是一种把人类脑力的判断，转换为人工智能建模识别能力的过程。可想而知，任何人类在数据采集、取舍和转换格式过程中的疏忽和好恶，最终都会反映在数据驱动的人工智能模型里头。

另一方面，以专家系统（Expert System）为代表的符号主义，则是人类程序编写员，把特定领域专家的系统设计，以程序逻辑和指令，编译成仿人的人工智能系统。人类专才的专业设计即便再优秀，再如何呕心沥血的积累了这一代人类专才以及前人的经验和智慧，还是难以完全跳脱于系统设计者、程序编写员以及他们所引用的前人智慧结晶之世界观。这些自觉和非自觉的主观意识，还是会投射在程序的算法里头。

防范和纠正资讯系统算法所产生的偏差，是人们共有的责任。偏颇的系统算法和结论不仅仅在情感上伤害了受到歧视的人士，还制度性的降低了人们公平参与经济、社会和政治活动的机会。

客观上来说，人工智能理应减少人类对数据的主观诠释，让数据驱动的机器学习算法根据“去偏见”的训练数据（training data），和有助于提高运算结论准确度的变量（variables），来学习执行新的任务。