算法是个奇异果
美国大选已经进入胶着状态,各家机构已经开始摩拳擦掌,谁能预测对谁就是新一代的国师,我们在这里谈到了预测,说明我们用的是数学思维,谁能摸准最准确的选民心思,谁就能赢。
但人类的行为不能被统计学模拟,至少是无法被精准拟合,要不然四年前该当选的就是希拉里了,地堡男孩也就无法给我们提供这四年的快乐。
现在美国大选民调回复率一直在走低,2015年只有7%,1997年还有36%,我感觉是说自己支持特朗普不太好意思,所以干脆不表态,调查的样本都有问题那这结果还能准确吗?
这可不是我瞎说,盖洛普10月1号的数据显示,56%的美国人认为现在的生活比四年前好,即使是800万+的感染率,20万+的死亡率。
☉中国人民真争气,美国人民真头铁
遇上这情况,大活人都弄不懂美国人现在啥情况,就难为统计学了,说到底,还是人类过于奇异,不像三体人那么老实。
“我们撒谎,我们欺骗”,有样学样,美国大选预测彻底成了因信称义的玄学问题,计算机表示属实无能为力。
政治如此,商家只会更肆无忌惮运用数学工具,美其名曰数字营销。
好家伙,我直接好家伙,双重压制下,我们彻底变成了单向透明,商家可以为所欲为,最近甚至在某些网络交易平台上,1000张人脸照片卖2元,可管理部门姗姗来迟。
淘宝差评都变成了体验不佳,就像雪中悍刀行的全员主演,没有人说不好。那就是都好。
怪完了政治怪商家,这不是说技术就是无辜的。
技术作为人造物,无论有形硬件还是无形软件,都会带有人类的特性。
其实大家考虑一下,统计学本身就自带偏差,比如很简单的众数和平均数概念,应用到人类社会那就是对少数群体的合理歧视,你跟马云平均一下你也是人均300亿美元的男人。
所以大家都要求统计局公布中位数,那问题来了,那最底层的人均能被中位数表现出来吗?
这些数字看起来都是价值中立的,但是人类社会谁能没有立场,当我们大踏步进入计算机世界,发展出AI技术,言必称算法强大,算法本质上由数据驱动,数据反映的是人间真实,人解决不了的问题,别指望计算机去解决。
2018年,就有旅游App进行歧视性定价,一位罗先生拿自己手机一查房间价格是380,朋友手机300,这80块钱就被算法误判了,误判是某旅游App自己说的。
人间保安临时派遣工,计算机算法有误差,懂得都懂,看来临时工才是人类进步的阻碍。
美国离我们有点遥远,可是算法歧视每天浸润在我们的生活中,给大家简单盘一盘算法是怎么歧视我们的。
鲁迅先生说做奴隶而不自知是最可悲的,我们努力让自己的生活不那么可悲。
算法歧视包罗万象
?
20世纪三大矛盾:性别、种族和阶级,具体到我们的生活,我们没有阶级矛盾,人民富豪也是人民的一份子,只有消费者和商家的纠纷。
消费者行为是近年来的集中暴雷区,iOS多个版本现身说法,苹果上买点东西总是比安卓机贵点。
商家说是苹果税,苹果说跟我没关系是商家乱定价,谁对谁错难分,但操作很简单,只要App开发者标识探测到你的机型就可以改改价格标签,这在算法操作上难度不超过1+1=2的级别。
更别说还有老客户不如狗,联通京东老用户可以现身说法,更别说还有新用户专区和首单包邮,这里面的逻辑在于绑定用户以获取数据,你认为1元包邮很便宜,商家看来1元买来算法的优化类似于白捡。
她不知道现在所拥有一切,早已在命运中标好了价格
——茨威格
?
种族问题更是跟我们没关系,这是美国人的专属 ,暂时还是留给他们去烦恼吧,我们不被歧视就不错了。
那剩下的就是性别了,也是唯一可以被讨论的矛盾议题,分布范围也广泛,像什么消费者行为、P2P裸贷,甚至是学术界,道貌岸然的学术界历来是男性的天下。
“女孩不适合学数学”是我们从小听到大的唠叨,长大了可不就都去学文科了。
2014年伊朗裔美国人米尔札哈尼获得菲尔兹奖,研究领域是几何学和动力系统,这是什么东东我不知道,但世界都知道她是女性。
☉米尔札哈尼(1977~2017),首位女性菲尔兹奖获得者
2020年自然子刊神经科学一篇论文显示,女性研究者被引数量远低于男性,还有发文数量,2017年,美国就有研究显示在STEM领域中,女性的同行审议只占20%。
不过情况确实在好转,2018年神经科学研究中女性发文数量已经占比50%,希望在前方。
学术界受害者最主要是女性,但现实里阶级被模糊化为消费能力,反而是在歧视穷人,还可以叠个buff,如果你不幸是小镇出来到上海打工的江西男青年,恭喜你,基本上在网络中被歧视的最底层。
唯一能共情的,也只有河南老乡可以感受到这种痛苦的了。
城市里还有女性发声,小资们有钱有闲可以为自己呐喊,打个很简单的比方,微博需要流量,这些话题讨论的越热烈微博流量越高,算法在推荐机制上会给她们更高的权重。
☉可预测就意味着知道哪些是流量爆点
假名媛也是要有一定消费能力才能扮演的,乡村小妹辍学后只能去富士康,拼单也消费不起下午茶。
最惨的是农村妇女,那位要找靳东的老年妇女,虽然主流舆论是群嘲,但准确来说是算法精准定位用户人群,而且你也看到了效果简直拔群,如果运用到保健品领域呢?
面对算法,谁也不能免俗,看看双十一的红包机制就一目了然,年轻人有年轻版的智商税。
计算机为啥看不起人
算法歧视的社会学本质是“污名化”,也就是对特定人群的非人化表述,俗称开除人籍,把你当做纯粹的商品来看待。按照马克思的观点就是分化群众让他们无法团结,具体操作上是把歧视分层,总有最顶层和最底层,你不满就向上爬,而不考虑爬不爬得上去。
算法歧视首先是人的问题,人在设计模型的时候带有意识形态,比如有监督模型中的人工特征选取,可以加高某些权重,比如以前谷歌搜索idiot会出现特朗普的照片,大总统还特地发推抗议。
☉领会一下就好,真放idiot号就没了
?
其次是数据采集的问题,即原始数据集存在问题,上过初中数学大家就明白,错误可以避免,误差只能缩小,人类社会都做不到全然公正,何必难为数据集呢?
初始训练的数据集都会存有问题,所有要不断调优,但是应用到工程中问题就变成了胎里带,再优化也解决不了。以往商业银行风控模型,明显偏重大企业和机关事业单位,马云的普惠金融为什么敢给个人放款,不是因为善良,而是你用淘宝和天猫、支付宝,你有几斤几两他很清楚。
此外还有一个隐藏的问题,那就是相关≠因果,算法模型吞吐数据本质上是相关性的建模和计算,但是因果律是时序和逻辑链传导,这也是计算机难以模拟人类思维的核心问题所在,也就是说计算机的或与非逻辑多大程度上符合人类真实思维,这是个数学问题,但也是个脑科学和哲学问题。
我们的意识真的能够思考构成我们的物质吗?还是只能缩小误差而不可能把置信度做到100%,人类吵了两千年都没解决的问题,真的别难为计算机。
最后就是资本主义的痼疾——为利润而生,为利润而死。只要有300%的利润预期,就敢去挑战监管给自己买条绞绳。
市场竞争,自然就是各个市场领域条块分割,主要分割我们的的时间片段,出门有交警摄像头,打车有地图记录行踪,刷短视频有快手,购物有京东。
你的本来样貌都被扭曲了,各家公司都按照你的片段去推断你是什么样的人,所以怎么解决?我有一计,全都交给政府,做一个统一的数据平台,让个人信息成为公共资产,让各大公司把算法开源,一起探索数字共产主义实现的可能性。
这病其实不好治
?
现实里的传染病,中国治得了,老百姓统一调配听指挥,一个健康码就已经让全国信息一盘局了,泡泡算法更是简单。
西方为啥管不了,因为20世纪80年代以来,新自由主义思潮影响下大幅度弱化政府监管,结果就是个人不听话,政府没效率,最后就是一起上天堂。
现在欧洲要反谷歌垄断,美国要计划拆分Chrome,甚至立法禁止谷歌搜索的垄断,吓得苹果都要自研搜索技术了,好像恶都是谷歌做的,棱镜门才过去几年呐?忘了,莫斯科里的斯诺登还看着你们表演呢!
“黑命贵”之火烧起来的时候,多个AI大牛被惹火烧身,包括获得过图灵计算机科学奖的Hinton都被批判设计的算法歧视黑人。这股风蔓延到学术界,很多人要求改变算法模型对黑人的歧视,因为相关性的存在,黑人在暴力犯罪和银行贷款上受到普遍歧视,甚至有位女黑人计算机学家要求白人男性科学家多引用她的论文,否则就是歧视。
☉谷歌,Don't be evil
?
AI算法框架中TensorFlow是谷歌的,PyTorch是Facebook的,从过往风评看,他们设计的算法有其实也实属正常。
瓜田李下,有理也说不清楚。
可能还是看中国,治病救人惩前毖后我党是专业的。现实里的病治得了,虚拟世界的病也差不多,算法的问题,看似是虚拟世界的价值中立的技术问题,但究其本质是人类世界传染到计算机的问题,这样一想难道人类才是病毒源头?
个人信息保护法是个起点,但是算法、数据、监管、个人保护意识缺一不可,2019年针对就业歧视规定罚款上限是5万,真的是很有特色了。
所以这次你看好吗?欢迎和我们讨论一下,万一新的算法模型设计思想能摆脱歧视呢~
参考文献:
陈力简:看完荒唐的主流民调,我押1000美元赌特朗普连任https://www.guancha.cn/Chenlijian/2020_10_28_569475_s.shtml
数据告诉你,论文引文里有多少性别偏见https://www.zhishifenzi.com/depth/depth/10241.html
微博机制和转发预测研究https://www.researchgate.net/profile/Li_Weigang/publication/272621063_Research_on_the_Micro-blog_Mechanism_and_Re-posting_Prediction/links/551013ce0cf224726ac4fe75/Research-on-the-Micro-blog-Mechanism-and-Re-posting-Prediction.pdf
杨成越, 罗先觉. 算法歧视的综合治理初探[J]. 科学与社会, 2018, 8(4): 1-12, 64.
本回完