可靠信息找不到,信息源都被污染了

信息匮乏到信息超载

谷歌现在频频面临反垄断指控,不完全统计,欧盟、英国、法国、日本和美国都在发难中,当然在国产同行的衬托下,谷歌的形象还是好那么一丢丢,尤其是那句“不作恶”更是深入人心。

但是在世界范围内,不管是浏览器70%的市场份额还是搜索引擎91%的市场份额,都可以算是“市场主导”地位,至于能否被认定为垄断,那就是个见仁见智的问题。

当然,国内公司一众双核版能不能算是Chrome那就是个玄学话题了,移动端各家手机厂牌市场份额也很大,但都是在Chromium上的修修改改(加广告和首页),但是国内搜索引擎老大是百度,市场份额常年在70%左右,搜狗还剩下18%,令人惊讶的是谷歌还有2%的市场份额。

这样看来国内还有竞争,反而是谷歌在欧美搞垄断,怪不得人家要拆分,手动狗头。

但中文互联网的问题在于滥用SEO手段,导致中文信息质量断崖式下降,甚至SEO优化都能被当做专门的工程师职位,而驱动SEO工作的原理是商业目的,最终导致你在搜索界面前几页找到的都是医疗小广告,防不胜防。

☉谷歌虽然也卖广告位,但基本上信息还是保质保量。

我们现在烦恼是信息太多的问题,但刚开始是为什么要用网络的问题,好好在线下待着,活在自己的世界里多么宁静安然,为什么要和别人来往?

其实这是个社会心理问题,人类有一种集体幼稚病,当面对现实中的复杂问题时,总有一种想通过单一化的理想途径去解决,比如最简单的一朝致富不是梦,最终成就传销大师,听懂掌声。

在冷战刚结束那会儿,人们普遍认为人类会进入一个和平繁荣的大同世界,所有人都会被链接起来,在这股思潮影响下,欧洲核子对撞中心CERN的工程师Lee在1995年发明了现代意义上的万维网,也就是WWW,加之以HTML技术的应用,网络变得不那么极客而是亲民了起来。

至于现在的吵吵闹闹,文明的冲突、语言的隔绝和民族国家的对撞,那个时候还都没有呢,主要是当时买的起电脑一般都是较富裕的阶层,大家都是体面人,还能坐下来相互谈谈。

然后是快速的普及,什么人都能上网了,上网的目的也就奇怪了起来,政治家要用来选举,商人要用来获利,在这一切的合力作用下,我们完成了从信息匮乏到信息超载两个极端中摇摆的全过程。

技术的丰富和个人的有效需求之间出现了空缺,填补空缺的技术叫做搜索技术。

机械复制时代的艺术作品叫印刷品,正好印刷品促进了文艺复兴,当欧洲各地用自己的方言印刷圣经后,诞生了两个人造物:民族国家和宗教改革。

那信息复制时代的技术造物又会给我们带来什么?

现在看来是人工智能,这是彻底能解决匹配问题的希望所在,但目前看来的便捷的信息获取途径并不能解决信息质量问题,要不然你也就不会割错包皮了。

搜索背后是语义网

想理解机器是怎么知道我们想说啥的,得先从人类是怎么理解彼此入手,整个计算机世界都是人造物,大体上还是遵循人类语言交流的逻辑。

从语言学角度看人类说话,是符号的互动,语言符号可以被切分为汉语的字,再往下笔划就没法交流了,或者英语的单词,不论是表意文字还是象形文字,本质上都是符号,只不过在抽象程度上有所区别,汉语的车追溯到上古,跟当时的车还有几分相似。

语言塑造我们的思维方式,而抽象化的思维方式很便于设计工程实践,计算机又没长心眼,反而是高度抽象便于计算机去“理解”,比英语更抽象的也就是数学了,这种意义上说,数学才是人类和计算机交流的通用语。

主流搜索模式可分为全文搜索模式和目录模式两种,前者就是Google和Baidu在用的技术,原理是百度排除爬虫去昼夜不停的搜索网页上的信息,随后整理分类存储起来,然后当我们搜索关键词的时候,实际上检索的是百度已经储存过的信息。

这两款引擎相当于二道贩子,而目录式其实就是图书馆模式,各类图书从总类一直划分到细分领域,Yahoo是优秀代表,不过现在基本上目录模式只在特定领域使用,其他的引擎Bing、搜狗都是全文搜索。

不过AI驱动的自然语言处理才是搜索引擎的未来,比如Magi搜索,应该是首款真正面向消费者的中文AI搜索引擎,会自动学习网络文本中的信息。

☉还好,不是直接让你去割。图源:https://magi.com

但也可以看出来,中文互联网信息质量下降已经产生很大影响了,学习内容都是男科医院的广告,搜索引擎再努力也无济于事。

信息源都被污染了,再好的技术也无法修正,最终受害者是整个中文世界的用户,我们需要的是互联网世界的河长制,搞源头治理才管用。

从技术角度来看,AI技术理解你的需求不成问题,工程师们花费几千万美元训练的GPT-3语言模型足足有1700亿个参数,现在已经可以写小说了,回答你的问题不存在任何技术限制,只有人类世界存在这个信息,当然你问他地球为啥自转肯定是无解的,人都不知道的就别难为机器了。

我们还可以把语音识别技术也可以理解为一种搜索,当做一个训练好的问答系统,你问问你家的小艺、小度、小爱、Alexa、Siri,其实都是一种搜索——回答过程。

不过也没必要迷恋技术,单纯就技术谈技术并不能解决问题,人类又不是极端理性,人类社会是一个生物性——社会性——技术——利润四轴共动复杂系统,你要左转右转都要掌握好力度,一不小心就过了线了。

人造物的上限必然低于人类整体智慧,如果计算机自己学会学习未知知识,那就是全新的生命系统了,现在的机器学习还是限制在人类既有知识的排列组合之内,探索未知还是人类的工作。

再考虑下数字共产主义

?

如果我说Firefox现在是Google养的,惊不惊喜,意不意外?基本上Mozilla现在的收入来源的90%就是在Firefox中内置Google,然后给点好处费。

这还算小打小闹,谷歌每年给苹果120亿美元作为默认搜索引擎的坑位费,这个数字简直夸张,苹果市值2万亿美元徘徊,谷歌市值1万亿美元左右,但是谷歌给的钱占了苹果每年利润的14%以上,高的时候甚至能达到20%。

谷歌也真是不容易,竟然背着我们默默养活了这么多科技企业。

☉浏览器可以自己造,但是收入哪里找呢?

所以为什么,难道是因为谷歌不作恶,发誓要做个好人?当然不是,主要是谷歌要卖广告,要卖广告的第一步是要有潜在受众,然后受众搜索信息,谷歌再把这些受众加以分析卖给广告商。

你以为你在用谷歌,实际上我们才是谷歌的商品,从这个逻辑上推演,谷歌和传统的报纸电视的存活模式是一样的,无非是利用数字手段加强了割韭菜的力度。

对了,凡是以利差模式为盈利手段的,本质上都是高利贷,无论是用什么模式运行,本质都是如此。

冲击Google搜索先后有Bing/Baidu/Yahoo/duckduckgo,但是谷歌本身还是第一,百度对此也很无奈,当年也有出海梦,百度日文还承载过我的青春,但俱往矣,还是谷歌在国外稳居龙头。

但现在国外市场苹果要跑路,华为的Petal花瓣搜索也是犹抱琵琶半遮面,新的玩家就会有新的机会,国内市场是纷纷建私域,玩起了私域流量,但看问题还是要看本质,所谓的弃公寻私,还是信息质量下降的问题,各大厂家纷纷互相隔离,比如淘宝就禁止百度的爬虫,微信的内容是搜狗的独家领域。

不收录也就无法搜索到,所有人都把信息当做商品,而没有人对公共信息的质量负责,而私域流量更像是电鱼,最终结果就是竭泽而渔,大家都没得玩。

所谓的信息茧房不是未来,而是现在我们生活的常态,每天不过是从一个小蚕茧跳到另一个里面罢了。

不信,你看看微博跳哪去了,不是天猫就淘宝。

参考文献:

谷歌每年向苹果支付 120 亿美元默认搜索费,占苹果利润 21%https://readhub.cn/topic/80RjHqHb5pu

中国搜索20年:易守难攻、刚需不减https://36kr.com/p/1724956721153#:~:text=2019%E5%B9%B4%E4%B8%AD%E6%97%AC%EF%BC%8C%E4%B8%AD%E5%9B%BD%E6%90%9C%E7%B4%A2,%E5%BA%94%E6%90%9C%E7%B4%A2%E5%8D%A0%E6%AF%942.6%25%E3%80%82

[Search Engine] 搜索引擎分类和基础架构概述https://www.cnblogs.com/maybe2030/p/4778107.html

本回完