社会主义核心价值观

社会主义核心价值观

党的十八大提出,倡导富强、民主、文明、和谐,倡导自由、平等、公正、法治,倡导爱国、敬业、诚信、友善,积极培育和践行社会主义核心价值观。富强、民主、文明、和谐是国家层面的价值目标,自由、平等、公正、法治是社会层面的价值取向,爱国、敬业、诚信、友善是公民个人层面的价值准则,这24个字是社会主义核心价值观的基本内容。

免费https证书

目前发现两个免费的https证书资源

Let’s Encrypt,网址是https://letsencrypt.org/,Let’s Encrypt is a freeautomated, and open Certificate Authority. 有个工具可以自动在vps上安装https证书和配置好apache/nginx,网址是https://certbot.eff.org/about/

另一个免费https资源是阿里云,在阿里云购买的域名和ecs,可以申请免费的证书,只对一个域名有效,但是可以申请多个

不要再被误导了,带你全面了解“赛博朋克”文化

爱玩游戏的朋友应该都知道波兰蠢驴这个公司,旗下的《巫师》系列游戏可谓叫好又叫座,猎魔人和昆特牌的梗也是街知巷闻。这不,Netflix已经在着手准备把它拍成真人电视剧了,真是让人期待啊!而《赛博朋克2077》正是这家公司的下一部作品。

最近几年,赛博朋克文化的作品越来越多,而《赛博朋克2077》这部作品的公布又为这股热潮添了一把火。当然,我们不聊游戏,我们来说说“赛博朋克”这个文化背景。

在国内,很多人对“赛博朋克”其实不是很了解,毕竟它不像科幻、玄幻、悬疑这些类型,这些类型作品可以顾名思义,但是“赛博朋克”这四个字,对于不了解的人来说,几乎就像是乱码了,根本不懂是什么意思。

其实,不仅是有很多该类型的作品,现实中,“赛博朋克”也与我们的生活息息相关,甚至成了我们窥探未来的一种方式。不过由于国内缺乏对该文化的了解,所以当你搜索“什么是赛博朋克”时,可能会得到很多相关的资料或者视频,但大多数的媒体资料还是干巴巴的,或者只是简单陈述或泛泛而谈,忽略了好多有血有肉的东西。

而且,我发现很多人都对“赛博朋克”有很大的误解。比如有人说:朋克是一种起源于1970年代的音乐风格,然后慢慢演变成了一种文化,再后来结合各种前缀,就产生了“赛博朋克”、“蒸汽朋克”等等次文化……打住,如果你了解到的是这样的资料,那就是一个超大的误解,如果带着这个误解继续了解下去,就会产生很多互相矛盾的地方。如果按照前面所说,朋克衍生出的这种文化的话,那为什么没有出现“赛博摇滚”、“蒸汽嘻哈”之类的呢?

言归正传,除了“赛博朋克(cyber punk)”你肯定还听说过“废土朋克(wasteland punk)”、“蒸汽朋克(steam punk)”之类的。那么什么是朋克呢?如果你百度一下,百科会告诉你:朋克是源于摇滚的一种音乐形式。但其实没这么简单,此朋克非彼朋克,朋克音乐和赛博朋克并无直接关联,这篇文章所讨论的朋克跟音乐文化也没有关系,如果要单聊“朋克音乐”的话,我需要重新写一篇文章才够,篇幅原因,今天我们只说“赛博朋克”。

在上世纪60、70年代,冷战和中东战争的爆发导致了这是一个黑暗压抑的时代,工业时代后期科技爆炸前期,未来近在眼前,历史还未走远,希望和绝望并存,矛盾和冲突不断,这个时代也是科幻艺术创作绝佳的参考设定。

比如电影《银翼杀手》的原著小说,菲利普·迪克的《仿生人会梦见电子羊吗》就是这类作品的先驱,它在1968年出版时,就已经敏锐察觉到这个时代的动荡,所以有一种说法:这本书几乎预言了之后的一百年。在这本书之后,类似的题材和作品越来越多,其中最著名的,是1984年威廉·吉布森的《神经漫游者》,它的伟大甚至定义了这类科幻作品的基调:近未来,网络空间和虚拟世界无处不在,人工智能和神经科技颠覆社会,但世界并没有变得更好,人类已经矛盾冲突不断。

科幻里的世界依旧像1970年代一样躁动不安,高科技,低生活是这个背景最真实的写照。

既然同类型的作品多了,那就要有个统一且正式的称呼,很快,有个特别炫酷的词,在当时被大家注意并且接受。那就是另一个科幻作家布鲁斯·贝斯克给自己小说取的标题,名字就叫——赛博朋克( Cyberpunk)。如果说非要与开头说到的朋克音乐有什么关系的话,就是在这个时期,也是朋克音乐的兴起时期吧。可惜的是,作为第一个使用这个名字的布鲁斯·贝斯克并没有成为赛博朋克之父。

“赛博”音译自单词“Cyber”,现在查字典的话,大概是“网络的、计算机的”之类的解释,但其实这是在cyberpunk的概念被大众接受之后才出现的含义。cyber这个词简化自cybernetics这个单词,中文翻译成“控制论”,是一个于1948年提出来的学科,这个学科专门研究“动物和机械如何互相控制与沟通”,后来控制论演化成代指任何领域,用技术手段对系统进行控制的学科。

所以当布鲁斯应用“cyber”时,自然就带有了两层含义:“生物和机械的关系”、“技术对社会的控制”。这么看是不是很有黑客帝国的感觉呢?

电影《黑客帝国》

所以说,赛博朋克并不是由朋克音乐演化而来,它只是借用或者说共用了“朋克”这个词而已,来代指同样那个时代和那个环境背景。朋克文化和朋克音乐就像是两个同名同姓的人,可能同源,但是完全不同。

所以,朋克文化的作品,有着那个时代的鲜明特点:是黑暗的,颓废的,绝望的。但是朋克文化执着于描述这个时代的黑暗,和黑暗中人们的挣扎,来反向体现世界还是有光明的,有希望的。

朋克背景,其实就是乌托邦背景的反义词,而朋克作品也和反乌托邦作品表达不同的思想。反乌托邦作品表达的是:看起来很美好的世界,内在却是污秽不堪的黑暗;而朋克作品表达的是:虽然世界很黑暗,但是光明和希望不灭。

消极的外表下,却有一颗积极正义的核心。

赛博朋克 2077

赛博朋克2077》是知名游戏《巫师》系列开发商CD Projekt RED开发制作的一款角色扮演游戏。故事设定在黑暗腐败、科技高度发达的未来世界中,并且兼有沙盒元素与RPG机制。该款游戏于2019年6月在E3游戏展展出。

游戏预计于2020年4月16日正式发售。预售地址:https://www.cyberpunk.net/hk/zh-cn/pre-order

游戏背景

在《赛博朋克2077》中,玩家被丢入了一个黑暗的未来社会。故事发生在一个叫做“夜之城(Night City)”的大都会,以它为背景游戏讲述了这样一个人挣扎的故事,他从小在街头长大,一直试图在排水沟中间找到自己的出路,在帮派和产业巨头的无尽斗争中生存下去,在这个充满污垢和罪恶的城市中成长。毒品、暴力、贫穷和专政并没有在2077年消失,几个世纪过去了,人们仍然保留着那份贪婪、狭隘和懦弱。但是不断困扰人类的并不只有来自过去的幽灵,还有来自当代的新问题。“惊魂”们的表现越来越狂暴:大街上充满了瘾君子们——他们为一种刚刚出现的娱乐项目所沉迷:“脑舞”。脑舞十分廉价,却可以让人体验到其他人的生活和他们的情绪,尤其是当其他人的生活比自己的更加丰富多彩时,这种刺激是无与伦比的。

说白了,脑舞是一种个人经历所制作的电子专辑。观看者可以通过一种叫做“BD播放器(BD Player)”的特殊大脑扩充器直接将这些电子专辑中的数据输入自己的神经系统,脑舞让观看者可以同时感受记录者脑中的所有感受,包括情绪、肌肉动作、感知等等。

根据出版公司的不同,脑舞专辑中记录的内容也十分不同,有些是比较简单的经历,比如让观察者去体验一个冒险家的故事,所有那些刺激、汗水、景色、虫鸣鸟叫,还有那种推动你不断向前,不畏恐惧、超越肉体极限的好奇心。

但是脑舞向人们更多的展现了它的另外一面。由不法分子秘密制造的脑舞,会让人进入到一个连环杀手的记忆,让观察者不仅能够看到他变态的行为,更可怕的是能感受到他杀戮的欲望和满足感。

游戏设定

制作组承诺游戏将真实地忠于“赛博朋克”风格。玩家将进入2077年的黑暗未来——那是一个先进技术既成为人类的救星、也是加以人类身上的诅咒的世界。本作面向成人玩家打造,采用了多线程、非线性式剧情,围绕着一个超级大都市“夜之城”(Night City)及其周边展开。玩家也有机会随意地在游戏中的开放性世界中漫游,前往来源于知名的桌面角色扮演游戏(trpg)规则《赛博朋克2020》中的著名场景,包括帮派盘踞的战区、传奇的Afterlife枢纽点和怀旧的Forlorn Hope。游戏还将为玩家提供多种多样的武器、步枪、植入药物、工具以及其他装备。也许玩家对赛博朋克(Cyberpunk)这个词汇还很陌生,但是相信对于电影《黑客帝国》一定非常熟悉。其实《黑客帝国》本身就是赛博朋克文化的典型展现。赛博朋克就是黑客帝国电影的精神内质。《赛博朋克2077》设定在未来世界,社会衰退,野蛮。游戏设计师Mike Pondsmith许诺这款游戏将像《巫师》系列一样细节饱满丰富,将为玩家带来非线性复杂刺激剧情游戏体验。玩家在游戏中将拥有自己独特的游戏体验,玩家可以从不同的职业中选择自定义自己的角色,无论是嗜杀成性的雇佣兵还是诡计多端的黑客,这些角色都可以装备不同种类的自动化的装置和致命的武器。类似《巫师》系列,《赛博朋克2077》游戏中玩家将迎来道德层面的抉择,这些抉择也最终影响玩家的命运和外围游戏世界。据游戏的设计师菲利普·韦伯(Philip Weber)透露,《赛博朋克2077》中的任务失败不会导致“重启关卡”这样的后果,而只有玩家角色死亡时才会“重启关卡”。就是每一项任务都会对游戏故事产生连锁反应,有时候玩家搞砸了一个任务,那么接下来可能就是走另一条路线,甚至最后会迎来不同结局。CDPR之前表示《赛博朋克2077》的任务与《巫师3:狂猎》一样长而复杂,这可能还有些“自谦”了,因为从他们的任务设计理念来看,《赛博朋克2077》的任务机制显然会更加复杂多样,更像是《巫师3》任务风格的扩展。《赛博朋克2077》拥有如此丰富的细节与复杂的机制,再加上CDPR宣称会让所有NPC都有独特性,这一切都让《赛博朋克2077》更需要时间的打磨。

游戏特色

  • 第一人称RPG沙盘游戏
  • 想去哪里都可以去
  • 为成年玩家打造的野心RPG
  • 发生在2077年的腐败和高科技世界
  • 多线故事
  • 细腻的夜之城景色
  • 高级RPG机制
  • RPG机制基于“笔和纸系统”
  • 大量武器、升级、植入物和高科技小装备
  • 采用的新装备反映了人类50年的发展过程

AI攻陷多人德扑再登Science,训练成本150美元,每小时赢1000刀

在无限制德州扑克六人对决的比赛中,德扑 AI Pluribus 成功战胜了五名专家级人类玩家。Pluribus 由 Facebook 与卡耐基梅隆大学(CMU)共同开发,实现了前辈 Libratus(冷扑大师)未能完成的任务,该研究已经登上了最新一期《科学》杂志。

六人无限制玩法是德州扑克最受欢迎的游戏方式,Facebook 与 CMU 的成果是第一个在拥有两个(或以上)人类玩家的比赛中击败人类专业选手的 AI。

2017 年 1 月,由 CMU 学者 Noam Brown、Tuomas Sandholm 开发的人工智能程序 Libratus 在宾夕法尼亚州匹兹堡的 Rivers 赌场持续 20 天的 1 对 1 无限制德扑比赛中成功战胜了 4 名全球顶级职业玩家。这也成为了继围棋之后,又一个高难度游戏被 AI 攻陷的里程碑事件。2017 年底,Libratus 的论文也被《科学》杂志收录。

「冷扑大师」使用大量算力和博弈论等方法来攻克信息不完整的纸牌游戏。该研究的另一篇论文《Safe and Nested Subgame Solving for Imperfect-Information Games》也在当年成为了人工智能顶会 NIPS 2017 的最佳论文。

卡耐基梅隆大学计算机科学教授 Tuomas Sandholm(左)与他的门生,现任 Facebook 科学家 Noam Brown。

从 1 对 1 到玩转 6 人对决,人工智能经历了怎样的进步?「虽然从二到六看起来是一个渐进的过程,但这实际上是一个巨大的挑战,」研究游戏与人工智能的纽约大学助理教授 Julian Togelius 表示。「多人游戏方面的研究,此前在所有游戏中都未有出现。」

在「冷扑大师」的基础之上,Noam Brown 与 Tuomas Sandholm 提出的新算法 Pluribus 需要的算力更小。在为期 12 天,超过 10000 手牌的比赛中,Pluribus 击败了 15 名人类顶级玩家。「很多 AI 研究者此前都认为实现这样的目标是不可能的,」Noam Brown 表示。

几十年来,扑克一直是人工智能领域一个困难而又重要的挑战。原因在于,扑克中含有隐藏信息,也就是说,你无法知道对方的牌。要想在扑克中获胜,你需要 bluff(吓唬)或者使用其他策略,这在棋类比赛中一般是不需要的。这一点使得在扑克中应用人工智能变得非常困难。

现在的人工智能已经学会了 bluff,而且还可以看穿人类选手的 bluff。不过在 Noam Brown 看来,这些技巧也是由数学过程决定的策略。

据介绍,Facebook 和卡内基梅隆大学设计的比赛分为两种模式:1 个 AI+5 个人类玩家和 5 个 AI+1 个人类玩家,Pluribus 在这两种模式中都取得了胜利。如果一个筹码值 1 美元,Pluribus 平均每局能赢 5 美元,与 5 个人类玩家对战一小时就能赢 1000 美元。职业扑克玩家认为这些结果是决定性的胜利优势。

这是 AI 首次在玩家人数(或队伍)大于 2 的大型基准游戏中击败顶级职业玩家。以下是关于 Pluribus 的细节。

论文:Superhuman AI for multiplayer poker

论文链接:https://science.sciencemag.org/content/early/2019/07/10/science.aay2400

Pluribus 以 Libratus 和其他一些算法、代码为基础进行了几项改进。Libratus 曾于 2017 年在双人无限注德扑中击败人类顶级选手(参见:《学界 | Science 论文揭秘:Libratus 如何在双人无限注德扑中击败人类顶级选手》)。这些算法和代码都是由 Tuomas Sandholm 带领的卡内基梅隆大学研究实验室开发的。

值得一提的是,Pluribus 整合了一种新的在线搜索算法,可以通过搜索前面的几步而不是只搜索到游戏结束来有效地评估其决策。此外,Pluribus 还利用了速度更快的新型 self-play 非完美信息游戏算法。综上所述,这些改进使得使用极少的处理能力和内存来训练 Pluribus 成为可能。训练所用的云计算资源总价值还不到 150 美元。这种高效与最近其他人工智能里程碑项目形成了鲜明对比,后者的训练往往要花费数百万美元的计算资源。

该视频显示了 Pluribus 与职业人类扑克玩家对战的过程(牌面朝上是为了更容易看到 Pluribus 的策略)。

这些创新的意义远不止在扑克游戏中,因为双玩家零和交互(一输一赢)在娱乐游戏中非常常见,但在实际生活中却非常罕见。现实世界的——对有害内容采取行动、应对网络安全挑战以及管理在线拍卖或导航流量——通常涉及多个参与者和/或隐藏信息。多玩家交互对过去的 AI 技术提出了严峻的理论和实践挑战。Facebook 的结果表明,一个精心构造的人工智能算法可以在两人以上的零和游戏中超越人类的表现

在 6 人扑克中获胜

相比于过去典型的游戏中,6 人扑克有两个主要挑战。

不只是简单的双人零和游戏

过去所有游戏中的突破限制于 2 人或者 2 队的零和竞赛(例如象棋、西洋棋、星际争霸 2 或者 Dota2)。在这些比赛中,AI 之所以成功,是因为它们试图评估使用 Nash 均衡策略。在双人和双队的零和游戏中,无论对手做什么,作出精确的纳什均衡就可能无法输掉比赛。(例如,石头剪刀布的纳什均衡策略是以相同的概率随机选择石头、布或剪刀。)

尽管在任何有限制游戏中都存在纳什均衡,但通常在具有三个或更多玩家的游戏中,难以有效地计算纳什均衡。(对于两人一般和游戏也是如此。)此外,在两个以上玩家的游戏中,即使作出精确的纳什均衡策略,也有可能输掉比赛。例如在游戏 Lemonade Stand game 中,每个玩家同时在一个圆环上选择一个点,并且想尽可能远离任何其他玩家。纳什均衡是所有参与者沿着环间隔相等的距离,但是有很多方法可以实现。如果每个玩家独立计算其中一个平衡点,则联合策略不太可能导致所有玩家沿着该环间隔开同等距离。如下图所示:

除了双人零和游戏,纳什均衡的缺点引发研究人员思考:这种游戏的正确目标应该是什么?

在六人扑克中,研究者认为其目标不应该是特定的游戏理论解决概念,而是创建一个长期都能凭经验击败人类对手的 AI,包括精英人类专业人士。(对于 AI 机器人来说,这通常被认为是「超人」的表现。)

研究者表示,他们用来构建 Pluribus 的算法并不能保证在双人零和游戏之外收敛到纳什均衡。尽管如此,它们观察到 Pluribus 在六人扑克中的策略始终能击败职业玩家,因此这些算法,能够在双人零和游戏之外的更广泛的场景中,产生超人类的策略。

更复杂环境中的隐藏信息

没有其他游戏像扑克一样有这么大隐藏信息的挑战,每个玩家都拥有其他玩家没有的信息(自己的牌面)。一个成功的扑克 AI 必须推理这个隐藏的信息,并慎重平衡自己策略(以保持不可预测),同时采取良好的行动。

例如,bluff 偶尔会有效,但总是 bluff 就容易被抓,从而导致损失大量资金。因此,有必要仔细平衡 bluff 概率和强牌下注的概率。换句话说,不完美信息游戏中动作的值取决于其被选择的概率以及选择其他动作的概率。

相反,在完美信息游戏中,玩家不必担心平衡动作的概率。国际象棋中的好动作,无论选择的概率如何都是好的。

像先前 Libratus 这样的扑克 AI,在两个玩家无限制德州扑克游戏这样的游戏中,通过基于 Counterfactual Regret Minimization(CFR)理论上合理的自我游戏算法与精心构造的搜索程序相结合,解决游戏中的隐藏信息问题。

然而,在扑克中添加额外的玩家会以指数方式增加游戏的复杂性。即使计算量高达 10,000 倍,那些以前的技术无法扩展到六人扑克。

Pluribus 使用的新技术可以比以前的任何东西都更好地应对这一挑战。

理解 Pluribus 的蓝图策略

Pluribus 的核心策略是通过自我博弈的方式学习。在这一过程中,AI 和自己进行对战,不使用任何人类游戏数据作为输入。AI 首先随机地选择玩法,接着,随着决定每一步的行动后,逐渐提升性能,并对这些行动拟合概率分布。最终,AI 的表现比之前的策略版本会更好。Pluribus 中的自我博弈策略是一种改进版本的蒙特卡洛 CFR(MCCFR)。

每一次迭代中,MCCFR 指定其中一方为「traverser」对象,在迭代中更新这一方的当前策略。在迭代开始时,基于所有玩家的当前策略(最开始是完全随机的),MCCFR 模拟出一幅扑克。当模拟完成时,算法回顾「traverser」对象的每个策略,并计算如果选择其他的行动,它的胜率多大程度上能够提升或下降。之后,AI 再评价根据这一决策实施之后,接下来的每个假设决策的优势,以此类推。

该图显示蒙特卡罗 Counterfactual Regret Minimization 算法如何通过评估真实和假设的动作来更新遍历器的策略。Pluribus 中的遍历器以深度优先的方式进行遍历,以达到优化的目的。

探究其他假设的结果是可能的,这是因为 AI 是自我对弈的。如果 AI 想要了解其他选择之后会发生什么,它只需要问自己如何去回应这些行为。

「traverser」对象实际做了什么选择和可能做什么选择的差异被加入到反事实后悔(counterfactural regret)行为中。在迭代结束的时候,「traverser」对象的策略得到更新。因此,有着更高反事实后悔概率的选择被选中。保持德州扑克这样没有限制的游戏中每一个行动中的策略需要的字节数超过了整个宇宙的原子数。为了减少游戏的复杂度,研究人员要求 AI 忽略一些行动,并使用一种抽象方法将类似的决策点聚合在一起。在抽象之后,聚合的决策点被认为是独一无二的。

Pluribus 的自我博弈结果被称为蓝图策略。在实际游戏中,Pluribus 使用搜索算法提升这一蓝图策略。但是 Pluribus 不会根据从对手身上观察到的倾向调整其策略。

这幅图显示了 Pluribus 的蓝图策略是如何在训练过程中逐渐改进的。其性能通过训练的最终快照来评估。研究者在这些比较中没有使用搜索,他们基于与人类专业玩家的讨论对普通人类玩家和顶级人类玩家的表现进行评估。该图还显示出了 Pluribus 何时停止 limping,这是高级人类玩家通常会去避免的一种打法。

研究人员训练蓝图策略用了 8 天,使用了一个 64 核的服务器,需要的内存数量小于 512G。他们没有使用 GPU。在典型的云计算中,这只需要 150 美元。和其他 AI 研究相比,包括其他自我对弈的 AI,这种消耗很小。由于算法上的提升,研究人员可以在低成本的计算环境实现极大的性能提升。

更高效的搜索策略

由于无限制德州扑克的规模与复杂性,蓝图策略必须是粗粒度的。在实际过程中,Pluribus 通过实时搜索改进蓝图策略,以针对特定情况确定更好、更细粒度的策略。

AI bot 经常在很多完美信息博弈中使用实时搜索,包括西洋双陆棋(two-ply search)、国际象棋(alpha-beta pruning search)、围棋(Monte Carlo tree search)。例如,当模型在决定下一步该走哪时,国际象棋 AI 通常会考虑以后的一些移动步骤,直到算法的前瞻到达叶节点或深度的上限。

然而,这些搜索方法并不适合不完美信息博弈,因为它们并不考虑对手转移到叶节点之外策略的能力。这个弱点令搜索算法产生了脆弱的、不平衡的策略,从而使对手快速发现这个错误。AI bot 在以前也就不能将博弈扩展到 6 个参与者。

相反,Pluribus 使用一种新方法,其中搜索器明确地考虑了不完美信息博弈的实际情况,即任何参与者都可以转移到子博弈外的叶节点策略上。具体而言,研究者并不假设所有参与者都需要根据叶节点之外的单个固定策略进行博弈,这会导致叶节点只有单个固定值。在搜索已经到叶节点时,研究者假设每一个参与者会从四个不同的策略中选择,进行剩余的博弈。

研究者在 Pluribus 中使用的四个延续策略分别是预计算的蓝图策略;在蓝图策略的基础上进行修改,以令策略偏置到弃牌;修改蓝图策略以令其偏置到叫牌;修改蓝图策略以令其偏置到加注。

这种技术可以令搜索器找都一种更均衡的策略,从而在整体性能表现得更好。因为选择不平衡的策略会使对手转向其它延续策略,从而产生惩罚。例如玩石头剪刀布,我只出石头,那么对手肯定能学习到只出布的策略。

正如研究者所指出的,搜索不完全信息博弈的另一个挑战是,参与者针对特定情况的最佳策略取决于对手对其玩法的看法。例如打德州扑克,如果一个参与者永远不会 bluff,那么它的对手总会知道应该在加大注的情况下弃牌。

为了应对这种情况,Pluribus 根据自身策略,在每一手时追踪当前状况的出现概率。不管它实际上在哪一手,Pluribus 首先都会预测每一手时将要采取的行动——从而小心翼翼地在所有手时平衡自身策略,令人类玩家无法预测其下一步行动。一旦计算这一涵盖所有手的平衡策略,Pluribus 随后就会为它实际所在的手执行一个操作。

比赛时,Pluribus 在两个 CPU 上运行。相比而言,在 2016 年和李世石的围棋比赛中,AlphaGo 使用了 1920 块 CPU 和 280 块 GPU。同时,Pluribus 使用了不多于 128GB 的内存。在对每一个子分支进行搜索的时候,根据现场的情况,它所用的时间介于 1 秒和 33 秒之间。Pluribus 的游戏时间比人类专业玩家快两倍:在六人游戏场景,和自身对弈的时候,它平均每手只需要 20 秒。

Pluribus 与人类玩家的对抗效果如何?

研究者令 Pluribus 与一组人类顶级扑克玩家对抗,从而评估它的实战效果。这些玩家包括「耶稣」Chris Ferguson(2000 年世界扑克系列赛主赛事冠军)、Greg Merson(2012 年世界扑克系列赛主赛事冠军)和 Darren Elias(四届世界扑克巡回赛冠军)。人类玩家的完整名单如下:Jimmy Chou、Seth Davies、Michael Gagliano、Anthony Gregg、Dong Kim、Jason Les、Linus Loeliger、Daniel McAulay、Nick Petrangelo、Sean Ruane、Trevor Savage 和 Jake Toole。

当 AI 系统在其他基准游戏中与人类对战时,机器有时在刚开始的时候表现非常好,但随着人类玩家发现它们的弱点,最终就会击败它们。如果 AI 想要彻底掌控一场游戏,它必须展示出这样一种能力,即使人类玩家能够逐渐适应它们的节奏,但它们也能取得胜利。过去几天,职业扑克玩家与 Pluribus 进行了数千场比赛,因而有足够的时间来找出它的弱点,并逐渐适应它。

Elias 说道:「Pluribus 是在与世界上最好的扑克玩家进行对抗啊。」

以下是实验中 Pluribus 与人类玩家对抗时的界面:

实验分为两种模式:其一,5 名人类玩家与 1 个 AI 进行对抗;其二,1 名人类玩家与 5 个 AI 副本进行对抗。因此,在每一种对抗模式下,共有 6 名玩家参与其中,并且每局开始的时候有 10000 筹码。小盲(small blind)50 筹码,大盲(big blind)100 筹码。

尽管扑克是一款技巧游戏,但其中也会有非常大的运气成分。如果运气不佳的话,顶级职业玩家也会在 10000 手的扑克比赛中输钱。为了弱化运气成分在扑克比赛中的作用,研究者使用了一种 AIVAT 方差缩减算法,该算法对各种状况的值进行基线估计,从而在保持样本无偏的同时缩减方差。举例而言,如果 Pluribus 得到一副强手牌,AIVAT 将从它赢得中减去基准值,从而对抗好运气。

5 名人类玩家+1 个 AI

在实验中,人类玩家和 AI 之间展开的 10000 手扑克比赛持续了 12 天,每天挑选 5 名人类玩家与 AI 进行比赛。这些玩家将根据自身表现瓜分 50000 美元的奖励,以激励他们发挥最佳水平。在采用 AIVAT 后,Pluribus 的胜率预计约为每 100 手 5 个大盲注(标准误差为 5 bb/100),这对顶级人类扑克玩家而言是巨大胜利(盈利 P 值为 0.021)。所以,如果每个筹码价值 1 美元,Pluribus 每手平均能赢 5 美元,每小时能赢 1000 美元。这一结果超过了纯职业玩家在与职业和业余混合玩家对抗时的胜率。

Ferguson 在比赛实验结束后说道:「Pluribus 真是太难对付了!我们很难在任何一手中盯死它。它不仅非常擅长进行薄的价值下注,而且擅长从好手牌中赢得最大价值。」

但值得注意的是,Pluribus 本意是成为 AI 研究的工具,研究者仅将扑克比赛作为一种方式,以衡量 AI 在不完全信息多智能体交互(与人类顶级能力相关)中的进展。

5 个 AI+1 个人类玩家

参与实验的有 Ferguson、Elias 和 Linus Loeliger。Loeliger 是很多人公认的六人无限德扑顶级玩家。每个人与五个 Pluribus AI 玩 5000 手扑克。Pluribus 并没有根据对手的情况调整策略,因此机器人之间的故意勾结不是问题。总的来说,人类每 100 手损失 2.3 bb。Elias 每 100 手损失 4.0 bb(标准误差为 2.2 bb/100),Ferguson 每 100 手损失 2.5bb(标准误差为 2.2 bb/100),Loeliger 每 100 手损失 0.5 bb(标准误差为 1.0 bb/100)。

这张图显示了 Pluribus 在 10000 手实验中对职业扑克玩家的平均胜率。直线表示实际结果,虚线表示一个标准差。

「这个 AI 最大的优势就是它使用混合策略的能力,」Elias 表示。「人类也想这么做。对人来说,这是一个执行的问题——以一种完全随机的方式持续去做。多数人类做不到这一点。」

由于 Pluribus 的策略完全是在没有任何人类数据的情况下通过 self-play 自己学到的,因此它也提供了一个外部视角,即在多人无限制德州扑克游戏中最好的玩法应该是什么样子。

Pluribus 证实了人类传统的聪明玩法——limping(叫大盲而不是加注或弃牌)对于任何除小盲之外的任何玩家来说都不是最佳策略,因为根据规则,小盲已经下了大盲的一半,因此小盲跟注只需再下一半。

尽管 Pluribus 最初在通过 self-play 离线计算蓝图策略时尝试 limping,但随着 self-play 的继续,它逐渐放弃了这一策略。

此外,Pluribus 并不认同 donk 是一种错误的观念(在前一轮投注结束时,开始新一轮加注);与专业人士相比,Pluribus 更喜欢这么做。

「和扑克 AI 比赛,看到它选的一些策略,真的非常过瘾,」Gagliano 表示。「有几场人类根本就没有发挥什么作用,尤其是它下注比较狠的那几场。」

这张图显示了在与顶尖玩家对战时 Pluribus 的筹码数量变化。直线表示实际结果,虚线表示一个标准差。

从扑克到其它不完美信息博弈的挑战

AI 以前曾经在完美信息零和博弈(两个参与者)中取得了多次引人注目的成功。但大多数真实世界策略交互都涉及隐信息,且并非两个参与者的零和博弈。Pluribus 的成功表明,目前还有更大规模的、极其复杂的多参与者场景,仔细构建的自我博弈和搜索算法能够在这些场景下获得很好的效果,尽管当前并没有很强的理论支持来保证这个效果。

Pluribus 也非同一般,因为与其它近期的 AI 系统相比,在基准博弈中,它的训练和推断成本都要低得多。尽管该领域的一些研究者担心未来的 AI 研究会被拥有大量计算资源的大型团队主导。但研究者相信 Pluribus 是一个强有力的证据,说明新方法只需要适当的计算资源,就能驱动顶尖的 AI 研究。

尽管 Pluribus 是为了玩扑克开发的,但其使用的技术并不是扑克所独有的,它也不需要任何专家领域的知识进行开发。该研究给我们提供了一个更好的基本理解,即如何构建一般的 AI 以应对多智能体环境,这种环境既包括其它 AI 智能体,也包括人类。同时,搭建一般的多智能体 AI,也能使研究人员将研究过程中取得的 AI 基准成绩与人类能力的尖峰做对比。

当然,在 Pluribus 中采取的方法可能并不会在所有多智能体设定上取得成功。在扑克中,参与方很难有机会与其它智能体沟通,这有可能构建非常简单的调和博弈(coordination game),因此 self-play 算法找不到一个好策略。

然而对于很多现实世界的交互,包括反欺诈、网络安全和内容审核等潜在都能通过 Pluribus 的方法建模。即建模为涉及隐藏信息的场景,并(或)通过多个智能体的有限交流来构建不同参与方间的联系。这项打德州扑克的技术甚至允许 Pluribus 帮助 AI 社区在不同领域中构建更高效的策略。

最后,在过去的 16 年中,Tuomas Sandholm 和 CMU 团队都在研究策略推理技术。Pluribus 构建并融合了策略推理的大部分技术与代码,但它同样也包含了扑克的专门代码,这些代码 CMU 和 Facebook 合作完成,且并不会用于国防应用。

quickjs

QuickJS 是一个可嵌入的小巧 Javascript 引擎。它支持 ES2019 规范,包括模块、异步生成器和代理。它还支持数学扩展,比如大整数(BigInt)、大浮点数(BigFloat)和操作符重载。

QuickJS 的主要特性:

0、小巧可嵌入:仅几个 C 文件,没有外部依赖,简单的 Hello World 程序需要 190 KiB 的 x86 代码。;

1、启动时间非常短的快速解释器:在单核的桌面 PC 上,运行ECMAScript 测试套件的 56000 个测试大约在 100 秒内。运行时实例的完整生命周期在不到 300 微秒内。

2、几乎完整支持 ES2019 ,包括模块、异步生成器和完整的附录B支持(遗留web兼容性)。

3、100% 通过 ECMAScript 测试套件。

4、可以把 Javascript 源代码编译到可执行文件,没有外部依赖。

5、垃圾回收使用引用计数(减少内存使用并具有确定性行为)和循环删除。

6、数学扩展:BigInt、BigFloat、操作符重载、bigint模式、数学模式。

7、命令行解释器,用 Javascript 实现上下文着色。

8、有一个小型的 C 内置标准库。

QuickJS 遵循 MIT 许可。围观链接:https://bellard.org/quickjs/

Fabrice Bellard 是什么样的大佬?

他是法国人,1972 年出生,著名的计算机程序员,因 FFmpeg、QEMU 等项目而闻名业内。精通 C 和 JavaScript。在读高中时,就开发了著名的可执行压缩程序 LZEXE,这是当年 DOS 上第一个广泛使用的文件压缩程序。

在 2000 年,他开发了 FFmpeg

在 2011 年,他使用 JavaScript 写了一个 PC 虚拟机 Jslinux,可以在浏览器中直接运行 Linux 或 Windows 操作系统。

网友评论说:这家伙就是个奇才。你也可以感谢他的 ffmpeg 和 qemu。我曾经工作过的一家公司试图聘请他做顾问,因为他在软件中实现了 LTE BTS。还有什么是他没法做的吗?

kgm转mp3

kgm格式是酷狗音乐专用的音频格式,是对mp3格式的一种加密封装,只要开通酷狗会员就可以下载到kgm音乐。通常一般的MP3/MP4播放器,车载,HiFi设备等都不能播放kgm格式,下面介绍一个简单有效的办法,能够让转换kgm格式成为mp3格式

转换工具:《Kgm Pro 音乐转换器

可以看下这个gif,使用很方便,转换速度也很快

官网地址:https://www.yinyuezhushou.com/kgm/download

0755-83765566

腾讯这个客服电话0755-83765566,这里根本没有人工客服,不要再试了,这种服务体验真的很差。

引发的思考:腾讯用户量实在是巨大,所以每天客服量也会是一个非常大的数字,如果很容易的找到人工客服,对客服的人力消耗应该也是非常巨大的,不设置人工客服应该是体验对成本的让步。毕竟是垄断,我觉得腾讯公司应该没有动力在这方面尝试优化了。

关于赛博朋克

赛博朋克(英语:Cyberpunk,又译作“电驭叛客”)是“控制论”(Cybernetics)与“朋克”(Punk)的结合词,为科幻故事的分支之一。其背景大都建立于“高等科技与低端生活的结合”(combination of lowlife and high tech),通常拥有先进的科学技术,再以一定程度崩坏的社会结构做对比;其情节经常关于,社会秩序受到政府或财团或暗中势力的高度控制,而角色利用其中的漏洞做出了某种突破。

赛博朋克风格和主题有一部经典电影《银翼杀手