第579章 护航
快影上面那些东西的成功并不是一蹴而就的,后面还有很多人在努力。我们再把时间倒回九月。“大国重器”第一期讲航母那天晚上,黄河AI实验室的值班系统就弹出了一条预警。预警不是人发的,是算法自己跑的。实验室里有一套叫“观澜”的系统,专门用来监测互联网上的信息变化——不是看流量,是看内容的走向和关联。这套系统是何耀宗让老谭带着团队花了两年搭起来的,原本是用来分析竞争对手的动态,后来发现用来监测舆情也挺好使。那天晚上,“观澜”抓到了一个异常:某度百科上“16号舰”词条的历史版本,在节目播出后四十分钟内被修改了三次。修改的内容不是什么技术细节,而是把“中国第一艘航母”改成了“中国第一艘改装航母”,又在后面加了一句“前身是苏联海军的瓦良格号”。这句话本身没错,但放在那个时间点,味道不对。AI实验室的值班工程师姓孙,三十出头,清华计算机系毕业,在黄河干了五年。他看到这条预警的时候没太当回事,觉得可能就是哪个较真的网友在较劲。他把这个异常标注了“低风险”,关了窗口继续盯别的。但“观澜”没停。接下来的三天,它又抓到了十几个类似的异常。某度百科上“歼-20”的词条被改了五次,有人反复把“隐身战斗机”改成“低可探测性战斗机”,又在后面加了一句“与F-35相比仍有差距”。搜狗百科上“光刻机”的词条被人加了一段,说华高科的光刻机“技术来源存疑”,“核心部件依赖进口”。甚至连快影自己的百科词条都被动了,有人在“主要业务”那一栏加了一句“以民族主义内容吸引流量”。孙工这回觉得不对劲了。他把这些异常整理成一份报告,发给了老谭。老谭看完报告,在办公室里坐了一会儿。他不是技术出身,但跟何耀宗干了这么多年,对这些东西的敏感性还是有的。这些修改,单独看每一条都说得通。16号舰确实是改装来的,目前歼-20外显的数据确实跟F-35有差距,华高科的光刻机早期也确实用过进口部件。但把它们放在一起看,就有一条清晰的线:有人在系统性地弱化“大国重器”系列节目里提到的一切成就。他拿起电话,拨了何耀宗的号码。“何总,有个事得跟您说一下。”何耀宗听完,让老谭把报告发到他邮箱。他看了半小时,然后给孙工打了一个电话。“观澜系统能不能追踪这些修改是谁干的?”孙工说能,但需要时间。“百科类平台的修改记录是公开的,但只能看到用户名,看不到IP。我们可以通过编辑时间和编辑习惯做行为聚类,把同一个人的不同马甲串起来。这个需要跑几天数据。”“跑,跑出来告诉我。”三天后,孙工把结果发过来了。那些修改“16号舰”“歼-20”“光刻机”词条的用户名,虽然看起来五花八门————有的叫“历史爱好者1984”,有的叫“技术中立派”,有的叫“实事求是的人”——但行为聚类结果显示,这些账号的编辑时间集中在工作日的上午十点到下午四点,周末几乎不动。而且它们修改的词条有一个共同特征:全部是“大国重器”节目提到过的内容。“这不是普通网友。”孙工在报告最后写了一句,“这是有人在上班时间专门干这个。”何耀宗把报告打印出来,装进公文包里,开车去了九十五号院。何雨柱在书房里看报告。他翻得慢,每一页都看得很仔细。看完之后没说话,把报告放在桌上,靠在椅背上想了一会儿。“这个‘观澜”系统,能监测到别的平台吗?”何耀宗道:“能监测,原理都一样。只要平台开放词条编辑或者内容发布,就能抓取历史版本做比对。但有些平台不开放历史版本,比如某书和某呼,用户发了文章之后自己可以修改,但外人看不到修改记录。这种我们抓不到。“那你怎么知道他们有没有被投喂?”“看结果。如果同一段时间内,多个平台同时出现大量内容,主题一致、论点一致,措辞相似,那大概率是有组织的。观澜已经在跑了,目前看下来,某书和某呼上确实出现了一批文章,主题就是质疑‘大国重器'里提到的那些技术成就是不是真有那么厉害。”何雨柱问:“什么样的文章?”何耀宗从包里又掏出一份报告,翻到其中一页。“这篇是发在某呼上的,标题叫《华高科光刻机的真实水平》。文章说华高科的第四代光刻机‘不过是ASmL五年前的水平,说‘核心部件仍然依赖进口,说‘量产良率远低于对外宣传的数据。每一条都似是而非,外行看了会信,内行看了知道是在胡说。但普通人分不清。“发文章的人查了吗?”“查了。用户名是‘芯片行业观察”,注册时间是今年三月,一共发了十七篇文章,全部是质疑国内半导体产业进展的。我们查了这个账号在其他平台的活动轨迹,发现它同时在某乎、微博、今日头条上发内容,而且在不同平台上的措辞几乎一模一样。这不像个人行为,像是有统一供稿来源。”何雨柱拿起那份报告又看了一遍,然后放下。“你觉得这是谁干的?”何耀宗想了想道:“不一定是北美那边直接出手。可能是他们资助的某个机构,也可能是国内那些靠反流量吃饭的人。但不管是谁,目的是一样的——把水搅浑。我们讲一个东西是真的,他们就说是假的。我们讲一个东西是领先的,他们就说是吹牛的。来回拉扯,把观众搞糊涂了,就不信了。”何雨柱点点头。“你打算怎么办?”何耀宗说:“技术上我们能做的有限。百科类平台我们可以自己去改回来,但改完他们又会改回去,拉锯战打不完。某书某呼上的文章,我们没法直接删,那是人家的地盘。我想找老周,让相关部门出面协调。”何雨柱摇摇头。“直接找老周,他肯定愿意帮忙。但你得想清楚,这不是一次两次的事。你今天让相关部门协调改几篇,明天他们又发十篇。你能每次都去找老周?”何耀宗没说话。何雨柱站起来,走到窗前。“这事分三步走。第一步,技术层面,你们那个观澜系统继续跑,把证据攒够了。谁在改,什么时候改的,改了什么东西,一条一条记录清楚。将来要用的时候,拿出来就是铁证。第二步,你去找那几个平台的人,不是找老周去压,是你自己去谈。你告诉他们,有人在利用他们的平台搞事,把证据给他们看。他们要是聪明,自己会处理。他们不处理,你再去想别的办法。第三步,你自己建一个知识库。百科类的东西,别人不让你改,你就自己建一个。黄河科技不是有技术吗?搭一个知识平台,把那些被篡改的词条用原始版本和修改版本对照着放出来,让用户自己看。你改你的,我放我的。谁在说实话,谁在搞鬼,用户看得出来。何耀宗愣了一下。“自己建百科?那投入不小。”“不小也得建。别人掌握着定义权,你就永远被动。他们说什么是什么,你永远在解释。你自己建一个,把定义权拿回来。”何耀宗想了想,点了点头道:“回去我就安排。”何雨柱又说了一句:“还有,你那个观澜系统,别光盯着中文。英文的、日文的、德文的,都要盯。那些人在中文平台上搞事,在英文平台上也不会闲着。维基百科上那些词条,你看看被改成了什么样。”何耀宗说好。何耀宗回到公司,第一件事是把孙工叫了过来。“观澜系统要扩。不光是中文,英文、日文、德文,能覆盖的都覆盖。维基百科是重点,那边的词条被改成什么样,我要知道。”孙工问:“预算呢?”“没有预算上限。你需要多少人、多少服务器,我给你批。但有一条——数据要准。你报上来的每一条修改,都要能追溯到具体的时间和账号。”孙工点点头,转身出去了。第二件事是联系那几个平台。何耀宗让助理约了某度百科、搜狗百科、某呼、某书四家平台的负责人,说要“交流一下内容生态治理的经验”。对方都很客气,答应得也痛快,但见面时间排到了一周以后。何耀宗没等。他把观澜系统跑出来的数据整理成一份简报,让人给四家平台各送了一份。简报没提任何要求,就是把那些被篡改的词条、被投喂的文章、修改时间、账号行为聚类结果,一条一条列了出来。最后附了一句话:“贵平台的内容生态可能正在被有组织地污染,供参考。”当天下午,某度百科的人就回了电话。对方很客气,说感谢黄河AI实验室提供的数据,他们已经核实了部分词条的修改记录,对违规账号进行了封禁处理,并表示愿意与黄河建立长期的内容合作机制。搜狗百科和某书的反应也差不多。唯独某呼,沉寂了两天,然后一个产品总监打来电话,说“我们有自己的内容审核机制,不劳黄河操心”。何耀宗没跟他争,说了一声“好的”,挂了电话。第三件事是建自己的知识平台。这个活儿他交给了老谭。老谭听完之后,说了一句:“何总,这事儿不小。百科类产品看着简单,背后是一整套内容生产、审核、更新、争议解决机制。光搭个架子不难,难的是内容从哪来。你不能自己写吧?写不过来的。”何耀宗说:“内容从两个地方来。第一,黄河旗下所有公司的技术资料、产品数据、专利信息,全部入库。这些都是我们自己的一手数据,别人没法反驳。第二,跟‘大国重器’节目联动。每一期节目播出之后,相关的技术词条同步更新,把节目里讲的内容用文字形式沉淀下来。节目讲的是故事,百科讲的是事实。故事和事实互相印证,观众就更信了。”老谭又问:“争议怎么办?有人上来改你的词条,或者在你下面留言骂你。”何耀宗说:“争议是好事。有人来改,说明他关注。但我们不搞开放式编辑,内容由我们自己的团队维护。用户在下面可以留言,可以提意见,可以质疑,但我们不改。我们有异议处理机制,用户提交的每一条异议都要经过核实。核实属实的,我们改。核实不属实的,我们不理。把审核流程公开,让用户看到每一条修改背后的依据是什么。”老谭说行,回去就搭团队。何雨柱在书房里接到了老周的电话。老周没绕弯子。“何老,有人在网上搞事,你知道了吧?”何雨柱说知道了。“我们也在盯。那几个百科类平台的事,我们已经跟网信办沟通了,他们会出面对平台进行约谈。某呼那边态度不太配合,但问题不大,他们有上级主管部门。何雨柱说:“不用太急。让他们蹦,蹦得越高越好。”老周说:“还有一件事。维基百科那边,有人在大量修改与中国相关的技术词条。修改的方向很一致————凡是‘大国重器’节目里提过的内容,都被弱化或者质疑。我们的人查了一下,修改账号的IP分布在全球十几个国家,但行为模式高度相似。不像是散兵游勇,像是有组织的。’何雨柱问:“能查出来是谁在组织吗?”老周说:“查不出来。那些IP用了VPN,源头不好追。但有一点——这些账号的活跃时间,跟北美东海岸的工作时间高度重合。早上八点到下午六点,周末休息。这个时间规律,不像是业余爱好者的行为。”何雨柱沉默了两秒。“把证据攒好。后面用。”老周说好。九月下旬,“大国重器”第二期上线那天晚上,观澜系统又弹出了一堆预警。这次不是百科词条,是某呼上的一篇文章。文章标题叫《99A坦克真的世界领先吗?》,作者是个新注册的账号,名字叫“装甲兵观察”。文章用了一大堆似是而非的数据,试图证明99A的火控系统、装甲材料、动力系统都“与西方主流坦克有代差”。文章发出来之后,被某呼推上了首页。评论区里吵成一片,有人说“说得对,别吹了”,有人说“作者你懂个屁”。孙工把文章链接发给何耀宗。何耀宗看完,让观澜系统跑了这篇文章的作者行为轨迹。结果显示,这个“装甲兵观察”的账号,跟之前修改百科词条的那批账号在编辑时间上高度重合——都是工作日白天活动,周末休息。何耀宗把这条信息转给了老周。老周回了一句:“知道了。”第二天,那篇文章被某呼删了。但删之前,已经被转到了好几个平台,包括微博和朋友圈。何耀宗让老谭加快知识平台的建设进度。老谭说团队已经搭起来了,二十几个人,分内容组、技术组、审核组三个方向。内容组正在整理黄河旗下各公司的技术资料,技术组在搭平台架构,审核组在设计异议处理流程。“一个月内,第一版能上线。”老谭说。何耀宗说:“太慢。三周。”老谭咬了咬牙:“行,三周。”十月初,第三期“大国重器”播出前后,投喂的数据开始变本加厉了。某呼上出现了一篇长文,标题叫《歼-20的真实性能:被夸大的隐身与被低估的差距》。文章写得很“专业”,用了大量术语、图表、数据对比,看起来像是业内人士写的。文章的核心论点是:歼-20的隐身设计“抄袭了F-22”,发动机“落后美军两代”,雷达“不过是F-35的水平”。这篇文章被某呼推上了热榜第一。评论区里,有人叫好,有人骂街,吵得不可开交。观澜系统抓到了这篇文章之后,孙工跑了一遍作者的行为轨迹。结果跟之前一样————工作日白天活动,周末休息。但这个账号比之前的更隐蔽,它在某呼上只发了这一篇文章,注册时间是三个月前,注册之后什么都没干,就等着这一天。孙工把结果报给何耀宗。何耀宗看完,给某呼的那个产品总监发了一条微信,把那篇文章的链接和作者行为轨迹截图发了过去,附了一句话:“有人在利用贵平台传播不实信息,供参考。”对方回了四个字:“已转相关同事。”文章没删。三天后,它从热榜上掉了下来,但还在。何耀宗没再催。他知道,某呼有自己的逻辑。十月中旬,黄河知识平台上线了。名字叫“知源”,取的是“知识有源”的意思。平台的界面做得很干净,白底黑字,左边是词条目录,右边是正文。每一条词条下面都有两个版块:一个是“原始版本”,一个是“修改记录”。原始版本是黄河自己的团队维护的,每一条内容都附了来源——专利号、论文链接,官方数据来源、第三方检测报告。修改记录里放的是观澜系统抓到的那些被篡改的版本,跟原始版本并排放在一起,用户可以自己对照着看。“知源”上线的第一天,放上去的第一批词条就是“大国重器”节目里提到过的那些:16号舰,歼-20、99A坦克、光刻机、盾构机、超高压输电。每一条都写得极其扎实,每一个数据都有来源。顾念禾在快影上给“知源”做了一个推广视频。视频里没说什么大话,就是把“知源”的界面截了几张图,说:“有人在网上改百科词条,把真的改成假的。我们自己做了一个知识平台,把真的放在这儿。你们自己看,自己判断。”视频发出去之后,播放量两小时破了两千万。评论区里有人说“这才是该有的东西”,有人说“我看了一下,内容确实扎实”,有人说“那些乱改词条的人脸疼不疼”。何耀宗在后台盯着数据。“知源”上线第一天,独立访问用户破了五百万。大部分流量来自快影的导流,但也有不少是用户自己搜过来的。十月底,老周来了一趟九十五号院。“何老,维基百科那边的事,我们跟进了。查出来一批账号,IP源头在北美和欧洲。我们通过外交渠道跟维基媒体基金会做了沟通,对方表示会‘关注’。但实际效果不大,那些账号还在活动。”何雨柱说:“维基百科的事不急。我们自己有知源了,慢慢来。”老周又说:“某呼那边,我们约谈了他们的负责人。他们的态度比之前好了一些,答应加强内容审核。但那个平台的基因就是这样,喜欢搞争议内容。你让他把有争议的东西全删了,他就不叫某呼了。”何雨柱说:“某呼不用管。他们愿意搞争议,就让他们搞。但有一条——如果他们平台上的内容涉及违法,比如造谣、诽谤、侵犯名誉权,该告就告。黄河的法务团队不是吃素的。”老周笑了笑。“行,这个你们自己来。”十一月,“西洋镜”系列上线了。这一次,投喂的数据更离谱了。“西洋镜”第一集讲古希腊史,播出之后第二天,某呼上就出现了一篇文章,标题叫《古希腊文明的真实性:为什么中国网友的质疑是反智的》。文章写得很有“学术范”,引了一堆西方学者的名字,说了一大堆“共识”“主流学界”“学术规范”之类的话,核心论点是:质疑古希腊文明真实性的人,都是“民科”和“反智主义者”。这篇文章的评论区里,有人贴出了穆勒在欧洲查到的那些档案截图——大英博物馆修改入藏记录的证据、卢浮宫武力夺取文物的证据。贴截图的人说:“你们说别人反智,那你们解释一下这些东西呗。”文章作者没回复。但第二天,那篇文章被修改了,加了一段话:“个别文物来源问题不能否定整个古希腊文明的价值。”观澜系统把这次修改也抓了下来。何耀宗看了之后,跟老谭说了一句:“他们急了。”老谭说:“急了就好。急了就容易出错。”十一月下旬,某呼上又出了一篇文章。这次不是质疑“西洋镜”,是直接攻击“知源”平台。文章标题叫《黄河的“知识平台”:是知识还是宣传?》。作者是个实名认证用户,头衔写着“某大学副教授”。文章说“知源”平台上的内容“选择性地呈现事实”,说“把百科词条改成对自己有利的版本是反互联网精神的”,说“黄河在搞信息茧房”。这篇文章被某呼推上了热榜前三。何耀宗看了之后,让法务团队准备了一份律师函。不是因为文章批评“知源”,而是因为文章里有一句话——“黄河通过旗下快影平台和知源平台,系统性操纵公众认知”。这句话涉嫌诽谤。律师函发出去之后,那篇文章被某呼删了。那个副教授后来在自己的微博上发了一条道歉声明,说“文章部分表述不够严谨”。何耀宗没再追究。十二月,何雨柱在书房里看了一份“知源”的运营报告。上线一个半月,独立访问用户累计三千七百万,词条数量从第一批的二十几个扩展到了三百多个,涵盖了黄河旗下所有公司的技术领域,以及“大国重器”和“西洋镜”节目提到的大部分内容。用户提交的异议有两千多条,经核实属实的有一百多条,已经全部修正。核实不属实的,在词条下面加了“用户异议”版块,把用户的质疑和平台的回复一起放出来。报告最后附了一句话:“知源正在成为中文互联网上技术类词条最可靠的来源之一。”何雨柱把报告放下,给何耀宗打了一个电话。“知源做得不错。但别光做技术类。历史、文化、艺术,这些领域也要做。念禾那边有手稿,有档案、有证据,你跟她对接,把那些东西也放上去。有人在网上改百科词条,把敦煌经卷的数量少,把流失文物的价值贬低,把西方博物馆的掠夺美化成‘收购’。你把这些证据放上去,一条一条对应着放。让他们改,改一次你记录一次,把记录放在知源上。谁在说实话,谁在搞鬼,用户看得出来。”何耀宗说好。何雨柱又说了一句:“观澜系统别停。那些人不会收手的。你这边越做越大,他们那边越急。急了就出昏招。出昏招就露马脚。露马脚就挨打。”何耀宗说:“明白。”当天晚上,何耀宗给顾念禾打了一个电话,让她派人来对接“知源”的内容建设。顾念禾说:“耀宗舅,我有个想法。‘西洋镜’系列第三集讲两河流域的时候,方博士提到了一件事——伊拉克国家档案馆里有一份奥斯曼帝国的许可证,上面写的是‘允许伍利先生进行考古调查,所获文物归帝国博物馆所有。这份许可证的原文和翻译,能不能放到知源上?”何耀宗说:“能。不但要放,还要做成一个专题。把伯希和的日记、斯坦因的日记、法国外交部的报告、英国军部的备忘录,所有能证明文物来路不正的证据,全部做成专题放上去。每一个证据都附原件照片,翻译文本、档案来源。让用户自己看,自己判断。”顾念禾说好。十二月中旬,知源上线了一个新板块,叫“流失文物证据档案”。第一批放上去的是敦煌经卷的证据——斯坦因的日记摘录、大英博物馆的内部备忘录,伯希和日记里关于“挑选”藏经洞文物的记录、法国外交部关于“购得”敦煌文物的拨款文件。每一条证据都有原件照片,中文翻译、档案来源链接。这个板块上线之后,快影上有人做了一期短视频,把知源上的证据一条一条念了出来。视频的最后,念的人说了一句:“这些东西,不是我们编的。是英国人自己写的、法国人自己写的。我们只是把它翻出来,放在这儿。你们自己看。”视频播放量破了三千万。评论区里有人说“这才是真正的证据”,有人说“大英博物馆还有什么话说”,有人说“知源这个平台太狠了”。当天晚上,大英博物馆的官网悄悄更新了“藏品来源研究项目”的页面,加了一句话:“敦煌文物的来源审查正在进行中,预计2021年完成。”顾念禾截图发给何雨柱。何雨柱看了,说了一句:“2021年?拖字诀。不急,让他们拖。证据在我们手里,时间在我们这边。”十二月下旬,何耀宗在公司开了一个会。参会的是老谭、孙工,还有“知源”团队的主要负责人。何耀宗说:“知源上线两个月,数据不错。但有一个问题——现在的用户主要来自快影导流,自然搜索占比还不到百分之三十。这意味着大部分用户还是靠快影才知道知源,而不是主动来找的。下一步的目标,是把自然搜索占比提到百分之五十以上。”老谭问:“怎么提?”何耀宗说:“SEo优化搜索引擎排名,让用户在某度、搜狗上搜一个技术词条的时候,知源的结果能排在前三。这个需要时间,但可以做。另外,跟学校合作。大学、中学的老师,如果愿意在课堂上推荐知源,我们就给他们开专门的教师账号,可以批量下载词条内容用于教学。”孙工说:“技术上好实现。但内容上,我们需要更多的词条。现在三百多个,远远不够。用户搜一个东西,如果知源上没有,他就去别的地方了。”何耀宗说:“内容的事,我已经跟念禾说了。她的手稿库里有大量历史、文化、艺术类的一手资料,可以做成词条。黄河旗下所有公司的技术资料也在整理中。明年年底之前,词条数量要做到三千以上。”散会之后,何耀宗回到办公室,给何雨柱打了一个电话。“爸,知源的事在推进。明年年底之前,词条数量做到三千以上。观澜系统也在跑,最近一个月抓到的异常修改比上个月少了百分之三十。不是他们收手了,是百科类平台开始主动封禁了。上次给某度送的那批数据,他们封了一百多个账号。”何雨柱说:“少了好。但别放松。他们会换马甲、换平台、换手法。你这边要盯紧了。”何耀宗挂了电话,他站在窗前看着深圳的夜景。远处是科技园那些亮着灯的写字楼,近处是快影的logo,在夜空中一闪一闪的。他想起父亲那句话,谁在说实话,谁在搞鬼,用户看得出来。这句话说得对,但不全对。用户看得出来,前提是用户能看到真相。如果真相被埋在一堆假话下面,用户翻都翻不到,那看得出来也没用。知源要做的,不是跟那些人吵架,是把真相放在那儿,让想找的人能找到。他在窗前站了一会儿,转身回到办公桌前,打开电脑,开始看知源后台的数据。十二月二十八号,BJ。老周进了何雨柱书房也不寒暄了,开门见山道。“何老,有个事想跟您商量。何雨柱在他对面坐下,等着他说。“你们那个观澜系统,我们看了。好使。我们那边现在用的还是人工筛查加关键字匹配,效率太低。这次百科词条被改的事,我们的人发现的时候,已经改了好几天了。你们那边是当天就抓到了。何雨柱没接话。老周继续道:“不光是这次。去年开始,网上那些乱七八糟的东西越来越多,光靠人眼看,看不过来。我们也想过上系统,但自己搞,一是慢,二是不知道做成什么样。你们这个观澜跑了一年多了,效果摆在那儿。上面几个部门商量了一下,想问问能不能给我们也升级一下。”“你们现在用的是哪套?”老周道:“就是你们二零零三年给做的那套。后来升级过几次,最近一次是一五年。但那个底子是信息采集和关键字匹配的架构,对付现在这些玩法不太够。你们观澜用的是行为聚类和语义分析,我们那套没有这个能力。”何雨柱想了想。“零三年那套,当时给你们做的时候,是黄河计算中心刚起步。现在技术迭代了好几轮,要升级的话,不是换个软件的事,底层的算法模型、数据架构都得换。“知道。所以我们不是来要现成的,是想跟你们合作。我们出需求,出数据,出场景,你们出技术、出人、出算力。一起搞。钱的事,上面批了专项预算,按市场价走。”何雨柱看了他一眼。“你们那几个部门,都用的是同一套?”老周道:“不完全一样。有的偏信息采集,有的偏舆情分析,有的偏溯源追踪。但底子都是零三年那套。这次想统一升级,做一个大的平台,把几个部门的需求都装进去。”何雨柱靠在椅背上想了想。“这事不小。我得让耀宗那边评估一下,看多长时间能做完。”“您给个大概就行,不急这几天。明年开春能启动,年底之前能上线,我们就满意了。”何雨柱点了点头。“行,我让耀宗跟你们对接。”老周站起来,走到门口又回头。“何老,还有一件事。你们那个观澜系统,这次抓百科词条修改的事,抓得很准。但你们有没有想过,如果对方不在公开平台上改,而是在后台直接改数据库呢?”何雨柱看着他。“我们查了一下,那几个百科平台,有的开放了API接口,允许第三方工具批量编辑词条。如果对方不走网页端,直接调接口改,你们的观澜还能抓到吗?”何雨柱没回答这个问题。他站起来,送老周到门口。“这个我让耀宗他们研究。”老周走了之后,何雨柱在客厅里站了一会儿。小满从厨房出来,看见他站在那儿没动,问了一句:“老周走了?”“走了。”“饭好了,吃吧。何雨柱嗯了一声,转身往饭厅走。走了两步又停下来,拿起电话拨了何耀宗的号码。深圳那边是晚上,何耀宗接得很快。“耀宗,老周刚才来了。他们想升级监控平台,用咱们的技术。另外他问了一个事——如果对方不在网页端改,直接调百科平台的API接口改词条,观澜能不能抓到?”何耀宗沉默了两秒。“能。但得改一下抓取策略。现在观澜主要是抓网页端的历史版本对比,API接口的修改记录我们没怎么关注。技术上能做到,需要加几个接口。”“加。”“行。另外,爸,老周说的那个升级的事,他们以前那套系统是我们做的,底子我们熟。升级的话,核心是换算法模型和数据库架构。工作量不小,但能做。我让老谭跟他们对需求,年前出个方案。”“别光做他们那套。观澜自己也要升级。这次百科词条的事,说明有人在系统性地搞。他们不会收手,只会换手法。你的系统要比他们快一步。”何耀宗说好。十二月二十九号,何耀宗在公司开了一个会。参会的是老谭、孙工,还有几个技术骨干。何耀宗把老周那边的事说了一遍。“两件事。第一,观澜自己要升级,加强对API接口修改的监控。第二,给老周他们做一套新的,用观澜的技术底子,但要根据他们的需求定制。”孙工先开口道:“API接口那块,技术上不复杂。百科平台大部分都开放了编辑接口,我们只要去读他们的修改日志就行。关键是有些平台的修改日志不对外公开,只对合作方开放。这个需要老周那边出面去谈。”何耀宗道:“老周会协调。你先把技术方案做出来。”孙工点头。老谭问:“给老周他们做的那套,规模多大?”何耀宗道:“他们没说具体,但肯定是千万级以上的数据量。几个部门合用一个平台,每天要处理的内容至少是观澜现在的十倍。算力方面,可以用贵州和云南的算力中心,那边还有富余。数据存储要重新设计,观澜现在的架构撑不住这个量。”老谭在本子上记了几笔。何耀宗又道:“还有一件事。老周他们那套系统,不能直接照搬观澜。观澜是我们自己用的,监控的目标是公开信息。他们那边有很多内部数据源,涉密的、不公开的,接入方式和安全级别都不一样。你要跟他们的人详细对需求,把数据安全这块放在第一位。”老谭说好。十二月三十号,老谭带着孙工去了老周那边。对方派了一个处长对接,姓吴,四十出头,搞了二十年信息化。吴处长把他们带到一间会议室,桌上摊着一摞需求文档。老谭翻了翻,比他预想的厚。“吴处,这些需求都要做?”吴处长笑了笑。“不急,分批做。先做最核心的——全网信息采集、行为聚类、溯源追踪。这三个功能现在最缺。其他的可以往后排。”孙工在旁边问了一句:“数据源方面,你们能提供哪些?”吴处长从抽屉里拿出一张清单,递过去。孙工看了一眼,上面列了几十个数据源,有公开的,有半公开的,还有几个标注了“内部”的。“这些内部数据源,接口能开放吗?”孙工问。“能。但要走安全审计流程。每一笔数据调用都要有记录,定期报备。”孙工点点头,把清单收好。老谭道:“吴处,年前我们先出个技术方案,春节后启动。如果顺利的话,年底之前能上线。”吴处长道:“行。有什么需要我们配合的,随时说。”十二月三十一号,下午。何雨柱在书房里看何耀宗发来的观澜升级方案。方案不长,几页纸,核心是两条:一是增加对API接口的监控,二是优化行为聚类算法,把误报率降下来。他把方案看完,放在桌上。窗外天已经暗了,院子里亮起了灯。远处有零星的鞭炮声,断断续续的。何耀宗发来一条微信:“爸,观澜升级方案您看了吗?”何雨柱回了一条:“看了。让他们做。别拖到年后,年前就启动。”何耀宗回了个“好”。何雨柱把手机放下,站起来走到窗前。院子里那棵树光秃秃的,路灯照在枝丫上,影子落在雪地上,细细碎碎的。小满从厨房出来,站在客厅门口。“老周那边的事谈完了?”“谈完了。年后启动。”“那过年的事呢?今年怎么安排?”何雨柱转过身。“老规矩。初一都过来。”小满点了点头,转身回厨房了。何雨柱站在窗前又看了一会儿。远处又响了一挂鞭炮,噼里啪啦的,在冷空气里炸开,声音传过来的时候已经闷了。他想起老周问的那个问题——如果对方在后台直接改数据库,观澜还能不能抓到。能。改一下抓取策略就行。但老周没问的那个问题才是关键——如果对方不修改现有的词条,而是直接删除,然后重新建一个呢?删除操作有没有日志?日志保不保留?保留多久?谁有权访问?这些不是技术问题,是平台治理的问题。技术能解决的,有限。他转过身,走回书桌前,拿起笔在观澜升级方案的最后加了一行字:“增加对词条删除和重建行为的监控。不仅要看改了什么,还要看删了什么,新建了什么。”写完之后,他把方案拍了一张照片,发给何耀宗。何耀宗秒回:“收到。加上。”