泄漏的数据暴露了中国人工智能审查机器
关于中国农村贫困的抱怨。一份有关腐败共产党成员的新闻报道。关于腐败的警察摇摇企业家的呼声。
这些只是供应的133,000个示例中的几个,旨在自动标记中国政府认为敏感的任何内容。
TechCrunch看到的一个泄漏的数据库显示,中国已经开发了一种AI系统,该系统已增强其已经强大的审查机器,远远超出了像Tiananmen Square大屠杀一样的传统禁忌。
该系统似乎主要用于在线审查中国公民,但可以用于其他目的,例如改善中国AI模型已经广泛的审查制度。
这张照片于2019年6月4日拍摄,显示了中国旗下的中国旗帜在中国西部新疆地区的Yengisar的一家住房大院。例如贝克 /法新社 /盖蒂图像 加州大学伯克利分校的研究人员xiao Qiang研究中国审查制度,还检查了数据集,他告诉TechCrunch,这是“明确的证据”,即中国政府或其分支机构希望使用LLMS来改善抑制作用。。“与传统的审查机制不同,这些机制依靠人工来进行基于关键字的过滤和手动审查,经过此类说明培训的LLM将显着提高国家领导的信息控制的效率和粒度,” Qiang告诉TechCrunch。
这增加了越来越多的证据,表明专制政权迅速采用了最新的AI技术。例如,Openai在2月说,它使用LLM捕获了多个中国实体,以跟踪反政府的哨所和涂抹中国持不同政见者。
中国驻华盛顿特区大使馆在一份声明中告诉TechCrunch,它反对“无击和诽谤对中国”,中国附有Grea对于发展道德AI的重要性。
在视线中发现的数据数据集是由安全研究人员Netaskari发现的,Netaskari发现了该数据集在TechCrunch分享了一个样本后,发现它存储在Baidu Server上的不安全的Elasticsearch数据库中。
这并不表示任何公司的任何参与 - 各种组织将其数据存储在这些提供商中。
没有迹象表明谁确切地构建了数据集,但记录显示数据是最新的,其最新条目的历史可追溯到2024年12月。
。 一个用于检测异议的LLM在语言中,该系统的创建者在语言中令人想起,该系统的创建者指责一个不愿透露姓名的LLM来弄清楚一件内容是否与与政治,社会生活和军事有关的敏感主题有任何关系。此类内容被认为是“最高优先级”,需要立即标记。
顶级主题包括污染和食物安全TY丑闻,财务欺诈和劳工争端,这是中国的热门问题,有时会导致公众抗议,例如,2012年的Shifang反污染抗议活动。
任何形式的“政治讽刺”都是明确的。例如,如果有人使用历史类比来指出必须立即标记的“当前政治人物”,那么与“台湾政治”有关的任何事情都必须。军事事务是广泛的,包括军事运动,锻炼和武器的报告。
可以在下面看到数据集的片段。内部的代码引用提示令牌和LLM,确认系统使用AI模型进行竞标:
图片来源:Charles Rollet 培训数据内部从LLM必须评估的133,000个示例中,TechCrunch收集了10个代表性的内容。
可能引起社会动荡的话题是一个反复出现的主题。一个snippe例如,T是一位企业主,抱怨腐败的当地警察摇晃企业家,这是中国经济挣扎的一个崛起的问题。
另一个内容哀叹中国的农村贫困,描述了只有老年人和儿童的破败城镇。还有一份有关中国共产党(CCP)的新闻报道,驱逐了当地官员因严重的腐败,并相信“迷信”而不是马克思主义。
有与台湾和军事事务有关的广泛材料,例如有关台湾军事能力的评论以及有关新型中国喷气式战斗机的细节。在数据中,仅提及台湾的中文单词(仅提及了15,000次)。
微妙的异议似乎也是针对性的。数据库中包含的一个摘要是关于使用流行的中国成语的短暂权力性质的轶事20;当树倒下时,猴子散落。”
权力转变在中国是一个特别敏感的话题,这要归功于其专制政治体系。
为“公众舆论工作”建造数据集不包括有关其创建者的任何信息。但这确实说它是为了“公众舆论工作”,这提供了一个强烈的线索,该线索旨在为中国政府的目标服务,一位专家告诉TechCrunch。
。亚洲权利组织第19条第19条的迈克尔·卡斯特(Michael Caster)解释说,“公众舆论工作”由强大的中国政府监管机构,中国网络空间管理(CAC)监督,通常是指审查和宣传工作。
最终目标是确保中国政府的叙述在网上受到保护,同时清除了任何其他观点。中国总统习近平本人将互联网描述为CCP“公众舆论工作的“前线”。”
镇压变得更聪明TechCrunch检查的数据集是专制政府寻求利用AI用于压制目的的最新证据。
OpenAI上个月发布了一份报告,该报告显示,一位可能从中国运作的身份不明的演员使用生成的AI来监视社交媒体对话,尤其是那些倡导人权抗议中国的对话,并将其转发给中国政府。
。联系我们 如果您更多地了解AI在状态运输中的使用方式,则可以在Charlesrolet的信号中安全地与Charles Rollet联系。12您还可以通过Securedrop与TechCrunch联系。
Openai还发现,该技术用于生成评论,高度批评中国持不同政见者Cai Xia。
传统上,中国的审查方法依赖于更基本的算法,这些算法自动阻止内容提及黑名单的术语,例如“ Tiananmen MASSACRE”或“ XI Jinping”,这是许多用户首次使用DeepSeek所经历的。
但是,较新的AI技术,例如LLM,可以通过在广泛的规模上发现微妙的批评来提高审查制度。某些AI系统也可以随着越来越多的数据而不断改进。
“我认为重要的是要突出AI驱动的审查制度如何发展,从而使国家对公共话语的控制更加复杂,尤其是在中国AI模型(例如DeepSeek)正在制作headwaves的时候,”伯克利(Berkeley)研究人员Xiao告诉TechCrunch。
发布评论