在线社区中人工智能生成内容的识别方法研究

2023-11-30 10:47| 发布者: Fuller| 查看: 1348| 评论: 0

摘要: 在多个在线社区平台上构建了真实的数据集,并探究了6种深度学习方法、7种机器学习方法和本文提出的方法能否用于识别社交媒体中来自于生成式人工智能模型的AIGC ... ...

人工智能经过几十年的发展,目前已经越来越成熟。从前几年的AlphaGo在围棋领域战胜一众顶级职业选手,到去年chatGpt的风靡全球,人工智能在医疗、金融、交通等多领域的应用已经越来越广泛。人工智能可以通过分析大量的医疗数据来辅助医生诊断疾病,也可以通过智能交通系统来提高交通效率和安全性。此外,人工智能还可以在金融领域中进行风险评估和投资决策等方面的应用。 

人工智能的未来发展仍然充满了无限的可能性。随着技术的不断进步,人工智能将会在更多的领域中得到应用,同时也需要我们在发展人工智能的同时保持警惕和谨慎,确保其发展符合人类的利益和价值观。我们需要认真思考如何在人工智能的发展中找到平衡点,让其发挥最大的作用,同时也要避免其可能带来的负面影响。

今天和大家分享的这篇范例《在线社区中人工智能生成内容的识别方法研究》,在多个在线社区平台上构建了真实的数据集,并探究了6种深度学习方法、7种机器学习方法和本文提出的方法能否用于识别社交媒体中来自于生成式人工智能模型的AIGC(人工智能生成内容(Artificial Intelligence Generated Content,AIGC)。实验结果显示,本文方法在多个指标上均具有最高性能。因此,本文方法能够识别出在线社区平台中大部分由AI撰写的内容。

1,范例简介

标题: 在线社区中人工智能生成内容的识别方法研究

作者: 邓胜利 汪璠 王浩伟

作者单位

1. 武汉大学信息管理学院

关键词:生成式人工智能;AIGC;在线社区;机器学习;AI信息污染;

发表日期:2023-08

基金资助

国家自然科学基金项目“信息生态链视角下在线知识社区用户贡献行为评价及预测研究”(71974149); 国家社会科学基金重大项目“人本人工智能驱动的信息服务体系重构与应用研究”(22&ZD324)研究成果之一;

摘要

[目的/意义]

生成式人工智能会对在线社区造成一定程度的AI信息污染,研究多种AIGC识别方法对防范快速进化的生成式人工智能带来的负面影响有重要意义。

[研究设计/方法]

首先在以新浪微博54个大类主题为主的多个在线社区平台中构建了HAC数据集,其中包含100,873条分别由人类和生成式人工智能撰写的信息;然后探究当前6个主流深度学习和7个机器学习方法是否能识别在线社区中的信息是由人类还是由生成式人工智能所撰写;最后提出了一种BEM-RCNN方法进一步提高AIGC的识别精度。

[结论/发现]

从构建的数据集中可以看出,生成式人工智具有强大的“类人表达”,能够模拟人类在社交媒体平台上发布和回复内容。实验结果表明,提出的方法准确度达到96.4%,能够很好地识别在线社区上的内容是由人类还是AI撰写。在精度、召回率、F1-值和准确度上均优于BERT、ERNIE、TextRNN等其他13种主流的方法,验证了其性能优势。同时,大量探究实验也证明了当前主流的机器学习方法虽然精度低于此方法,但是也能够识别部分AIGC。

[创新/价值]

使用多种方法去识别社交媒体上的AIGC,防范生成式人工智能对社交媒体平台造成的信息污染。  

2,本研究范例主要研究方法、相关知识点、工具和数据来源

2.1 研究方法及过程

1. 样本数据集构建

本文以新浪微博、百度贴吧和百度知道为主要研究的社交平台,构建相关数据集。

新浪微博是最大的在线社区平台之一。因此,本范例以新浪微博为主要数据来源构建数据集,并将百度贴吧和百度知道作为补充数据。

该数据集包含了在线社区中人类和AI分别撰写的内容。在构建的数据集中,新浪微博的数据来自于54个大类话题,共包含43,089条AI和人类分别撰写的数据2;百度贴吧的数据为38,921条;百度知道的数据为18,863的信息。

本范例在新浪微博和百度贴吧上爬取人类发布AI去模拟人类发布类似信息。由于在线社区中,用户不仅仅会发布内容还会回答其他用户的提问。因此,本文在百度问答上获取10,000条人类的问题和回答,将回答作为人类回答数据,然后将问题输入给ChatGPT后,让其模拟人类回答这些问题作为AI回答数据,再通过数据清洗,将具有明显AI特征的回答进行删除。

2. 实验和研究方法

构建以BEM-RCNN为主的方法去识别在线社区中的AIGC,该方法融合语义信息和上下文深层特征,并采取了端到端的结构以提升对AIGC的识别性能。针对在多个在线社区平台上构建了真实的数据集,探究了6种深度学习方法、7种机器学习方法和本文提出的方法能否用于识别社交媒体中来自于生成式人工智能模型的AIGC。

3. 文中提到的主流内容识别方法

2.2 微博样本数据的收集和处理

本范例使用的实验样本数据来源于微博,百度贴吧,百度知道等在线平台。

以微博为例,怎样方便快捷的采集微博数据,用于相关分析研究呢?

推荐使用集搜客微博工具箱集搜客微博快捷采集,输入网址或关键词,启动采集,采集完成后导出excel即可。

微博完整博文和地理信息为例,添加微博网址启动采集,完成后就可以导出包含博文,发布时间,地区,签到地点等信息的excel表。


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2024-4-29 11:00