9月12日,一项宣布于预印本平台medRxiv的研究对于文献数据库阐发后发明,包括ChatGPT及Gemini于内的文本天生人工智能(AI)东西被用来改写科学论文并天生剽窃版本,充作新的研究结果。该研究指出,于已往4.5年间,有400多篇此类论文发表在112种期刊,并且AI天生的生物医学研究论文可以或许避开出书商的查重。
该研究正告称,一些小我私家及论文工场可能正基在公然可用的康健数据集,使用年夜型语言模子(LLM)批量出产缺少科学价值的劣质论文。
瑞士弗里堡年夜学的药理学家Csaba Szabo暗示,假如该问题不加以解决,这类基在AI天生论文的要领可能会被运用在各类开放获取数据库,从而天生年夜量劣质论文。这就像打开了潘多拉魔盒,有价值的文献会被年夜量合成论文沉没。
Szabo等人筛选了基在美国国度康健与养分查抄查询拜访三木SEO-(NHANES)数据库的联系关系研究,即经由过程统计学要领将某一变量与康健成果接洽起来的研究。NHANES是包罗了数千人的康健、饮食及糊口方式数据。
研究职员将搜刮重点放于反复研究上,即这些研究的变量与康健成果与已经有研究不异,但阐发的是略有差别的数据子集,好比差别查询拜访年份的成果或者者差别春秋、性另外介入者。
研究职员使用美国国度生物技能信息中央开发的免费生物医学文献检索体系PubMed举行搜刮,发明2021年1月至2025年7月有411篇反复研究发表。此中年夜大都是简朴的“反复”案例,即两家出书商发表了险些不异的论文。但有3个协会的反复研究数目尤其多,每一家都有6篇,此中一些甚至是于统一年发表的。
“这类环境本不应发生,这对于科学文献体系康健毫无益处。”研究论文作者、英国萨里年夜学的生物医学科学家Matt Spick说。
实在,年夜大都出书商都设有查重机制,Spick等人思疑有人使用AI东西规避查抄。为了测试AI可否使用统一数据集天生多篇论文,研究职员利用ChatGPT及Gemini重写了阐发中发明的3篇反复度最高的文章,每一篇都报导了一种已经经发表过五六次的特定联系关系研究。研究职员要求LLM利用每一篇论文中的信息以和NHANES数据天生一篇可以或许避开查重的新论文。然后,他们用很多出书商的剽窃检测东西对于这些论文举行阐发,成果评分正常,并未到达剽窃尺度。
Spick说,这注解LLM简直“可以或许天生一些基在已经发表研究的不包罗任何新内容的反复论文,而且能经由过程查重。
“总之,由AI驱动的反复发表给出书商带来了空费时日的挑战。”Frontiers出书社研究诚信卖力人Elena Vicario暗示。
相干论文信息:https://doi.org/10.1101/2025.09.09.25335401
https://doi.org/10.1101/2025.07.07.25331008
版权声明:凡本网注明“来历:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请于正文上方注明来历及作者,且不患上对于内容作本色性改动;微信公家号、头条号等新媒体平台,转载请接洽授权。邮箱:shouquan@stimes.cn。-bevictor伟德官网