sci论文数据造假会不会被发现?发现后可能产生什么后果?

所属栏目：SCI论文百科时间：2024-03-19

　　sci论文发表一直是严谨的事情，其中数据往往要求严谨性，甚至有的期刊会需要作者提交原始数据，一些作者心理存有侥幸心理，也有一些疑问：sci论文数据造假会不会被发现，发现后会产生什么后果?

　　造假被查出来的大都是生物，材料之类的领域，然而计算机(特指深度学习)才是重灾区，造假容易复现困难，随机性强，别说二流论文，顶会论文都没有参考价值。所以除了廉价劳动力够多的大研究室，其他人论文的数量基本取决于科研的程度。

　　随便举几个例子，先从比较温和的，没什么造假空间的领域开始。

　　比如组合优化的性能曲线，所有人都知道是个指数曲线，你搞个新的剪枝条件，水一点咱不求正确解，毕竟大部分应用下并不需要正确解，切掉1%的解换来50%的速度是很合理的思想。什么性能改进不够大?5次实验最好的跟最坏的比啊，还不行用C+SIMD写的跟Java的比啊，再不行说实话你随便编个数也没人看得出来，毕竟理论上行得通，行不通那是他程序写的不好。

　　要说上面想法毕竟真的，顶多偷懒不想做实验，到了ML领域之后那就是明明白白的造假了。数据集精选到位，想法再烂几百个实验里只要能挑出一个能看的，那就是顶会苗子——normalization + adaptive learning rate + manifold constraint审稿人怎么知道哪个项work?实际上去年的AAAI上有2篇就是我几年前尝试过但完全不work的方法，他们在没改主要优化项的同时怎么把这个东西弄work的我也不知道。

　　再进一步，古典ML还要你写程序做实验，到了DL里这些全都可以省了，完全可以画图编数据发顶会一步到位。毕竟就是个人肉Architecture Search，随便找个domain画个图，编个比SOTA高一点的精度，一篇论文就诞生了。需要公开数据集和代码?某国际大厂研究院实习生发的顶会论文也带代码，连矩阵的dim都写反了，核心代码10行里写错了5行，那精度也是让人堪忧的。

　　最近有些研究都开始明目张胆的把validation dataset的distribution当制约条件，甚至直接sample数据进train loop，人家都把造假上升为novel approach了，就别提被发现了。你只是想发个水刊，基本上不会有人狙你，大家都很忙的，谁有精力来管你这些东西。但是不排除你可能会被有竞争关系的人盯上，一般这种就没办法，自认倒霉吧。毕竟要想人不知，除非已莫为。

　　学术研究这么多年，低垂的果实早就被前人摘掉了，剩下的就需要靠精力和经费去堆，如果没有那个学术信仰，还是不要在这里面挣扎了。不然很多年后想起来，即使发过不少文章，但总是问心有愧的。

　　所以你还在考虑通过学术造假来达到某种目的话，一般也没人站在所谓的道德高地去指责你因为很多事情可能就是不得已而为之，包括我。但如果真的以后要搞学术，还是要珍惜自己的羽毛，毕竟学术这一块向来容不下污点。

免费咨询获取帮助

sci论文数据造假会不会被发现?发现后可能产生什么后果?

更多学术问答