近期,我院bw必威西汉姆联官网/人工智能学院/软件学院软件工程团队的六项研究成果被软件工程国际顶级会议ESEC/FSE 2023和ASE 2023以及国际顶级期刊ACM Transactions on Software Engineering Methodology (TOSEM) 录用。其中,软件科学与工程系肖冠平讲师的一项研究成果被ESEC/FSE 2023录用,杨文华副教授有两项研究成果分别被ESEC/FSE 2023和ASE 2023录用。此外,软件科学与工程系宫丽娜副教授、张静宣副教授、周宇教授则各自有一项研究成果被TOSEM录用。
ESEC/FSE(全称为ACM Joint European Software Engineering Conference and Symposium on the Foundations of Software Engineering)和ASE(全称为International Conference on Automated Software Engineering)是软件工程领域公认的国际顶级会议(CCF A类会议),近五年的平均录用率分别为25.1%和22.6%,年均录用论文一百余篇。值得一提的是,今年是ESEC/FSE会议创办30余年来我院首次作为第一完成单位出现在该会议的research track上,并同时有两篇论文被接收。在期刊方面,TOSEM被国际公认为最权威、最高水平的软件工程顶级期刊之一,是CCF软件工程领域A类期刊。近年来,我院软件工程学科展现出稳定的发展势头,相较于上一轮学科评估取得了显著的进步。我院的软件工程团队始终开拓创新,坚持对软件工程研究的高质量内涵式发展,持续取得重要的科研进展。研究成果发表或录用的期刊和会议,覆盖了软件工程领域所有的CCF A类国际期刊与会议。
论文《Compatibility Issues in Deep Learning Systems: Problems and Opportunities》基于Stack Overflow开发者问答讨论数据对深度学习软件系统中出现的兼容性问题进行了一项大规模实证研究。深度学习软件系统是复杂的组件化系统,由核心程序(代码实现和数据)、Python(语言和解释器)、第三方库、低级库、开发工具、操作系统和硬件环境组成。组件之间的不兼容交互会导致兼容性问题,严重阻碍开发和部署过程。深度学习软件系统中经常出现哪些类型的兼容性问题?这些问题的根本原因是什么,开发人员如何解决它们?我们距离自动检测和修复深度学习软件系统兼容性问题还有多远?然而,这些问题尚未得到系统化地探索。为此,该工作从深度学习软件系统不同组件之间交互的角度,给出了兼容性问题的类型定义及分布,并分类探讨了兼容性问题产生的根本原因、影响以及相应的解决方案。同时,通过系统性地调研当前相关兼容性问题自动检测和修复工具的研究现状,给出了自动检测和修复深度学习软件系统兼容性问题还存在的挑战。该研究成果将有助于理解深度学习软件系统兼容性问题的产生机理,为后续相关工具开发提供指导。该论文已被CCF A类国际会议ESEC/FSE 2023录用,第一作者为我院2022级硕士研究生王君,指导老师及通讯作者为肖冠平讲师。
论文《Understanding the Topics and Challenges of GPU Programming by Classifying and Analyzing Stack Overflow Posts》基于开发者广泛使用的专业问答网站(Stack Overflow)开展了一项针对GPU编程问题的大规模实证研究。目前越来越多的开发者开始进行GPU编程,但由于GPU独特的架构和持续的演化,开发者在GPU编程中面临诸多挑战。开发者对于遇到的各种编程问题常在问答网站上寻求帮助。然而,目前尚无研究工作系统全面地研究开发者在GPU编程中讨论的话题以及这些话题所涵盖的主要挑战。为了弥补这一不足,该工作开展了一项全面性的研究,以深入理解开发者在GPU编程中讨论的主要话题及其挑战。该研究从Stack Overflow中收集了25269篇相关帖子,提出了一种新的结合自动技术和手动主题分析的方法来提取话题,并创建了一个对应的话题分类。同时,对这些话题的受欢迎程度、难度以及发展趋势进行了深入探讨。此外,该研究还对相关帖子进行了详细分析,以解析每个话题中所涵盖的GPU编程中的主要挑战,为未来的研究提供基础。该论文已被CCF A类国际会议ESEC/FSE 2023录用,第一作者为杨文华副教授。
论文《Understanding and Enhancing Issue Prioritization in GitHub》针对开源软件开发中广泛使用的GitHub平台的问题(Issue)优先级排序展开深入研究。GitHub促进了不同开发者间的协作和交流,而高效的问题跟踪是管理GitHub项目的关键环节。标签是GitHub中进行问题优先级排序的主要机制之一。然而,在大型项目中,问题优先级排序仍然是个挑战,而且使用标签进行优先级排序的效果尚不清楚。为此,该工作进行了一项全面的实证研究,探讨了标签在GitHub的问题优先级排序中的作用,检验了各种问题特征对优先级排序的影响,评估了基于这些特征的不同排序算法的表现。该研究是基于一个包含150多万条来自各种GitHub项目的问题数据集而开展的,为开源平台的问题处理提供了有价值的见解,并为未来这个领域的研究提供了相关指导。具体而言,这项研究揭示了标签在问题优先级排序中的有限效用,强调了某些问题特征在优先级排序过程中的重要性,并比较了各种用于问题优先级排序的排序算法的性能,以更好地帮助问题处理者。该论文已被CCF A类国际会议ASE 2023录用,第一作者为我院2022级硕士研究生何莹莹,指导老师及通讯作者为杨文华副教授。
论文《What Is the Intended Usage Context of This Model? An Exploratory Study of Pre-Trained Models on Various Model Repositories》围绕已开源的AI预训练模型,开创性地将软件工程质量保障和重用核心机制引入AI软件开发,提出了针对AI预训练模型重用的契约,即模型重用的前置和后置条件,为AI产品(特别是计算机视觉领域任务)的高质量开发和维护提供可行性高的指导。研究人员和实践者趋向于直接应用预训练模型来解决他们特定的任务。例如,软件工程领域的研究人员已经成功地利用预训练语言模型自动生成源代码和注释。然而,不同基准数据集中存在领域间差距,这些模型在一个基准数据集上训练可能无法在其他基准上顺利运行。因此,重用预训练模型会带来大量的成本,并且需要检查任意预训练模型是否适合特定任务的重用。该工作提出的包括预训练模型的前置和后置条件模型契约可以实现更好的模型重用。基于提出的模型契约,该工作进一步对六个主流模型仓库中的1908个预训练模型进行了探索性研究,以调查必要的前置和后置条件信息与实际规格之间的差距,得出了一系列新的发现,并基于这些发现提出了许多可行的建议。该论文已被CCF A类国际期刊TOSEM录用,第一作者为宫丽娜副教授。
论文《An Accurate Identifier Renaming Prediction and Suggestion Approach》提出了一种新的全粒度标识符重命名预测和建议方法。标识符在帮助开发人员分析和理解源代码方面发挥着重要作用。然而,在实际软件项目中存在大量与相应的编程规范或语义功能不一致的标识符。因此,标识符需要定期重命名。该方法首先从标识符中提取一系列特征,以捕获标识符与编程规范以及相关代码实体之间的关系等。这些标识符特征及其重命名历史用于训练分类器,该分类器可用于预测给定的新标识符是否需要重命名。随后,基于具有相似模式和重命名序列的相关代码实体共同演化的原理,为这些标识符推荐一系列新标识符。实验结果表明,该方法识别需要重命名的标识符的平均F1值接近90%。此外,该方法在建议正确标识符方面比现有最好方法高出15.75%。该论文已被CCF A类国际期刊TOSEM录用,第一作者为张静宣副教授。
论文《DRIVE: Dockerfile Rule Mining and Violation Detection》针对当今云原生领域应用容器化中的核心工具Docker的配置文件质量提升问题展开深入研究。Dockerfile作为Docker构建容器实例的核心配置文件,直接影响生成的Docker镜像的品质。然而,已有研究指出,大量Docker项目中使用的Dockerfile存在较为严重的质量问题。为解决这一问题,该论文提出了一种Dockerfile质量提升方法。该方法采用数据驱动的策略,能够自动从Dockerfile数据集中挖掘潜在的语义规则模式,提炼出最佳实践,并自动检测现有的Dockerfile是否违反了这些最佳实践,新发现的部分规则模式已被主流的Dockerfile检查工具Hadolint采纳。该方法可以有效地提高Dockerfile等容器配置文件的质量,从而协助开发人员构建出更小体积、更高安全性的容器镜像。这一方法不仅适用于Dockerfile,也可用于Chef等其他DevOps领域工具的相关软件制品,以提升其产品质量。该论文已被CCF A类国际期刊TOSEM录用,第一作者为周宇教授。