蛋白质序列数据库指应用计算机功能分析生物学信息的数据库。应用计算机的运算法则,比较DNA和蛋白质序列而检测结构、功能和序列之间的进化关系。各种基因组的序列产生大量的DNA序列数据和生物信息,已经被应用于研究基因的功能,预测以前未知的基因功能。人们的注意力主要集中在从仅有的氨基酸序列预测蛋白质结构和功能。由于蛋白质序列测定技术先于DNA序列测定技术问世,蛋白质序列的搜集也早于DNA序列。蛋白质序列数据库的雏形可以追溯到60年代。60年代中期到80年代初,美国国家生物医学研究基金会(National Biomedical Research Foundation,简称NBRF)Dayhoff领导的研究组将搜集到的蛋白质序列和结构信息以“蛋白质序列和结构地图集”(Atlas of Protein Sequence and Structure)的形式发表,主要用来研究蛋白质的进化关系。1984年,“蛋白质信息资源”(Protein Information Resource,简称PIR)计划正式启动,蛋白质序列数据库PIR也因此而诞生。