스플라이스 사이트 예측을 위한 딥 러닝 모델 평가를 위한 자동화된 프레임워크
Scientific Reports 13권, 기사 번호: 10221(2023) 이 기사 인용
955 액세스
2 알트메트릭
측정항목 세부정보
다양한 딥러닝 기반 스플라이스 사이트 감지기의 자동 평가를 위한 새로운 프레임워크가 제시됩니다. 프레임워크는 주어진 RNA 스플라이스 사이트 데이터 세트에 대한 최상의 모델을 얻기 위해 다양한 코드베이스, 아키텍처 및 구성에 대한 시간 소모적인 개발 및 실험 활동을 제거합니다. RNA 스플라이싱은 pre-mRNA가 성숙한 mRNA로 처리되어 단일 유전자 서열에서 여러 mRNA 전사물을 생성하는 데 사용되는 세포 과정입니다. 시퀀싱 기술의 발전 이후 많은 스플라이스 부위 변형이 확인되어 질병과 연관되었습니다. 따라서 RNA 스플라이스 부위 예측은 유전자 발견, 게놈 주석, 질병 유발 변종 및 잠재적인 바이오마커 식별에 필수적입니다. 최근 딥러닝 모델은 게놈 신호를 분류하는 데 매우 정확한 성능을 발휘했습니다. CNN(Convolutional Neural Network), LSTM(Long Short-Term Memory) 및 BLSTM(양방향 버전), GRU(Gated Recurrent Unit) 및 BGRU(양방향 버전)가 유망한 모델입니다. 게놈 데이터 분석 중에 CNN의 위치 기능은 각 뉴클레오티드가 인근의 다른 염기와 상관관계가 있는 위치를 파악하는 데 도움이 됩니다. 대조적으로, BLSTM은 양방향으로 훈련될 수 있으므로 순차 데이터를 순방향 및 역방향에서 처리할 수 있습니다. 따라서 1차원으로 인코딩된 게놈 데이터를 효과적으로 처리할 수 있습니다. 문헌에서는 두 가지 방법을 모두 사용했지만 성능 비교가 누락되었습니다. 유사한 조건에서 선택한 모델을 비교하기 위해 우리는 5가지 다른 수준의 일련의 네트워크에 대한 청사진을 만들었습니다. 사례 연구로서 우리는 두 개의 서로 다른 데이터 세트에서 RNA 스플라이스 사이트 예측을 위한 구성 요소로서 CNN 및 BLSTM 모델의 학습 기능을 비교했습니다. 전반적으로 CNN은 \(92\%\) 정확도(\(6\%\) 개선), \(89\%\) F1 점수(\(8\%\) 개선) 및 \(96\)에서 더 나은 성능을 보였습니다. %\) 인간 스플라이스 부위 예측의 AUC-PR(\(4\%\) 개선). 마찬가지로 \(96\%\) 정확도(\(11\%\) 개선), \(94\%\) F1 점수(\(16\%\) 개선) 및 \(99\)로 탁월한 성능을 발휘합니다. %\) AUC-PR(\(7\%\) 개선)은 C. elegans 스플라이스 사이트 예측에서 달성됩니다. 전반적으로 우리의 결과는 CNN이 BLSTM 및 BGRU보다 빠르게 학습하는 것으로 나타났습니다. 또한 CNN은 BLSTM 및 BGRU보다 시퀀스 패턴 추출 성능이 더 좋습니다. 우리가 아는 바로는 자동화된 방식으로 가능한 최상의 모델을 결정하기 위해 스플라이스 감지 모델을 평가하기 위한 다른 프레임워크가 명시적으로 개발되지 않았습니다. 따라서 제안된 프레임워크와 청사진은 스플라이스 사이트 분석이나 유사한 분류 작업 및 다양한 문제에 대해 CNN, BLSTM 및 BGRU와 같은 다양한 딥 러닝 모델을 선택하는 데 도움이 될 것입니다.
인간 게놈 주석 작업은 최근 RNA 염기서열 분석 및 전사체학 연구의 발전으로 인해 이점을 얻었으며, 스플라이스 부위 탐지는 중요한 연구 문제가 되었습니다. 그러나 이 작업에 가장 적합한 모델을 선택하기 위한 지침은 없습니다. 여기에서는 다양한 딥러닝 기반 스플라이스 사이트 감지기의 자동 평가를 위한 새로운 프레임워크를 제시합니다. 프레임워크는 주어진 RNA 스플라이스 사이트 데이터 세트에 대한 최상의 모델을 얻기 위해 다양한 모델, 아키텍처 및 구성에 대한 자동화된 실험을 제공함으로써 시간 소모적인 개발을 제거합니다. 정확한 위치를 식별하는 것은 인간 게놈 주석에서 중요한 과제입니다. 따라서 유전자의 엑손-인트론 경계를 결정하는 것은 유전자 구조를 파악하는 데 필수적입니다. 스플라이스 부위는 pre-mRNA 분자를 성숙한 mRNA로 변환하는 번역 후 변형 과정인 RNA 스플라이싱을 조절하는 엑손-인트론 및 인트론-엑손 경계를 결정합니다.
또한 대체 mRNA는 대체 스플라이싱(alternative splicing)이라는 과정을 통해 동일한 유전자 서열로부터 얻을 수 있습니다. 따라서 올바른 스플라이스 위치 인식은 적절한 단백질 구조 형성에 중요합니다. 스플라이스 부위는 일반적으로 4개의 보존된 뉴클레오티드로 구성됩니다. 즉, 5'(엑손-인트론 경계)에 있는 공여자 서열 GT(pre-mRNA의 경우 GU)와 3' 말단(인트론-엑손 경계에 있음)에 있는 수용체 서열 AG ) 그림 11과 같습니다. GT-AG 서열을 포함하는 스플라이스 사이트를 표준 스플라이스 사이트라고 합니다. 마찬가지로, 스플라이스 사이트에는 비정규 스플라이스 사이트라고 불리는 GT-AG 이합체가 포함되어 있지 않습니다.