banner
홈페이지 / 소식 / 인간 조직 전반에 걸친 비정상적인 스플라이싱 예측
소식

인간 조직 전반에 걸친 비정상적인 스플라이싱 예측

Sep 02, 2023Sep 02, 2023

Nature Genetics 55권, 861~870페이지(2023)이 기사 인용

13,000회 액세스

1 인용

174 알트메트릭

측정항목 세부정보

비정상적인 스플라이싱은 유전 질환의 주요 원인이지만 전사체에서의 직접적인 검출은 피부나 체액과 같은 임상적으로 접근 가능한 조직으로 제한됩니다. DNA 기반 기계 학습 모델은 스플라이싱에 영향을 미치는 희귀 변종의 우선 순위를 지정할 수 있지만 조직별 비정상 스플라이싱을 예측하는 성능은 평가되지 않은 상태로 남아 있습니다. 여기에서 우리는 GTEx(Genotype-Tissue Expression) 데이터 세트의 49개 인간 조직에서 880만 개가 넘는 희귀 변이체에 이르는 비정상 접합 벤치마크 데이터 세트를 생성했습니다. 최첨단 DNA 기반 모델은 재현율 20%에서 최대 12%의 정밀도를 달성합니다. 조직별 스플라이스 사이트 사용 전사체 전체를 매핑하고 정량화하고 이소형 경쟁을 모델링함으로써 동일한 리콜에서 정밀도를 3배 증가시켰습니다. 임상적으로 접근 가능한 조직의 RNA 시퀀싱 데이터를 당사 모델인 AbSplice에 통합하여 정밀도를 60%로 높였습니다. 두 개의 독립적인 코호트에서 복제된 이러한 결과는 비코딩 기능 상실 변종 식별과 유전자 진단 설계 및 분석에 실질적으로 기여합니다.

코딩되지 않은 기능 손실 DNA 변이체를 식별하는 것은 코딩 영역 외부의 기능을 예측하는 것이 어렵기 때문에 전체 게놈 해석의 주요 병목 현상입니다1. 스플라이싱을 변경하는 변이체는 기능적으로 중요한 단백질 도메인의 프레임 이동 또는 절제를 유도하여 RNA 이소형을 크게 변경시킬 수 있기 때문에 비암호화 기능 손실 변이체의 중요한 부류를 나타냅니다. 변이체가 스플라이싱 이소형 선택을 강력하게 변경하는 경우 기능성 RNA 이소형의 나머지 풍부함이 너무 줄어들어 유전자 기능이 손실될 수 있습니다. 특히 희귀 질환 진단 및 종양학에서 변형 해석을 위한 스플라이싱의 관련성으로 인해 변형이 스플라이싱에 영향을 미치는지 여부를 예측하는 알고리즘이 개발되었습니다2,3,4,5,6,7,8,9. 그러나 최근에야 인간 조직에서 비정상적인 스플라이싱 현상, 즉 드물게 스플라이스 이소폼 사용이 크게 변경되는 일이 보고되었습니다. 관찰된 비정상 스플라이싱 이벤트에 대한 후보 인과 희귀 변종의 우선순위를 사후적으로 지정하는 방법이 제안되었지만, 순방향 문제, 즉 비정상 스플라이싱을 초래할 희귀 변종 중에서 예측하는 문제는 해결되지 않았습니다.

여기에서 우리는 희귀 변종이 특정 인간 조직에서 비정상적인 스플라이싱과 연관되는지 여부를 예측하는 모델을 구축하기 시작했습니다. 먼저, 우리는 DNA만 이용 가능하다고 가정하고 나중에 임상적으로 접근 가능한 조직(CAT)의 상보적 RNA 시퀀싱(RNA-seq) 데이터를 추가로 고려했습니다(그림 1).

우리는 희귀 변종이 49개의 인간 조직에 걸쳐 비정상적인 접합과 연관되는지 여부를 예측하기 시작했습니다. a, 우리는 입력 DNA 서열 및 선택적으로 CAT의 RNA-seq 데이터로 사용할 수 있는 예측 변수를 평가하고 개발할 수 있는 최근 발표된 비정상 스플라이싱 호출자10로 GTEx 샘플을 처리하여 비정상 스플라이싱에 대한 포괄적인 벤치마크를 확립했습니다. b, 벤치마킹을 통해 현재 사용되는 DNA만을 기반으로 하는 알고리즘의 적당한 성능, 이 연구에서 개발한 조직 특이적 스플라이싱의 정량적 맵인 SpliceMap과 이러한 모델을 통합할 때 상당한 성능 향상, 이상에 대한 직접적인 측정을 포함할 때 추가 개선이 나타났습니다. 접근 가능한 조직에 접합.

우리는 49개 조직과 946개 개체에 걸쳐 있는 GTEx(Genotype-Tissue Expression) 데이터 세트의 16,213개 ​​RNA-seq 샘플에 대해 비정상 접합 호출자 FRASER(RNA-seq에서 RAre Splicing Events 찾기)10를 사용하여 벤치마크를 만들었습니다. 다른 스플라이싱 이상치 탐지 방법11,12과 비교하여 FRASER는 시퀀스 기반 예측 변수와 지속적으로 가장 높은 일치도를 보였으며 따라서 이후 평가에 사용되었습니다(확장 데이터 그림 1). 모든 개인에 대해 우리는 최소한 하나의 희귀 변종(게놈 집합 데이터베이스(gnomAD)을 기준으로 0.1% 미만의 소수 대립 유전자 빈도(MAF)가 있고 GTEx 전체에서 2명 이하의 개인에게서 발견됨)를 보유하는 모든 단백질 코딩 유전자를 고려하여 설정했습니다. 이 유전자가 비정상적으로 접합되어 있는 조직이 있다면 예측할 수 있습니다. 우리는 전사체 전체에 걸쳐 유의미한 스플라이싱 이상치로 불려지고 충분한 진폭(0.3보다 큰 스플라이싱 비율(Ψ); 방법, 확장 데이터 그림 1 참조)을 사용하여 샘플에서 비정상적으로 스플라이싱되는 유전자를 정의했습니다. 대체 컷오프가 있는 결과의 경우). 이전 연구에서는 GTEx RNA-seq 샘플에서 비정상 스플라이싱 현상의 75%가 조직 전반에 걸쳐 복제되지 않으며10,12 따라서 기술적인 인공물이나 유전적으로 유도되지 않은 비정상 스플라이싱을 반영할 수 있다고 보고했습니다. 우리는 가장 가까운 희귀 변이체까지의 거리와 관련하여 동일한 개체의 조직 전체에 걸쳐 복제된 접합 이상값의 농축을 정량화하고 최대 250 염기쌍(bp)의 거리까지 농축된 것으로 나타났습니다(확장 데이터 그림 2). 따라서 우리는 또한 비정상적으로 접합된 접합 부위와 관련된 인트론의 경계에서 250bp 미만 떨어진 희귀 변종을 요구했습니다(방법 및 확장 데이터 그림 3). 이 필터는 개인당 단일 샘플을 갖는 독립적인 코호트에 적용할 수 있다는 추가 이점과 함께 복제된 이상 이벤트에 대한 필터링과 유사한 결과를 산출했습니다(확장 데이터 그림 4).

 0.8, MMSplice score > 2 (absolute score) and an AbSplice-DNA score > 0.2 in at least one tissue. Asterisks mark significance levels of two-sided Fisher tests of AbSplice-DNA compared with SpliceAI (*<0.05, **<10−4, ***<10−8). NS, not significant./p> 0.3) and then by significance level. This simple method yielded a markedly increased precision compared with the DNA-based models, up to nearly 40% recall (Fig. 5c and Extended Data Fig. 10a). However, RNA-based predictions remain limited to those splice sites expressed and spliced in the CAT. Therefore, we next trained models integrating AbSplice-DNA features together with RNA-seq-based features from CATs, including differential splicing amplitude estimates to leverage the splicing scaling law and the SpliceMaps (Methods). These models, which we call AbSplice-RNA, outperformed all other models (Fig. 5c and Extended Data Fig. 10a). We found that using fibroblasts only led to the same performance as using all CATs, reaching around 60% precision at 20% recall and amounting to a twofold improvement over AbSplice-DNA (Fig. 5c and Extended Data Fig. 10b). Those improvements were consistent across target tissues (Fig. 5d). As expected, AbSplice-RNA outperformed AbSplice-DNA for genes expressed in CATs and remained on par with it otherwise (Extended Data Fig. 10c). Altogether, these results establish a formal way to integrate direct measurements of aberrant splicing along with sequence-based models to predict aberrant splicing in a tissue of interest./p> 0.3). The same filters were applied to the splicing efficiency metrics./p> 0.3) lower than the remaining genes, and further ranked genes within each of these two groups by increasing P value./p>

 0.3, FDR < 0.05, 126,308 aberrant events) b, Filter 2: same as a, but restricting to genes that are aberrantly spliced in at least two different tissues from the same individual (32,886 aberrant events). c, Filter 3: same as a, but restricting to genes that have a rare variant within 250 bp of the splice sites (22,766 aberrant events). While the results are best with Filter 3, the relative improvements in terms of precision at the same recall between the methods is the same as with Filter 2. In particular, having restricted to variants 250 bp away from any detected split read boundary (Filter 3) did not bias our analysis for the splice-site centric method MMSplice over SpliceAI. d, After applying Filter 3, outliers were stratified into ‘replicated’ (14,030 aberrant events), that is appearing in at least two different tissues of the same individual, and ‘not replicated’ (8,736 aberrant events). All models showed a significantly higher performance for aberrant splicing events replicated in two or more samples compared to those reported in a single sample only./p> 0.3) across tissues./p> 1 (transcript per million). AbSplice-RNA improves for genes expressed in fibroblasts and remains on par with AbSplice-DNA for genes not expressed in fibroblasts./p>