)
 
Background > vcf란, vcf 분석방법
next generation sequencing(NGS)를 통한 유전자 분석을 하게 되면 100개정도의 염기로 구성된 짧은 서열 조각인 리드를 생성하여 염기서열을 해독한다.  NGS는 해독한 염기서열을 FASTQ 형식의 파일로 저장한다. 이 과정을 raw data generation이라고 한다.\cite{Cock_2009}//raw data를 생성하면 정렬 소프트웨어를 사용하여 raw data를 resequencing한다.  
resequencing이란 종마다 기준이 되는 유전체(Reference genome sequence)와 연구 대상 유전체와의 비교를 통해 새로운 유전체 서열을 완성하는 방법으로, 이를통해 변이(variant)를 찾을 수 있다.
 여러 congenital disease와 관련된 mutation들을 detecting 하는 데 있어서, candidate gene이나 genomic regions를 resequencing해 보는 것은 핵심적인 단계이다.  resequencing techniques은 알려진 mutation(genotype)을 통한 분석과 주어진 target region을 이용하여 mutation을 scan하는 방법(variation analysis)으로 나눌 수 있다. test되는 전형적인 mutation은 substitution (SNP), insertion 그리고 deletion mutation이다
 resequencing 과정 중 alignment/mapping은 유전변이와  sequencing오류를 포함하고 있는 106  ~109 개의 리드들을 참조 염기서열과 비교하여 리드의 염기서열과 일치하는 위치를 참조 염기서열에서 찾는 과정이다.\cite{assembly} 두 염기 서열을 비교하는 데 BWT 알고리즘에 기반한 BWA를 사용한다. BWA를 사용하여 정렬이 끝나면 SAM(sequence alignment map)\cite{Li_2009} 형식으로 저장된다. 리드이름, bitwise flags, 참조 염기서열 이름, 정렬된 위치, 정렬 정확도, cigar등의 정보가 포함된다. cigar은 정렬된 염기의 개수,insertion, deletion, skipped region에 관한 정보를 표현한다. SAM 파일을 binary형식으로 압축한 BAM파일도 정렬 결과를 저장하는 표준형식으로 자리잡고 있다. BAM/SAM 파일을 variant calling 단계에 적용 하기전에 SAM tools로 정렬 후속 처리를 한다. variant calling 이란 BAM/SAM파일들을 통합하여 SNP/indel 영역을 찾는 과정이다. variant calling은 염기서열의 위치에서 SNP/indel로 확인될 확률로 표현한다. variant calling의 결과는 VCF형식의 파일에 저장된다. 
VCF는 각 position에 대한 samples 의 genotype information(sequence of variation, 염색체 위치, 참조 염기, 치환/삽입/삭제 등이 일어난 표본 염기, 변이 정확도, 변이로 판명된 샘플의 빈도 etc .)을 제공한다. \cite{specification} vcf format은 정확한 type과 sequence of variation 뿐만 아니라 multiple samples 의 genotype variation을 확인할 수 있다.
Question > vcf 분석이 어렵다
VCF files은 여러 sample 들을 수용하고 많은 정보를 담고 있기 때문에 많은 community에서 유용하게 사용할 수 있다. 하지만 그 많은 양의 data 때문에 단점이 용량이 크고 느리다는 것이다. files이 text 형식이기에 disk에 많은 용량을 요구한다. 보통 100개의 exomes의 batch는 몇 GB이지만 1000개의 exome  sample을 가진 거대한 VCFs는 100 GB에 이른다. 이러한 단점 때문에 vcf를 해석하는데 많은 시간이 걸려 개인의 컴퓨터로는 전체의 파일을 load하기가 어렵다.
분석 파이프라인에 따라 SNP calling 값이 달라져서 다각도에서 분석이 필요하다.\cite{Altmann_2012}
Solution > vcf 활용방안 
NGS를 통해 다양한 동식물의 유전체 해독의 보편화가 가능해짐에 따라,  질병 진단 및 예측과 유용 유전정보 발굴 및 육종에 응용이 가능해진다. 가능해진다. SNP를 이용하여 형질과 SNP/indel 사이의 연관 분석을 통하여 작물 육종에 응용 할 수 있다.