background
 종들의  whole genomes  sequencing은 종들의 organization을 정의하고 그들의 기능에 대해 이해할 수 있는 발판을 제공한다. 이 정보들을 통해서 실질적인 농업에서 활용할 수 있다. 유전체학의 농업에 대한 기여는 특정 표현형 형질 뿐만 아니라 변이에 의한 유전체 육종과 같은 영역에서도 발휘 될 수 있다.
 이미 annotate 된 molecules 와의 reference나 genomes, gene families, transcriptomes, or repeat 등의 비교를 통해서 새로운 것들을 정의한다. similarity searches는 공통된 features를 발견하여  구조와 functional assignment를 정의 할 뿐 아니라  peculiarities를 확인하고 evolutionary 조사의 실마리를 제공한다.
 sequencing 비용이 저렴해지고 genome variations을 분석할 수 있는 single nucleotide polymorphism의 발견에 따라 reference genome과 비교하면서 개개인의 mutation 지표가 분석되고 SNPs, insertion-deletion, larger rearrangements 등이 발견된다.  현재까지 식물에서 백만개 정도의 polymorphism이 발견되었는데 이러한 정보들은 더 이용가치가 있는 sustainable productions을 향상시키는 allele를 확인하고 분석하기 위해 농업에서 관심있는 종들에만 번식에 필수적이다.
  이러한 정보들을 활용하기 위해 vcf 파일형식을 이용했다.  vcf는 reference genome과 대조하여 genotype 을 표시해주는 파일 형식이다. 각 cultivar에 대한 vcf의 정보 따른 genotype을 수집하고 각각 위치에 대한 genotype을 수치화해서 hierarchy clustering을 통한 계층 분석을 하여 각 cultivar 간의 비교를 할 수 있게 되었다.
각각 위치에 있는 snp에 따른 genotype을 분석하여 cultivar 간의 비교를 할 수 있게 됐다.
reference genome의 활용도가 증가하게 되었다.  sequence 된 genome들을 비교하면서 개개인의 mutation 지표가 분석되고 SNPs, insertion-deletion, larger rearrangements 등이 발견된다. 이러한 특징들로 특정 phenotype들과 연관지을 수 있게 된다. 현재까지 식물에서 백만개 정도의 polymorphism이 발견되었는데 이러한 정보들은 농업에서 관심있는 종들의 번식에 필수적이다\cite{era}. 더 이용가치가 있는 sustainable productions을 향상시키는 allele를 확인하고 분석하기 위해서는 reference genome의 지속적인 업데이트가 필요하다.
    Glycine max(soybean)는 단백질섭취와 cooking oil의 세계적인 주요한 원천 중 하나인 작물이다. East Asia soy를 기원으로 두지만 현재 세계적으로 재배하고 있고 U.S.에서 가장 많이 재배 되고 있다. 비록 작은 부분이 인간에게 직접적으로 섭취되고 있지만 단백질의 원료, 필수 아미노산을 모두 포함하고 다이어트 식품으로 고기를 대체 할 수 있다는 점에서 매우 가치가 있는 작물이다. 또한 다른 야채들처럼 미생물과 공생관계를 맺음으로 대기 중 질소를 고정시킬 수 있다. 완전히 sequencing이 된 soybean genome은 연구와 육종에 영향을 끼칠 뿐 아니라 다른 콩과 식물사이에서의 유전체 연구를 위한 참고 자료로 사용이 된다. 현재 soybean은 20개의 Chromosome를 가지고 있고 대략 1,115 Mbp의  size로 측정된다. \cite{40} 
    The Glycine Max(soybean) genome project는 
현재 Gmax 의 reference genome total transcriptome 부족 => 얼마나 부족한가?