다른 곳에 의뢰한 LTQ 분석 결과 데이터 처리

 

ISB TPP pipeline이 개발된 목적 중 하나는 다양한 장비에서 나오는 다양한 포멧을 호환성 있게 사용하고자 함에 있다. 동일한 데이터 분석법을 적용해야 하거나 서로 이 데이터를 공유할 때 혹은 분석 툴을 공유할 때 문제가 발생할 수 있는데, 이들 다양한 포멧을 표준 포멧으로 변환할 경우 그 가용성은 커진다. TPP는 이 역할을 한다. 예를 들어 ABI 4700(MALDI-TOFTOF) 장비를 통해 LC-MSMS분석을 하는 실험실의 경우 sequest, xcalibur를 사용할 수 없는데, 다른 실험실의 LTQ 데이터를 분석해야 할 경우 sequest result파일(dta, out)파일을 표준포멧(->html->pepXML)로 변환하여 TPP에서 peptide validation(by peptideprophet), protein validation(by proteinprophet)을 수행할 수 있다.

 

Sequest 서치하였을 경우, 결과 데이터를 dta, out 확장자 파일로 받을 수 있는데(thermofinigan에서 최근에 srf라는 파일 포멧을 내 놓았다 dta out파일을 합쳐 놓은 파일이라 보면 되며, 서치 시에 시간이 단축되는 등 효율적인 포멧이라 소개하고 있다), dta파일의 경우 MS MS/MS 데이터를 가지고 있고, out 파일의 경우 sequest 서치를 통해 identified peptide 정보를 갖고 있다. 한 파일로 되어 있는 것이 아니라, precursor에 파일이 하나씩 할당되어 있기 때문에, 파일이 여러 개로 구성되어 있다.

 

이 데이터를 한 개의 파일로 merge시키면서 TPP에서 가용할 수 있도록 만들기 위해서 TPP pipeline에 있는 out2summary.exe 명령어를 사용한다.

(최근 out2xml.exe라는 명령어가 새로 선보였는데, 이는 해당 폴더에 있는 dta,out파일과 sequest parameter파일을 읽어 pepXML로 바로 변환해 주는 기능을 한다. 그러나 테스트해 본 결과 계속 에러가 나와 현재 사용 못하고 있는 상태이다. 2007-03-02)

 

그러나 만약 이들 파일이 생성된 컴퓨터와 현재 컴퓨터가 다를 경우 이들 파일을 merge하기에 앞서 out파일에 있는 정보를 미리 수정해 주어야 한다. out파일에 있는 정보가 생성시 사용된 컴퓨터의 환경에 맞게 저장되어 있기 때문이다.

 

아래 그림을 보듯이 dta out 포멧 파일이 1이라는 폴더 안에 들어가 있다고 하자.

이 중 하나를 메모장이나 워드패드로 열어 내용을 확인해 보면 아래와 같다.

위에 붉은색으로 표시된 부분이 sequest 서치시 사용된 데이터베이스의 경로에 해당된다. 그러나 이 데이터를 다른 컴퓨터에서 분석해야 하므로Human_20050223.fasta를 현재 분석하는 데 사용되는 컴퓨터에 맞게 바꾸어 주어야 한다. 변경하지 않을 경우 TPP 이후 단계를 거치면서 계속 잘못된 hyper text link가 물려 가게 되어 결과를 클릭했을 때 세부 내용을 볼 수 없게 된다. 따라서 이를 c:\inetpub\wwwroot\isb\data\NCBInr_2007-02-15.fasta로 바꾸도록 하자. 문제는 dtaout파일의 수가 엄청 많기 때문에 일일이 바꾸어 준다는 건 거의 불가능하다. Ultra edit이라던가 기타 텍스트 편집 프로그램 중에 이렇게 다량의 파일 중에 특정 문자열을 다른 문자열로 바꾸어 주는 기능이 있다고 한다. 그러나 여기서는 간단하게 perl 언어를 사용하여 데이터베이스 경로 정보를 바꾸어 주도록 한다.

Cygwin bash shell을 사용하여 perl 언어를 사용한다. (도스 모드에서는 잘 되지 않았다.)

Cd 명령어와 ls 명령어로 해당 폴더(dta, out파일이 있는 폴더)에 접근한다.

그런 후 다음과 같은 명령어로 특정 문자열을 교체해 준다.

 

perl -i -pe 's/바꿀문자/바뀔문자/g' 파일명

/와 같은 특수문자는 앞에 \를 붙이면 기호 자체로 쓰이게 된다.

ex) perl -i -pe 's/aaa\/bbb/ccc\/ddd/g'   filename

이렇게하면 aaa/bbb   ccc/ddd 로 바꾸게 된다.

Perl i pe s/Human_20050223.fasta/c:\\inetpub\\wwwroot\\isb\\data\\NCBInr_2007-02-15.fasta/g *.out

(문자열은 대소문자를 구별하므로 이 점 주의하여 작성한다.)

그 결과 원본을 bak이라는 확장자를 붙여 보관하고, out파일을 열어 보면 지정한 문자열이 원하는 문자열로 바뀌어 있음을 확인할 수 있다.

다음과 같은 명령어를 통해서 이들 파일을 sequest 서치 결과를 그대로 지닌 html파일로 생성하게 되면 이 파일은 TPP에서 pepXML로 변환 가능하다.

(bak파일은 다른 곳에 따로 보관하거나 삭제한다. 그렇지 않으면 out2summary에 바뀌어진 out파일과 함께 반영된다.)

Out2summary 폴더(dtaout파일 포함) > output file name

(참고 : out2xml이라는 파일이 최근 개발되었는데, sequestparameter파일의 정보를 dtaout파일에 반영하여 pepXML을 생성한다고 한다. 아직 이 파일로는 성공적으로 pepXML을 생성시키지 못했다. 2007-03-02)

TPP에서 frac01.html을 열어 TPP browser를 통해 보면 아래와 같은 파일임을 확인할 수 있다.

TPPpepXML tab에서 이 생성된 html을 이용해 pepXML을 생성한다.