Wednesday, April 06, 2005

想法整理及注意事項

1. 要考慮Spectrum Quality? IntensityPeak密集度或者考慮Random Peak?

2. 要用b-ion或者y-ion或者所有ion算分?如果要用b-ion,要用transformation table或者其他方法?

3. Scoring Function(用來比較Predicted SpectrumExperimental Spectrum

A. 僅利用b-iony-ion或用全部可能的ion

B. 加入Intensity的概念

C. 加入Random Peak的概念

D. 利用機率對每個AA進行投票(Google概念)

E. 沒有match到的要扣分嗎?(一般要,但GA適合嗎?)(跟IR一樣,如果有not的時候要去掉嗎?)

F. 利用Alignment比較圖譜之間的相似(比較Peak之間差異值的相似性)

G. 利用段與段之間的差異值來跳過某些被跳過的片段

H. 延伸部分tag,中間用GA

4. 結合不同的方法做出來的結果如果有ambiguity的地方,用GA或其他方法解決

Tuesday, April 05, 2005

想法整理

想法整理:

1. 利用b-ion(要先判定)跟y-ion的強度決定de novo 出來的Quality(利用Si’=X-Si-d),見JCBSHERENGA: De novo peptide sequencing via tandem mass spectrometry(1999)

2. 利用這種b-ion轉成y-ion後出現類似peak的數量增強scoring function

3. Random Peak的概念加入GA-based de novo sequencing

4. 會不會最好的分數不一定會代表原來的sequencing

(Ans: 1. 有可能,所以Ting Chen提出suboptimal2. 可能代表你的scoring function不好)

5. 利用GoogleRank方式來找出最有可能的Peptide(de novo)

6. Intensity的資訊考慮進去GA model

7. 想出一個方法來解決GA中一個sequence如果差異一個AA,整個圖譜就會差異很大的狀況。是不是可以每個圖譜之間的Peakdifference進行match

例如: 1. A B C D (假設之間的差距用d1, d2, d3表示) 2.A’B’C’D’ (假設之間的差距用d1’, d2’, d3’表示),我們可以利用d1, d2, d3align(GA paper方法不太相同,GAA’-A利用相減來得到)

8. 最好出來能夠reporducible

9. 另外,沒有match到的要扣分?(一般都要,但適合在GA嗎?跟IR一樣,如果有not者要去掉嗎?)

10. 如果用GA paper第四項的方法,就不容易判斷是否相似,例如:

Experiment: GAP (58, 129, 226)

Predication: GSP (58, 145, 242)

P1 P2 P3

------------------

E1|0 -87 -184

E2|71 -16 -113

E3|168 81 -16

如果照GA的方法,不容易看出加什麼樣的值,如果多個的話又更不容易了

但是如果使用GAPGSPsequence差,就可以看出:

例如:

58 129 226 à 58, 71, 97

58 145 242 à 58, 87, 97

利用這種相同差異的方式可以更容易判斷相似性,且要有相似性à可以考慮用Blast或其他alignment的方式進行(要考慮GAP的狀況)

11. 或者可以考慮GAPAPG,其中GAPAPGAPG可以取中間段與段之間的方式就可以跳過不符合者。

12. 利用LuteFiskGA或其他方法進行混合可以看出兩個相似的sequence在哪並解決ambiguity的地方。

13. 先計算一次自己的作法實驗是否合理,自己可以先用筆算(alignment)的方式(可以利用GA Paper裡面的資料)。

14. 如果要算GAscoring function,可以先將experimentalb-ion(利用各種ion加強b-ion分數找出後),再進行match(alignment或者GA)

15. 查我們所用的MSHigh-Energy 或者Low Energy,並查這兩者的不同。

16. 是不是可以將PepNovoGA的方法結合,因為PepNovo是找出P(S|P),這個部分似乎可以採用GA,目前的方法是因為search space過大,不容易找出答案,因此我們可以用GA+PepNovo

17. 將各種ion相依性考慮在系統內

18. 利用密度判定品質的好壞(GA可以進行score),太密集者,雜訊過多,可能代表noise多,要扣分。

19. 利用一次延伸一個的作法,中間無法接的,用GA

產生b-ion是否跟著要產生y-ion

Friday, April 01, 2005

心得: Algorithms for de novo peptide sequencing using tandem mass spectrometry(2004)

使用de nov sequencing的六個理由:

(1) 對於有興趣的protein之sequence可能不存在資料庫裡
(2) Gene-finding的程式可能有錯, 因此即使資料庫裡面有這樣的資料, 也會找不出來
(3) 有些科學家可能在學習基因體學之前想先學習蛋白質體學, 此時就沒有sequence database可以用
(4)Gene經過alternative splicing或者SNP後可能會有新的protein
(5)de novo sequencing對於找mutation和modification的AA會有幫助
(6)當database search的結果有ambiguous的時候,可以利用de novo sequencing來做驗證

目前提過的方法有下列幾種:

(1) 產生所有可能的sequence並且產生理論的spectrum, 並與實際的spectrum進行比較-->計算量過大

(2) 一次延伸一個, 這裡的問題在於中途如果有比較不好的data就不容易皆起來

(3) 利用使用者繪圖的介面來表示資料, 這種方法對於實際的問題沒有太大的幫助,但是可以幫助使用者很快地瞭解資料

(4)使用graph theroy

SeqMS的作法:
(1) 將ion type對上每個可能的機率
(2) 每個peak根據(1)轉換成spectrum graph
(3)藉由兩個node之間的差距進行連結
(4) 從N-terminal到C-terminus找最短路徑

Sherenga的演算法:
(1) 從一大堆的已知的spectrum學習ion type的特性
(2) 利用這些ion的特性將S轉化成spectrum(一個S可能可以轉換成k種ion), 因此, 1個ion在spectrum graph裡面就有k個點, 我們計算兩個點之間的差距來得出可能AA, 要找出最長的距離, 這樣的方法可能會找到許多不符合現實狀況的sequence