ΠΡΟΤΕΙΝΟΜΕΝΕΣ ΕΡΓΑΣΙΕΣ

 

 

 

1. Βάσεις Πρωτεϊνών και ομαδική επεξεργασία

 

Στόχος:

Η χορήγηση κάποιου φαρμάκου έχει σαν συνέπεια την μεταβολή αρκετών πρωτεϊνών. Ο σκοπός είναι η απόκτηση λειτουργικών και δομικών πληροφοριών ( functional / structural ) για κάθε μία από αυτές τις πρωτεΐνες. Επιπρόσθετα θα εξεταστεί η δυνατότητα σύνδεσης αυτών των πληροφοριών.

Σύντομη περιγραφή απαιτήσεων:

Προσπελάζουμε μία βάση πρωτεϊνών (π.χ. την swissProt http://www.expasy.org/sprot/) . Στην οποία υποβάλλουμε ένα ερώτημα για μία πρωτεΐνη. Η βάση επιστρέφει μία πληθώρα αποτελεσμάτων που αφορούν στην πρωτεΐνη. Οι πληροφορίες που θα αντληθούν αφορούν στην λειτουργία της πρωτεΐνης και στη δομή της. Στη συνέχεια η ακολουθία της πρωτεΐνης θα διοχετευτεί στο εργαλείο Netphos ( http://www.cbs.dtu.dk /services/NetPhos/ ) που προβλέπει τις περιοχές της πρωτεΐνης που υφίστανται phoshorylation . Αυτό πρέπει να επαναληφθεί για όλες τις πρωτεΐνες.

Παραδοτέο:

Μία σειρά από συναρτήσεις/μεθόδους σε C / Java / Perl / Matlab . Σε περίπτωση που επιλεγεί η γλώσσα Java μπορεί να δοκιμαστεί μία νέα προσέγγιση που βασίζεται σε λογικό προγραμματισμό.

Ομάδα :

2-3 άτομα

 

2. Πρόβλεψη τριδιάστατης δομής πρωτεϊνων

Στόχος:

Οι πρωτεΐνες αποτελούνται από ένα αλφάβητο 20 αμινοξέων. Η πρωτογενής δομή τους ( primary structure ), είναι η συγκεκριμένη ακολουθία αμινοξέων που τις αποτελούν. Όμως οι πρωτεΐνες (σε φυσιολογικές συνθήκες) υιοθετούν μία τριδιάστατη δομή στο χώρο. Η γνώση αυτής της δομής είναι ουσιαστική για την κατανόηση της λειτουργίας της πρωτεΐνης. Η βάση Genbank έχει 22,000,000 ακολουθίες αλλά γνωρίζουμε τη τριδιάστατη δομή περίπου 25,000 πρωτεϊνών (βάση PDB ). Αυτές οι δομές έχουν προσδιοριστεί πειραματικά (π.χ. με κρυσταλλογραφία). Αλλά οι πειραματικές μέθοδοι έχουν υψηλό κόστος (από εδώ πηγάζει και η διαφορά 25000 με 22000000). Οπότε παρουσιάζει μεγάλο ενδιαφέρον η πρόβλεψη δομής με υπολογιστικές μεθόδους.

 

Ακολουθία Αμινοξέων

 

Τριδιάσταστη δομή

MSTNPKPQRKTKRNTNRRPQDVKFPGGGQ

IVGGVYLLPRRGPRLGVRAPRKTSERSQPR

GRRQPIPKARRPEGRTWAQPGYPWPLYGNE

GLGWAGWLLSPRGSRPSWGPTDPRRRSRNL

GKVIDTLTCGFADLMGYIPLVGAPLGGAAR

ALAHGVRVLEDGVNYATGNLPGCSFSIFLL

ALLSCLTTPASAYEVHNVSGIYHVTNDCSN

ASIV....

 

Σύντομη περιγραφή απαιτήσεων:

Αρχικά γίνεται μία επισκόπηση των μεθόδων που έχουν χρησιμοποιηθεί, και στη συνέχεια υλοποιούνται κάποιες από αυτές.

 

Παραδοτέο:

Μία σειρά από συναρτήσεις/μεθόδους σε C / Java / Perl / Matlab .

Ομάδα:

3-4 άτομα

 

3. Έκφαση γονιδίων

Στόχος

Η ολοκλήρωση της καγραφής του ανθρωπίνου γονδιώματος, αλλά και αυτού πολλών άλλων οργανισμών έχουν δημιουργήσει μία πληθώρα πληροφορίων. Οι βιολόγοι έχουν να τώρα να λύσουν το πρόβλημα της εύρεσης της ρόλου όλων των γονιδίων που έχουν καταγραφεί. Σε αυτό το πεδίο σημαντικότατη συμβολή έχει η τεχνολογία των μικροσυστοιχιών (microarrays). Οι μικροσυστοιχίες DNA χρησιμοποιούνται ευρύτατα για την μελέτη της συμπεριφοράς χιλιάδων γονιδίων ταυτόχρονα, δηλαδή μπορεί να δειχθεί η ρόλος τους κάτω από συγκεκριμένες συνθήκες.

Τα πειράματα μικροσυστοιχιών δημιουργούν ένα τεράστιο όγκο δεδομένων ο οποίος πρέπει να αναλυθεί προκειμένου να εξαχθούν συμπεράσματα για την αλληλεπίδραση γονιδίων, που έχουν μεγάλη σημασία σε πολύπλοκες λειτουργίες, όπως είναι η ανάπτυξη ενός οργανισμού ή η αιτία κάποιας ασθένειας.

Αρχικά το αποτέλεσμα ενός τέτοιου πειράματος είναι μία σειρά από εικόνες. Στη συνέχεια οι εικόνες μετατρέπονται σε δεδομένα προκειμένου να αναλυθούν. Έχουν χρησιμοποιηθεί πολλοί αλγόριθμοι για την ανάλυσή τους από τον τομέα της στατιστικής, υπολογιστικής νοημοσύνης κτλ.

(Αρχική εικόνα (microarray) ==> Επεξεργασμένη εικόνα ==> Στατιστική Ανάλυση

Σύντομη Περιγραφή απαιτήσεων:

Επισκόπιση του χώρου των πειραμάτων μικροσυστοιχιών. Η έμφαση θα δοθεί στους αλγορίθμους/μεθόδους ανάλυσης των δεδομένων. Προβλέπεται ότι θα υλοποιηθούν κάποιοι αλγόριθμοι καθώς και η δοκιμή τους σε υπαρκτά δεδομένα (π.χ. βάση Standford Microarray expression Data).

Παραδοτέα:

Αναφορά επισκόπισης, κώδικας που υλοποιεί κάποιους αλγόριθμους.

Ομάδα

3-4 άτομα.

 

4. Ολοκλήρωση Βιοπληροφοριακών Συστημάτων

Στόχος:

Υπάρχουν δεκάδες βάσεις δεδομένων (για γονίδια, πρωτεΐνες κτλ.) και μία πλειάδα από εργαλείων (για ευθυγράμμιση ακολουθιών, πρόβλεψη δομής πρωτεϊνών κτλ.) στα οποία η πρόσβαση καθίσταται δυνατή μόνο με web interfaces. Το πρόβλημα είναι ότι τα interfaces απευθύνονται σε ανθρώπους και δεν διευκολύνουν την αυτόματη πρόσβαση.

Εκείνο που αναζητήται είναι ένας μηχανισμός, βάσει του οποίου οι ερευνητές αλληλεπιδρούν ταυτόχρονα με πολλές βάσεις ανεξάρτητα από τη μορφή που παίρνουν τα δεδομένα στις βάσεις, ακόμη και ανεξάρτητα από το σχήμα της βάσης. Επίσης ένας τέτοιος μηχανισμός πρέπει να επιτρέπει την αυτόματη και δυναμική έρευνα σημαντικών δεδομένων καθώς και την εύρεση των μεταξύ τους σχέσεων.

Σύντομη περιγραφή απαιτήσεων:

Για την επίτευξη του παραπάνω σκοπού έχουν αναπτυχθεί τα παρακάτω συστήματα. Θα εξεταστούν και θα συγκριθούν προκειμένου να βρεθούν οι τομείς τους οποίους καλύπτουν.

  1. Distributed Annotation System (DAS) (biodas.org)
  2. Transparent Access to Multiple Bioinformatics Information Sources (TAMBIS)
  3. BioMOBY (www.biomoby.org)
  4. PROVA (city university)
  5. ISYS (www.ncgr.org/isys)
  6. OMNIGENE (http://omnigene.sourceforge.net)
  7. GeneX

Παραδοτέα:

Αναφορά επισκόπισης.

Ομάδα:

2-3 άτομα

5. Όρυξη δεδομένων σε γονίδια

Στόχος

Ταυτοποίηση της λειτουργίας των γονιδίων που είναι υποψήφια για την Κυστική Μυελική Νόσο Τύπου 2.

Πιο συγκεκριμένα αφορά την σύγκριση των ακολουθιών των υποψηφίων γονιδίων με γονίδια των οποίων έχει ταυτοποιηθεί η λειτουργία προκειμένου να εξαχθούν ομοιότητες. Σε ένα αρχικό στάδιο προεπεξεργασίας, θα μεταβούμε από τα γονίδια στις αντίστοιχες πρωτεΐνες που αυτά εκφράζουν. Έχει διαπιστωθεί πειραματικά ότι η πενταπλή αύξηση του αλφαβήτου (από 4 βάσεις σε 20 αμινοξέα) καθιστά ευκολότερη την ανίχνευση ομοιότητας ακολουθιών.

 

Αλγόριθμοι Σύγκρισης μέσω ευθυγράμμισης

Στη συνέχεια μπορούν να εφαρμοστούν αλγόριθμοι που αφορούν στη σύγκριση. Αρχικά προβλέπεται να δοκιμαστούν όπως η FASTA και η BLAST . Το πλεονέκτημα που μας παρέχουν είναι η ταχύτητα, υστερούν όμως στην ακρίβεια των αποτελεσμάτων. Πιο συγκεκριμένα, ομοιότητες που αντιστοιχούν σε μακρινές (από εξελικτική άποψη ακολουθίες) μπορεί να μην εντοπιστούν. Παρόλα αυτά η FASTA και η BLAST αποτελούν το πρώτο βήμα για να εντοπιστούν αδρές ομοιότητες.

Περισσότερες ομοιότητες μεταξύ ακολουθιών αμινοξέων, δηλαδή πιο μακρινές εξελικτικά μπορούν να εντοπιστούν με τη μέθοδο του Smith - Waterman που χρησιμοποιεί δυναμικό προγραμματισμό. Η μέθ o δος Smith - Waterman υλοποιείται από το πρόγραμμα SSEARC Η. Η μεγαλύτερη ακρίβεια της μεθόδου αυτής έρχεται μαζί με το τίμημα της βραδύτερης εκτέλεσης του αλγορίθμου Smith - Waterman (μέχρι και 50 φορές αργότερο από FASTA , BLAST ). Οπότε δοσμένων κάποιων υπολογιστικών πόρων θα πρέπει να δούμε σε ποιες ακολουθίες θα εφαρμοστεί.

Μία ακόμη ακριβέστερη μέθοδος που μπορεί να χρησιμοποιηθεί είναι η Bayes block aligner . Το μειονέκτημά της είναι ότι σημαντικά βραδύτερη ακόμη και από την μέθοδο Smith - Waterman .

Σε κάθε περίπτωση, τα καλύτερα ταιριάσματα αντιστοιχούν σε ακολουθίες που έχουν την ίδια λειτουργία, δομή ή βιοχημική δραστηριότητα. Η ισχύς της πρόβλεψης εξαρτάται από την ποιότητα της ευθυγράμμισης ανάμεσα στις ακολουθίες.

Πίνακες βαθμολόγησης και εκτίμηση ευθυγραμμίσεων ( scoring matrices and significance of alignments)

Η απαραίτητη προϋπόθεση κάθε ευθυγράμμισης είναι ο πίνακας βαθμολόγησης που αφορά στις αντικαταστάσεις, ταιριάσματα αμινοξέων. Τυπικές περιπτώσεις πινάκων βαθμολόγησης είναι οι PAM και ο BLOSUM . Αυτοί οι πίνακες έχουν προέλθει από στατιστικές μελέτες σε βάσεις ακολουθιών αμινοξέων και έχουν διαφορετικές προϋποθέσεις. Οι προϋποθέσεις θα πρέπει να ληφθούν υπόψιν για την ερμηνεία των αποτελεσμάτων της ευθυγράμμισης. Για παράδειγμα οι πίνακες PAM έχουν προέλθει από ακολουθίες πρωτεϊνών που ανήκουν στη ίδια οικογένεια (είναι ομόλογες), ενώ το ακριβώς αντίθετο έχει γίνει για τον πίνακα BLOSUM . Επίσης κάθε ένας πίνακας έχει διαφορετικές παραλλαγές που αντιστοιχούν σε διαφορετικές ομοιότητες ακολουθιών. Κάθε μία παραλλαγή έχει διαφορετική ικανότητα να διαχωρίζει σημαντικές από τυχαίες ευθυγραμμίσεις.

Τέλος μετά το πέρας της ευθυγράμμισης θα πρέπει να γίνεται στατιστική αξιολόγηση των αποτελεσμάτων. Οι περισσότεροι αλγόριθμοι παρέχει διάφορα μέτρα της σημαντικότητας των ευθυγραμμίσεων όπως είναι το Z - score , P value , E value κτλ.

 

Σύγκριση μέσω profiles

Χρήσιμες πληροφορίες μπορούν να εξαχθούν και τη μέθοδο της ευθυγράμμισης πολλαπλών ακολουθιών ( multiple sequence alignment ) και τοπική ευθυγράμμιση ( local alignment ). Τέτοιες μέθοδοι είναι δυνατό να εξαγάγουν ένα μόρφωμα που απαντάται σε κάποιες πρωτεΐνες το οποίο πιθανότατα προέρχεται από κάποιο κοινό πρόγονο. Στη συνέχεια η πρωτεΐνη της οποίας την λειτουργία αγνοούμε μπορεί να συγκριθεί με το profile και να εξαχθεί ο βαθμός ομοιότητας.

Παραδοτέα:

Η περιγραφή των πειραμάτων και τα αποτελέσματα

 

Ομάδα:

3-4 άτομα

6. Ανάλυση microarray εικόνων που έχουν παραχθεί με την μέθοδο flip dye .

Στόχος

Η ανάλυση εικόνων microarray (μικροσυστοιχιών) που έχουν δημιουργηθεί μέσω της μεθόδου flip dye . Με αυτή την μέθοδο στα μικροστοιχίες εφαρμόζεται μια χημική ένωση φωσφορούχα στο CY 3 χρώμα και ακόλουθος σε ένα πανομοιότυπο μικροστοιχείο εφαρμόζεται η χημική ένωση φωσφορούχα στο CY 5 χρώμα. Η ανάλυση αυτόν τον δύο εικόνων μπορεί να καταλήξει σε σημαντικά συμπεράσματα.

Καλείστε να αναλύσετε δεδομένα τα οποία θα σας δοθούν χρησιμοποιώντας γνωστούς αλγόριθμους που όμως εσείς θα αποφασίσετε ποίοι θα είναι και με πια σειρά και παραμέτρους θα χρησιμοποιηθούν. Είστε ελεύθεροι να χρησιμοποιήσετε έτοιμο λογισμικό που υπάρχει στο διαδίκτιο ή να υλοποιήσετε δικο σας.

Παραδοτέα:

Αναφορά αλγορίθμων που χρησιμοποιήσατε για την ανάλυση των δεδομένων. Η αναφορά σας πρέπει να δικαιολογεί τις επιλογές σας για τους συγκεκριμένους αλγόριθμους καθώς και για την τυχών σειρά και παραμέτρους που χρησιμοποιήσατε. Τυχών κώδικα που υλοποιήσατε.

 

Ομάδα

3-4 άτομα.


 

 

 

 

 

ΕΠΛ 450: Υπολογιστική Βιολογία
Χειμερινό Εξάμηνο - Ακαδημαϊκό Έτος 2003/2004

Ανακοινώσεις

Περιγραφή μαθήματος Τρόπος αξιολόγησης Διαλέξεις

Βιβλιογραφία

Κατάλογ. ασκήσεων Βαθμολογία Εργασίες
Το υλικό των ιστοσελίδων θα ανανεώνεται κατά τακτά διαστήματα

Τελευταία ενημέρωση δικτυακού τόπου: Δημήτρης Βογιατζής 24/2/2004

παρακαλούμε στείλτε τις παρατηρήσεις σας στο dimitrv@cs.ucy.ac.cy