Επιστήμη Δεδομένων και Βιοτεχνολογία
Θεωρία: 2 ώρες/εβδομάδα | Μονάδες ECTS: 3
Περιεχόμενο – Σκοπός του μαθήματος
Η επιστήμη των δεδομένων (data science) είναι ένας σχετικά σύγχρονος όρος, ο οποίος ήρθε να αντικαταστήσει προγενέστερους, όπως Ανακάλυψη Γνώσης από Βάσεις Δεδομένων (Knowledge Discovery in Database) ή Εξόρυξη Δεδομένων (Data Mining) και συνάδει με την αναζήτηση, κατανόηση και αξιοποίηση μεγάλου όγκου δεδομένων (big data). Δεδομένου ότι η βιοτεχνολογία μπορεί να οριστεί ως «κάθε τεχνολογική εφαρμογή που χρησιμοποιεί βιολογικά συστήματα, ζωντανούς οργανισμούς και παράγωγά τους για να δημιουργήσει προϊόντα ή διεργασίες με συγκεκριμένη χρήση», τα τεχνολογικά εργαλεία που αξιοποιεί (μαθηματικά, στατιστική, πληροφορική, διαθεσιμότητα δεδομένων κλπ.) εξελίσσονται και βελτιώνονται διαρκώς και ένα από αυτά αφορά στην επιστήμη δεδομένων. Επιπλέον, καθώς όλες οι επιχειρήσεις του κλάδου της (και όχι μόνο) βασίζονται στα δεδομένα και στις τεχνολογίες πληροφορίας, ένας επιστήμονας του χώρου πρέπει να διαθέτει δεξιότητες που να συνάδουν με την επιστήμη των δεδομένων.
Επιπλέον, οι βιοτεχνολόγοι, ως ερευνητές που εφαρμόζουν στατιστικές αναλύσεις στο μικρόκοσμο της βιολογίας, είναι και αυτοί επιστήμονες δεδομένων. Τόσο οι βιοτεχνολόγοι όσο και οι επστήμονες δεδομένων είναι ειδικοί στο σχεδιασμό έρευνας (πειραματικό, προ-πειραματικό και ψευτο(quasi)-πειραματικό) και συνεπώς γνώστες της τριπλέτας: μαθηματικά, στατιστική (βιο-στατιστική) και προγραμματισμός. Συλλέγοντας πλήθος δεδομένων από τα δυναμικά συστήματα του μοριακού κόσμου, τα εξετάζουν λεπτομερώς ώστε να προσδιορίσουν τους παράγοντες που είναι πιο πιθανό να απαιτήσουν υπολογιστική προσπάθεια. Για το λόγο αυτό, οι βιοτεχνολόγοι μαθαίνουν να χρησιμοποιούν προγραμματιστικά εργαλεία όπως η R και η Python, καθώς και να αντλούν και να αναλύουν δεδομένα από βάσεις δεδομένων, που σύμφωνα με πρόσφατες έρευνες επιχειρήσεων απασχόλησης (Glassdoor) θα τους επιτρέψουν να ενταχθούν σε ανταγωνιστικές περιοχές της αγοράς εργασίας.
Το μάθημα έχει διττό σκοπό: αφενός να προσφέρει στους φοιτητές το θεωρητικό υπόβαθρο και τις τεχνικές γνώσεις αναφορικά με την επιστήμη των δεδομένων και αφετέρου να συμβάλει στην κατανόηση του τρόπου αξιοποίησης των δεδομένων (πχ. των βιολογικών δεδομένων) και στην παραγωγή μοντέλων πρόβλεψης σε εφαρμογές βιοτεχνολογίας.
Αναλυτικό Περίγραμμα του Μαθήματος
- Εισαγωγή στην επιστήμη των δεδομένων.
- Εισαγωγή στα μοντέλα πρόβλεψης (predictive modeling).
- Ελεγχόμενη τμηματοποίηση (Supervised Segmentation).
- Διακριτικές Συναρτήσεις (Discriminant Functions)
- Ανάλυση επίδοσης μοντέλων (model performance analytics)
- Αναλυτική Θεώρηση Αποφάσεων (Decision Analytic Thinking)
- Οπτικοποίηση επίδοσης μοντέλων (visualizing model performance)
- Προβλέψεις με συνδυασμό τεκμηρίων (prediction via evidence combination)
- Αναπαράσταση και Εξόρυξη Κειμένου (Representing and Mining Text)
- Ομοιότητες και γειτνίαση (similarity and nearest neighbors)
- Μη ελεγχόμενη εξόρυξη δεδομένων και συσταδοποίηση (Unsupervised Data Mining and Clustering)
- Άλλες διεργασίες και τεχνικές της επιστήμης δεδομένων
- Παρουσίαση/εξέταση εργασιών
Τρόπος Αξιολόγησης
Η αξιολόγηση του κάθε φοιτητή πραγματοποιείται:
- Μία ατομική τελική εργασία (A).
- Τελική εξέταση (E)
O τελικός βαθμός υπολογίζεται ως εξής:
TB = 0.7*E + 0.3*A
Όπου Α ο αντίστοιχος βαθμός για την εργασία σε κλίμακα από 1-10.
Ο φοιτητής ολοκληρώνει επιτυχώς το μάθημα εάν
- E > 5 και
- ΤΒ > 5
Προτεινόμενα Συγγράμματα
– Lantz, B. (2015). Machine Learning with R. Second Edition. Packt Publishing.
– Βερύκιος, Β.Σ., Καγκλής, Β. και Σταυρόπουλος, Η.Κ. (2015) Η επιστήμη των δεδομένων μέσα από τη γλώσσα R. ΣΕΑΒ: Εκδόσεις Κάλλιπος
Προτεινόμενη Βιβλιογραφία
- Συμεωνίδης, Π. και Γούναρης, Α. (2015). Βάσεις, Αποθήκες και Εξόρυξη Δεδομένων με τον SQL Server: Εργαστηριακός Οδηγός. ΣΕΑΒ: Εκδόσεις Κάλλιπος
- Provost, F. and Fawcett, T. (2013).Data Science for Business. O’Reilly Media, Inc: Sebastopol, Canada.
Προτεινόμενα Περιοδικά
- Big Data Research
- Data in Brief
- Computational Statistics & Data Analysis
- Statistical Analysis and Data Mining
- ACM Computing Surveys
Εκπαιδευτικό Υλικό / E-class
Διδάσκων
Λεωνίδας Ανθόπουλος (Υπεύθυνος)
Καθηγητής, Τμήμα Διοίκησης Επιχειρήσεων, Πανεπιστήμιο Θεσσαλίας