Επιλογή Σελίδας

Επιστήμη Δεδομένων και Βιοτεχνολογία

Αρχική E Πρόγραμμα & Οδηγός Σπουδών E Επιστήμη Δεδομένων και Βιοτεχνολογία

Θεωρία: 2 ώρες/εβδομάδα | Μονάδες ECTS: 3

Μαθησιακά Αποτελέσματα

Η επιστήμη των δεδομένων (data science) είναι ένας σχετικά σύγχρονος όρος, ο οποίος ήρθε να αντικαταστήσει προγενέστερους, όπως Ανακάλυψη Γνώσης από Βάσεις Δεδομένων (Knowledge Discovery in Database) ή Εξόρυξη Δεδομένων (Data Mining) και συνάδει με την αναζήτηση, κατανόηση και αξιοποίηση μεγάλου όγκου δεδομένων (big data). Οι βιοτεχνολόγοι, ως ερευνητές που εφαρμόζουν στατιστικές αναλύσεις στο μικρόκοσμο της βιολογίας, είναι και αυτοί επιστήμονες δεδομένων. Για το λόγο αυτό, οι βιοτεχνολόγοι μαθαίνουν να χρησιμοποιούν προγραμματιστικά εργαλεία όπως η R και η Python, καθώς και να αντλούν και να αναλύουν δεδομένα από βάσεις δεδομένων.

Το μάθημα έχει διττό σκοπό: αφενός να προσφέρει στους φοιτητές το θεωρητικό υπόβαθρο και τις τεχνικές γνώσεις αναφορικά με την επιστήμη των δεδομένων και αφετέρου να συμβάλει στην κατανόηση του τρόπου αξιοποίησης των δεδομένων (πχ. των βιολογικών δεδομένων) και στην παραγωγή μοντέλων πρόβλεψης σε εφαρμογές βιοτεχνολογίας.

Με την ολοκλήρωση του μαθήματος οι φοιτητές είναι σε θέση να:

  • Ορίζουν τα θεμελιώδη των δεδομένων.
  • Θέτουν ερωτήσεις.
  • Συλλέγουν δεδομένα.
  • Προετοιμάζουν δεδομένα.
  • Αναλύουν δεδομένα.
  • Εξάγουν αποφάσεις.
  • Εφαρμόζουν τεχνικές εξόρυξης δεδομένων.

Αναλυτικό Περίγραμμα του Μαθήματος

  • Εισαγωγή στην επιστήμη των δεδομένων.
  • Εισαγωγή στα μοντέλα πρόβλεψης (predictive modeling).
  • Ελεγχόμενη τμηματοποίηση (Supervised Segmentation).
  • Διακριτικές Συναρτήσεις (Discriminant Functions)
  • Ανάλυση επίδοσης μοντέλων (model performance analytics)
  • Αναλυτική Θεώρηση Αποφάσεων (Decision Analytic Thinking)
  • Οπτικοποίηση επίδοσης μοντέλων (visualizing model performance)
  • Προβλέψεις με συνδυασμό τεκμηρίων (prediction via evidence combination)
  • Αναπαράσταση και Εξόρυξη Κειμένου (Representing and Mining Text)
  • Ομοιότητες και γειτνίαση (similarity and nearest neighbors)
  • Μη ελεγχόμενη εξόρυξη δεδομένων και συσταδοποίηση (Unsupervised Data Mining and Clustering)
  • Άλλες διεργασίες και τεχνικές της επιστήμης δεδομένων
  • Παρουσίαση/εξέταση εργασιών

Τρόπος Αξιολόγησης

Η αξιολόγηση του κάθε φοιτητή πραγματοποιείται:

  1. Μία ατομική τελική εργασία (A).
  2. Τελική εξέταση (E)

O τελικός βαθμός υπολογίζεται ως εξής:
TB = 0.7*E + 0.3*A
Όπου Α ο αντίστοιχος βαθμός για την εργασία σε κλίμακα από 1-10.
Ο φοιτητής ολοκληρώνει επιτυχώς το μάθημα εάν

  1. E > 5 και
  2. ΤΒ > 5

Προτεινόμενα Συγγράμματα

– Lantz, B. (2015). Machine Learning with R. Second Edition. Packt Publishing.
– Βερύκιος, Β.Σ., Καγκλής, Β. και Σταυρόπουλος, Η.Κ. (2015) Η επιστήμη των δεδομένων μέσα από τη γλώσσα R. ΣΕΑΒ: Εκδόσεις Κάλλιπος

Προτεινόμενη Βιβλιογραφία

  • Συμεωνίδης, Π. και Γούναρης, Α. (2015). Βάσεις, Αποθήκες και Εξόρυξη Δεδομένων με τον SQL Server: Εργαστηριακός Οδηγός. ΣΕΑΒ: Εκδόσεις Κάλλιπος
  • Provost, F. and Fawcett, T. (2013).Data Science for Business. O’Reilly Media, Inc: Sebastopol, Canada.

Προτεινόμενα Περιοδικά

  • Big Data Research
  • Data in Brief
  • Computational Statistics & Data Analysis
  • Statistical Analysis and Data Mining
  • ACM Computing Surveys

Εκπαιδευτικό Υλικό / E-class

https://eclass.uth.gr/courses/BIO_U_176/

Διδάσκων

Λεωνίδας Ανθόπουλος (Υπεύθυνος)

Καθηγητής, Τμήμα Διοίκησης Επιχειρήσεων, Πανεπιστήμιο Θεσσαλίας