Tirocini, stage e tesi

Alle seguenti pagine sono consultabili i tirocini, tesi e assegni di ricerca in corso e terminati:

Argomenti di tirocinio/tesi/assegni disponibili

Titolo: Real-time Streaming Infrastructure for Next Generation Sequencing

Tipologia: Tesi triennale / Tesi magistrale / Tirocinio curriculare / Assegno di ricerca

Descrizione: The low cost of Next Generation Sequencing technology has allowed the production of Terabytes data at an unprecedented rate. However, producing reads is not the ultimate step to obtain sequences. Raw data must pass through a multi-step process to reach the final assembly of sequences. The computation involved can be highly resource demanding, making the centralized approach not suitable for such applications. In such respect, streaming technologies proved to be promising for distributed workflows. To implement this approach, the Kafka platform will be used due to its reliability in events streaming. In the present case study, the platform will be integrated in a scalable and reliable infrastructure that will be optimized and tested for a production-like environment.

Capacita’ richieste: bash, Linux, sistemi di virtualizzazione

Persona di Riferimento: Daniele Cesini

Titolo: Exploring Machine Learning Techniques for anomaly detection of a data center

Tipologia: Tirocinio / Tesi magistrale

Descrizione: Anomaly detection in a data center is a challenging problem. Modern data centers have to detect faulty conditions, performance anomalies that indicate fault or could result in a fault. The challenge is designing a fault detection mechanism to handle the variations in a service and among services non intrusively.
This internship aims at exploring various machine learning techniques to detect anomalous machine behaviour. We will consider e.g. deep learning techniques, like the autoencoder neural network, in order to learn the healthy behaviour of the data center nodes and, after training, use them to determine faulty conditions. We will use clustering techniques to map the identified clusters into two or more categories according to the identified anomalies. We will normalize log texts before extracting features.
At the end of the internship we will have the knowledge to develop a log file analysis framework.

Capacità richieste: R/Python, statistical methods, ML techniques

Persona di riferimento: Elisabetta Ronchieri, Daniele Cesini

Titolo: Benchmarking delle tecniche di Data Mining per problematiche di Ingegneria del Software

Tipologia: Tesi magistrale / Assegno di ricerca

Descrizione: Il Data Mining è il processo di analisi di dati da diverse prospettive per individuare delle correlazioni, pattern o sequenze ripetute tra grandi quantità di dati. Negli anni, le tecniche di Data Mining sono state usate per affrontare diversi problemi legati all’Ingegneria del Software, come software defect prediction, per agevolare lo sviluppo software. Le misure delle metriche del software forniscono informazioni sulla qualità del software e possono essere usate in ingresso alle tecniche di Data Mining per predire, pianificare e comprendere diversi aspetti del progetto software. Il Benchmarking delle tecniche di Data Mining è essenziale per selezionare le tecniche migliori in grado di risolvere alcuni problem della Ingegneria del Software. L’utilizzo di insiemi di dati consolidati sulle metriche del software, come NASA Defect, Eclipse, Android e Elastic Search, rappresenta un punto di partenza nella definizione dei benchmarking. Ai fini dello studio è richiesto l’utilizzo di pacchetti python per la manipolazione, l’analisi e la visualizzazione delle metriche del software tramite il support di jupyter notebook.

Capacità richieste: programmazione di base, fondamenti di Data Mining.

Persona di riferimento: Elisabetta Ronchieri

Titolo: Sviluppo di un workflow Alfresco per la gestione automatizzata del flusso documentale per la gestione delle procedure ISO 27001

Tipologia: Tesi magistrale / Summer student

Descrizione: Il CNAF ha ottenuto nel 2017 la certificazione ISO 27001 per “Hosting di sistemi fisici e virtuali per la conservazione e l’accesso a dati biomedici e gestione applicativi di analisi dati finalizzati alla ricerca in campo biomedico/genomico”. La gestione dei documenti e dei registri necessari a garantire che le procedure vengano correttamente applicate e che le politiche di controllo di processo siano adeguate a garantire la sicurezza delle informazioni viene effettuata attraverso il software di gestione documnetale Alfresco. Si vogliono sviluppare una serie di workflow per automatizzare la gestione delle modifiche e garantire che il flusso autorizzativo venga rispettato.

Capacità richieste: programmazione di base, business process modeling.

Persona di riferimento: Barbara Martelli

Titolo: Open source IoT toolkit su Cloud

Tipologia: Tesi magistrale / Assegno di ricerca

Descrizione: Partendo da quanto disponibile sul mercato open-source oggi e da quanto funzionalmente reso disponibile da fornitori commerciali, identificare potenziali soluzioni per la definizione ed implementazione di un toolkit open-source, da utilizzare su Cloud ibride pubblico / private, che consenta la gestione di dispositivi IoT e la realizzazione di workload di tipo serveless (Function as a Service). Si prevede anche l’immediato test di tale toolkit utilizzando dispositivi disponibili presso il CNAF.

Capacità richieste: amministrazione di sistemi Linux, programmazione di base, architetture IoT e/o Serverless. La conoscenza di architetture Cloud è un plus importante.

Persona di riferimento: Davide Salomoni

Titolo: Comparazione di file system distribuiti Posix e ad oggetti

Tipologia: Assegno di ricerca

Descrizione: Il progetto mira a valutare scalabilità, funzionalità e performance di diverse soluzioni che implementino uno storage distribuito Posix e ad oggetti, utilizzando l’infrastruttura multi-sito INFN Cloud e identificando punti di forza e di debolezza. Alcuni possibili candidati come sistemi di storage possono essere GPFS, CEPH, Minio.

Capacità richieste: amministrazione di sistemi Linux, programmazione di base. La conoscenza di architetture Cloud è un plus importante.

Persona di riferimento: Davide Salomoni, Daniele Cesini

Titolo: Installazione dinamica e automaticamente scalabile di applicazioni web-based

Tipologia: Tesi triennale / Tesi magistrale / Tirocinio curriculare / Assegno di ricerca

Descrizione: L’obiettivo del progetto è installare un’applicazione web su un’infrastruttura Cloud al CNAF utilizzando container. Il set up deve essere automaticamente dispiegato sulla cloud attraverso Kubernetes e deve essere possibile gestire in maniera automatica la distribuzione del carico e il dimensionamento del numero di istanze che vengono dispiegate.

Capacità richieste: amministrazione di sistemi Linux, programmazione di base, conoscenza di Docker containers. La conoscenza di architetture Cloud e di Kubernetes è un plus importante.

Persona di riferimento: Barbara Martelli

Titolo: Generating actionable and customisable metadata descriptions for the processing of large volumes of structured and unstructured health-related data.

Tipologia: Tesi magistrale / Assegno di ricerca

Descrizione: In several applications, it is convenient to retain data originated from multiple sources in its original format, rather than forcing it into a single database technology. However, even with this approach it is necessary to standardise the metadata for the various data sets, so that data analysis can be performed without too many complications. This topic will explore the use of Argo Workflows to run CI/CD pipelines on Kubernetes over INFN Cloud, so that the entire process of data ingestion, data quality checking, and metadata creation or harmonisation can be automatised and made easily reproducible. A concrete application of this topic will be performed on datasets currently being collected by the PLANET project, related to the analysis of possible correlations between common pathologies and environmental factors.

Capacità richieste: Linux systems administration, basic programming.

Persona di riferimento: Davide Salomoni

Titolo: Evaluation of MicroVMs vs. standard containers.

Tipologia: Tesi magistrale

Descrizione: MicroVMs are meant to combine the best features of both VMs and containers. A MicroVM provides isolation features similar to those provided by VMs, but with a much smaller footprint. This allows to run hundreds or thousands of MicroVMs on a single bare metal hardware, while still relying on hardware isolation (like with VMs). At the same time, much like containers they provide API, network and storage capabilities, and directly encapsulate applications. This topic will explore Firecracker and Kata Containers to implement MicroVMs, comparing them with regular containers from the viewpoint of deployment, performance and security. MicroVMs will also be created to run one or more bioinformatics-related applications.

Capacità richieste: Linux systems administration, basic programming.

Persona di riferimento: Davide Salomoni

Titolo: Data access optimizations for a distributed analysis facility based on JupyterHub and Dask.

Tipologia: Tesi magistrale / Assegno di ricerca

Descrizione: A challenge in scalable, cloud-based analysis of big data is to provide users with simple-to-use, interactive and declarative environments to perform sophisticated analysis, possibly involving the massive use of heterogeneous computing resources. These could be for instance local or remote CPUs or GPUs, available on the Cloud or on traditional HPC centers; access to and exploitation of these resources should be as transparent as possible to the users. This topic will create a cloud-based analysis facility instantiated over a INFN-Cloud-based Kubernetes cluster to import bioinformatics data. This data will then be analysed through a JupyterHub instance, scheduling jobs for parallel execution through Dask and HTCondor.

Capacità richieste: Linux systems administration, basic programming.

Persona di riferimento: Davide Salomoni

Titolo: Facilitating the distribution of software or reference data (e.g. genomic data) using CernVM-FS and GitHub Actions/GitLab.

Tipologia: Tesi magistrale

Descrizione: The CernVM File System (CVMFS for short) is a software distribution service largely used by the international physics collaborations to deploy software on distributed computing infrastructures. This topic will explore how to simplify the use of CVMFS for multi-disciplinary communities via a cloud-based CVMFS-as-a-service offering created over INFN Cloud. In particular, this service will offer the possibility to easily create, update and distributed container images over CVMFS by simply interacting with a GitLab-based service through GitLab CI/CD pipelines (similar to GitHub Actions), without having to learn details of CVMFS itself. The setup will be tested with one or more bioinformatics-related applications.

Capacità richieste: Linux systems administration, basic programming.

Persona di riferimento: Davide Salomoni