Affichage des sujets de stage

RESPONSABLE

INFORMATIONS SUR LE SUJET

Nom : Nom Prénom
Equipe : Equipe ou laboratoire d'accueil du stage
Mail : adresse mail du responsable
Lien : Lien internet de l'équipe de recherche
Contact : Téléphone, adresse etc. sur les personnes à contacter a propos du stage (format texte ou html)

Titre : Titre du stage
Mots cles : Quelques mots clés

Description : Description du sujet de stage (format texte ou html)

Bibliographie : Quelques références bibliographiques. Importantes pour l'état de l'art du premier trimestre (format texte ou html)

Nom : MENARD Daniel
Equipe : CAIRN - IRISA
Mail : menard@irisa.fr
Lien : http://www.irisa.fr/cairn/
Contact : Daniel Ménard daniel.menard@irisa.fr
Arnaud Tisserand arnaud.tisserand@irisa.fr

Titre : Etude comparative d'opérateurs en représentations fixe et flottante pour des systèmes embarqués

Mots cles : Systèmes embarqués, arithmétique virgule fixe, arithmétique en virgule flottante, précision des calculs, circuits intégrés, consommation d'énergie, ASIC, VHDL

Description : Contexte

Dans le domaine des systèmes embarqués, de nombreuses applications sont orientées traitement de données et ainsi, nécessitent de réaliser des calculs. Différentes représentations des nombres sont disponibles pour effectuer ces calculs. Les représentations en virgule fixe et en virgule flottante sont deux approximations des nombres réels. Effectuer des calculs avec ces représentations nécessite donc d'évaluer les erreurs commises au cours des calculs (nécessairement) approchés. Il n'y a pas une représentation meilleure que l'autre a priori, cela dépend du contexte applicatif et de certaines contraintes d'implantation.

La représentation en virgule fixe utilise un nombre de bits pour les parties entières et fractionnaires ne variant pas au cours du
temps. Ainsi, le facteur d'échelle implicite, associé à la donnée, est constant. La représentation en virgule flottante est composée d'un exposant et d'une mantisse. Cette représentation permet de s'adapter à la valeur à coder en utilisant un facteur d'échelle explicite à travers l'exposant. La représentation flottante des nombres permet d'effectuer des calculs sur des valeurs d'ordres de grandeurs différents de façon transparente pour l'utilisateur. Par exemple, lors de la soustraction de 2 valeurs proches, en virgule fixe, il y a beaucoup de chiffres de poids forts qui sont nuls. En flottant, la matisse est toujours utilisée au mieux en ajustant l'exposant.

La virgule fixe est souvent utilisé dans les systèmes embarqués, car les opérateurs arithmétiques sont simples. Cependant, il faut
dimensionner la totalité du chemin de données pour le pire cas même si celui-ci ne se produit que très rarement. La représentation en virgule flottante est souvent considérée coûteuse pour les systèmes embarqués (pour les implantations qui respectent la norme IEEE-754). Le respect de la norme IEEE-754 est important dans bon nombre d'applications comme le calcul scientifique certifié. Mais dans les systèmes embarqués, de nombreuses caractéristiques de la norme flottante IEEE-754 n'ont aucun intérêt comme les dénormalisés, les infinis, ou les 4 modes d'arrondi. Nous nous intéressons à des représentations flottantes non compatibles avec la norme mais bien moins coûteuses à implanter en matériel. Un de nos objectifs est d'étudier quelles caractéristiques minimales de la représentation flottante à implanter pour garantir des résultats de bonne qualité mais avec un coût moindre qu'en virgule fixe (dimensionnement au cas moyen plutôt qu'au pire cas global).

Évaluation de la précision des calculs

La maîtrise de la précision des calculs est importante. L'utilisation de représentations en virgule fixe et en virgule flottante se traduit par une erreur e entre les valeurs obtenues au sein du circuit (précision finie) et les valeurs réelles (précision infinie). L'objectif est d'évaluer la précision des calculs en fonction de la largeur des opérateurs. Pour évaluer cette précision, nous considérons deux métriques correspondant à l'erreur maximale (bornes de l'erreur e) et à l'erreur moyenne (moment statistique d'ordre 2 de l'erreur e). Le choix de la métrique de précision est lié à l'application considérée. Dans un système critique (p.~ex. calculateur embarqué dans un avion), c'est l'erreur maximale qui est utilisée afin de garantir l'absence de défaillance liée à des problèmes de calcul. Dans le cas des systèmes grand public tels que les systèmes de codage vidéo ou de communication numérique, l'objectif est de réduire le coût de l'implantation. Ainsi, une faible dégradation des performances de l'application peut être tolérée si elle permet de réduire le coût. Dans ce contexte, l'erreur moyenne est utilisée comme métrique de précision. Pour faciliter l'évaluation de la précision, des techniques basées sur la simulation seront utilisées. Pour réaliser ces simulations, le code C de l'application sera développé à l'aide de bibliothèques permettant de spécifier des données en virgule fixe ou en virgule flottante et de paramétrer la largeur de ces données. Les résultats de ces simulations seront comparés à une simulation de référence afin d'en déduire l'erreur e.

Évaluation du coût de l'implantation

Cette évaluation se fera en utilisant différents outils du flot de conception de circuits ASIC disponible dans l'équipe CAIRN. La description d'entrée devra être codée en VHDL. Elle sera traitée par les outils de synthèse et de placement/routage. Ces outils fourniront les informations d'implantation de la surface de circuit et du délai des opérateurs. Pour les estimations de leur consommation d'énergie, nous utiliserons un simulateur mixte (analogique/numérique). Pour cet outil, il faudra fournir des fichiers de données sur l'activité moyenne noeuds internes de chaque opérateur. Ces valeurs d'activité seront estimées par simulation logique.

Objectifs

L'augmentation du nombre de bits alloués aux opérateurs permet d'améliorer la précision des calculs. En contrepartie, le coût de l'implantation (surface du circuit, consommation d'énergie) est plus élevé. Différents compromis entre la précision des calculs et le coût de l'implantation peuvent être obtenus en fonction de la largeur des opérateurs choisie. L'objectif de ce stage est de comparer les représentations en virgule fixe et en virgule flottante en termes de compromis coût-précision pouvant être obtenus. Cette comparaison sera réalisée sur une application de traitement du signal. Cette comparaison nécessite d'évaluer le coût réel de l'implantation et la précision des calculs.

Bibliographie : M. Ercegovac and T. Lang. Digital Arithmetic. Morgan Kaufmann, 2003

J.-M. Muller et al. Handbook of Floating-Point Arithmetic, Birkhauser, 2010

Nom : Tisserand Arnaud
Equipe : CAIRN
Mail : arnaud.tisserand@irisa.fr
Lien : http://www.irisa.fr/prive/Arnaud.Tisserand/jobs/index.html
Contact : Arnaud Tisserand arnaud.tisserand@irisa.fr

Titre : Algorithmique, modélisation et simulation pour des circuits de calcul en présence de variations
Mots cles : arithmétique des ordinateurs, algorithme de calcul, circuit intégré numérique

Description : Le stage portera sur la mise au point d'algorithmes, et leur évaluation par modélisation et simulation, pour des opérateurs de calcul dans des circuits intégrés numériques réalisés en technologie fortement sub-micronique (finesse de gravure en dessous de 40 nm). Les opérateurs arithmétiques cibles sont ceux que l'on trouve dans les processeurs (unités entières et flottantes) et dans les accélérateurs matériels pour le multimédia ou les communications.

Dans les anciennes technologies, les caractéristiques électriques des cellules logiques sont considérées comme uniformes sur toute la surface du circuit. Par exemple, le délai (ou temps de propagation) d'une cellule élémentaire est le même pour toutes les instances de cette cellule sur le circuit. Les algorithmes sont alors conçus pour minimiser le délai total d'un opérateur dans le pire cas des valeurs en entrées.

Dans les technologies plus fines, les caractéristiques des différentes instances d'une même cellule logique sont variables. Une cellule peut présenter des variations de 20 ou 30 %, ou plus, de son délai selon les instances, même très proches, sur le circuit. Ces variations nous demandent de revoir notre façon de concevoir les algorithmes implantés en matériel. Optimiser le délai global sur un chemin dans le pire cas avec des cellules de caractéristiques supposées uniformes n'a plus aucun sens si elles ont en réalité des caractéristiques variables.

De plus, une partie de la consommation électrique d'un opérateur de calcul est due aux transitions parasites. Elles apparaissent quand les différents chemins qui mènent aux entrées d'une cellule ne sont pas strictement égaux. La cellule peut commencer à calculer une valeur de sortie en fonction des entrées présentes à un instant donné. L'arrivée tardive du signal sur l'entrée la plus lente peut faire complètement changer la valeur en sortie. Le signal de sortie parasite, qui est propagé temporairement, peut lui aussi faire changer temporairement les sorties d'autres cellules. L'opérateur étant sans cycle (grâce aux registres), les valeurs finissent par se stabiliser sur les bonnes valeurs, mais une certaine énergie a été dissipée en pure perte. Cette activité parasite peut représenter de 10 à 50% de la consommation d'énergie d'un opérateur. Ici aussi la maîtrise du délai des cellules permet de réduire cette partie de la consommation d'énergie lors de la conception.

Dans ce stage, nous allons essayer d'optimiser deux aspects des algorithmes de calcul utilisés dans des opérateurs arithmétiques : la distribution du délai en fonction des variations et valeurs des opérandes, puis la consommation électrique due à l'activité parasite. Dans un premier temps, nous allons étudier des opérateurs d'addition simples, puis nous étudierons des additionneurs et des multiplieurs rapides. Suivant le temps restant disponible, nous essayerons d'aborder le cas de la division rapide.

Ce stage, même si la cible finale est matérielle, portera, pour moitié, sur la mise en oeuvre d'outils informatiques pour modéliser et simuler l'effet des variations sur certaines caractéristiques (délai et activité) d'algorithmes arithmétiques. En particulier, nous souhaitons étudier la possibilité de mélanger des techniques symboliques et numériques pour effectuer les simulations dans un contexte de réalisation de logiciel libre. Une fois ces outils mis en place, l'autre moitié du travail portera sur l'étude de nouveaux algorithmes arithmétiques plus effcaces en présence de variations. L'évaluation physique sur une cible matérielle FPGA est envisagée.

Une indemnité de stage sera possible au tarif fixé par l'IRISA. Une poursuite en thèse dans notre équipe sur ce thème pourra être envisagée selon les résultats obtenus et les possibilités d'allocation.

Bibliographie :
- M. Ercegovac and T. Lang. Digital Arithmetic. Morgan Kaufmann, 2003
- N. Weste and D. Harris. CMOS VLSI Design : A Circuits and Systems Perspective. Addison Wesley, 3rd edition, 2004, http://www.cmosvlsi.com/

Nom : Rohou Erven
Equipe : ALF
Mail : erven.rohou@inria.fr
Lien : http://www.inria.fr/en/teams/alf
Contact : Erven Rohou (erven.rohou@inria.fr)

Titre : Automated Diagnostic of Performance Bottlenecks
Mots cles : performance, micro-architecture, hardware performance counters

Description : Modern computer architectures have become extremely complex. To the point that clear understanding the interaction of applications with the underlying hardware is close to impossible

Most vendors now provide hardware performance counters [1] that can count many kinds of micro-architectural events, such as the number of executed instructions, cycles, cache misses, mispredicted branch instructions, etc. [2] Still, making sense of these values is difficult for the non-expert.

The goal of this internship is to define a set of metrics that can help diagnose performance bottlenecks quickly, and to develop a tool that can point a user to potential causes of inefficiency. Micro-benchmarks must also be developed to calibrate the maximum and typical values of each metric. Possibly, a graphical user interface, similar to hwloc [4] will be developed.

Bibliographie :
[1] "Intel® 64 and IA-32 Architectures Software Developer's Manual", Intel.
[2] "Computer Architecture - A Quantitative Approach", John L. Hennessy and David A. Patterson
[3] "Making Sense of Performance Counter Measurements on Supercomputing Applications", Jeff Diamond, John McCalpin, Martin Burtscher, Byoung-Do Kim, Stephen Keckler, James Browne.
[4] "hwloc", http://www.open-mpi.org/projects/hwloc/

Nom : NICOLAS Jacques
Equipe : SYMBIOSE
Mail : Jacques.Nicolas[AT]irisa.fr
Lien : http://www.irisa.fr/symbiose/
Contact : Jacques Nicolas, DR INRIA, A109, IRISA/INRIA Rennes

Titre : Modèles et algorithmes de recherche de répétitions dans les séquences génomiques
Mots cles : Algorithmique des séquences, Bioinformatique, Répétitions, Génomes.

Description : **Contexte** : Les génomes sont de longues séquences supports de l’hérédité, qui codent à la fois pour les composants cellulaires et pour la machinerie utilisant ces composants. Ces textes sont étonnants car bien que très éloignés de textes aléatoires, ils se révèlent en pratique à peu près incompressibles par les techniques habituelles de compression de données. Une des clés pour progresser dans la compréhension de ce phénomène réside probablement dans la très riche notion de répétition à l’œuvre dans les séquences génomiques, qui résulte d’une longue histoire de duplications et de réarrangements sur les chromosomes de chaque espèce vivante. Le génome humain par exemple est constitué de plus de 50 pourcents de divers types de répétitions.

**Question de recherche** : Il s’agit dans ce stage de mettre au point des modèles génériques de répétitions, d’en faire une mise en œuvre efficace et d’expérimenter de manière intensive les concepts développés sur les génomes existants. La branche de l’informatique à laquelle se rattache cette étude s’appelle l’algorithmique des séquences. Celle-ci est utile à chaque fois que de grandes séquences doivent être analysées efficacement, que ce soit pour des textes, des systèmes de fichiers, des pages web ou comme ici des séquences génétiques. Le stage débutera par une mise à niveau incluant un état de l’art des méthodes d’indexation sur un texte qui sont linéaires en temps et en espace [1] ainsi que des notions fondamentales sur les répétitions comme celle de répétition maximale [2] ou de mots absents minimaux [3]. Le stage s’inscrit également dans le champ de la bioinformatique, qui vise à analyser, modéliser et rechercher des entités biologiques à partir de données d’observation moléculaires. Une première étude a été menée sur les propriétés à introduire pour mieux décrire les répétitions biologiques, comprenant des définitions de localité et de maximalité. Il s’agira de systématiser ce travail, avec l’objectif d’une publication en journal. Les algorithmes seront implémentés sur le cluster de calcul de la plateforme de bioinformatique Genouest. Les expérimentations seront menées d’abord sur des génomes microbiens (quelques millions de caractères) puis sur des génomes d’organismes supérieurs (quelques milliards de caractères).

Bibliographie :
[1] M. I. Abouelhoda, S.Kurtz and E. Ohlebusch. 2006. Enhanced Suffix Arrays and Applications. Handbook of Computational Molecular Biology (Chap. 7), Chapman & Hall CRC http://theorie.informatik.uni-ulm.de/Personen/eo/PAPERS/HCMB8.pdf
[2] M.O. Kiilekci, J.S. Vitter and B. Xu. 2010. Time- and space-efficient maximal repeat finding using the Burrows-Wheeler transform and wavelet trees, in Proc. BIBM, pp.622-625. http://www.busillis.com/o_kulekci/publications/bibm10_repeat.pdf
[3]A. J. Pinho, P. JSG Ferreira, S.P. Garcia and J. MOS Rodrigues 2009. On finding minimal absent words BMC Bioinformatics 2009, 10:137 http://www.biomedcentral.com/content/pdf/1471-2105-10-137.pdf

Nom : Rohou Erven
Equipe : ALF
Mail : erven.rohou@inria.fr
Lien : http://www.inria.fr/en/teams/alf
Contact : Erven Rohou (erven.rohou@inria.fr)

Titre : Analysis of the source of floating point divergence in applications
Mots cles : floating point, processor architecture, precision

Description :

Computer arithmetic approximates real numbers (as used in mathematics) by finite-size representations. Floating point representation, where any number is represented by a sign, a mantissa and an exponent is a widespread choice [2]. The most common actual implementation is referred to as IEEE-754 [1]. The floating point representation introduces inevitable errors due to rounding. To mitigate the problem of having different results for a single application, vendors have come up with a standard that specifies many aspects of the representation.

Despite the IEEE-754 standard, we have observed that applications often produce different results when executed on different machines or when compiled by different compilers [3].

The purpose of this internship is to identify the source of the divergence between different runs of the same application, and to locate it in order to report it to the programmer. In practice, several executables of the same application will be instrumented by the Pin dynamic binary instrumentation tool [4] and run on an Intel x86 machine to collect relevant floating-point computations.

Bibliographie : [1] IEEE 754-2008, IEEE Standard for Floating-Point Arithmetic.
[2] What every computer scientist should know about floating-point arithmetic, David Goldberg, ACM Computing Surveys, Vol 23, No 1, March 1991.
[3] The Pitfalls of Benchmarking with Applications, Erven Rohou and Thierry Lafage, MoBS 2010.
[4] Pin: Building Customized Program Analysis Tools with Dynamic Instrumentation, Chi-Keung Luk, Robert Cohn, Robert Muth, Harish Patil, Artur Klauser, Geoff Lowney, Steven Wallace, Vijay Janapa Reddi, Kim Hazelwood. Programming Language Design and Implementation (PLDI), Chicago, IL, June 2005, pp. 190-200.

Nom : Guyet Thomas
Equipe : DREAM
Mail : thomas.guyet@irisa.fr
Lien : http://www.irisa.fr/dream/Pages_Pros/Thomas.Guyet/Stages/
Contact : Thomas Guyet (thomas.guyet@irisa.fr) René Quiniou (rene.quiniou@inria.fr)

Titre : Fouille de données séquentielles avec intervalles sans génération explicite de motifs
Mots cles : fouille de données, algorithmique, données séquentielles, intelligence artificielle, clustering

Description : Le volume des données enregistrées et stockées a explosé ces dernières années, ce qui a motivé particulièrement l'intérêt des recherches sur l'extraction automatique de connaissances à partir de données (ou fouille de données). À partir d'une grande base de données, il s'agit de construire des motifs qui se retrouvent fréquemment dans les données. Chaque occurrence est alors une « instance » d'un motif.
Beaucoup de ces données contiennent des informations où la dimension temporelle revêt une importance particulière. C'est le cas, par exemple, de données recueillies lors de la surveillance de patients [1], de consommation d'électricité [2], d'usage du Web [3]. La simple adaptation des méthodes de fouille de données classiques ne suffit pas, en général, pour extraire les relations temporelles efficacement ou avec suffisamment de précision. C'est le champ de recherche de la fouille de données temporelles.
Les travaux récents menés dans l'équipe DREAM ont permis de développer des algorithmes de fouille de motifs séquentiels avec intervalles temporels statistiquement « représentatifs » [4,5]. Un motif extrait est alors « représentatif » d'un ensemble d'instances de la base de données initiale. Ces algorithmes construisent progressivement des motifs de plus en plus grands et les dénombre dans la base d'exemples (voir [6] pour les illustrations et détails des méthodes). À l'heure actuelle, il n'existe pas de méthode de dénombrement efficace et complète de ces motifs « représentatifs ». Les algorithmes manquent donc d'efficacité.
L'objectif de ce stage est d'explorer des algorithmes, efficaces et complets, de fouille de séquences ne travaillant que sur des ensembles d'instances, sans génération préalable de motifs.
Contrairement aux méthodes « classiques », il s'agit de travailler sur la séparation progressive des ensembles d'instances sans construire de motifs « représentatifs » de ces instances. Il n'y ainsi aucun dénombrement à réaliser.

En se basant sur un travail préliminaire réalisé dans l'équipe DREAM sur les méthodes de fouille de séquences avec intervalles. Le stagiaire aura pour objectif :

d'analyser les méthodes existantes et les problèmes rencontrés dans la fouille de données séquentielle avec intervalles temporels,
de proposer un algorithme pour la fouille de séquences avec intervalles temporels n'utilisant pas de motifs,
d'analyser les propriétés des algorithmes proposés,
de développer et tester les algorithmes sur des données simulées et réelles (données médicales et de consommation électrique).

Durant ce stage, nous proposons de travailler sur des données séquentielles avec intervalles temporels. Les travaux pourront être poursuivis par une généralisation de l'approche à des données séquentielles avec attributs quantitatifs.
Le stage sera effectué à l'IRISA au sein de l'équipe DREAM (Diagnostic, Recommandation d'Action, Modélisation).

Bibliographie : [1] M.-O Cordier, E. Fromont et R. Quiniou, Learning rules from multisource data for cardiac monitoring, International Journal of Biomedical Engineering and Technology (IJBET), Vol 3 (1/2), pp. 133-155, 2010.
[2] R. Chiky, L. Decreusefond, G. Hébrail: Aggregation of asynchronous electric power consumption time series knowing the integral. EDBT, pp. 663-668, 2010.
[3] A. Marascu, F. Masseglia: Extraction de motifs séquentiels dans les flots de données d'usage du Web. Actes de EGC, pp. 627-638, 2006.
[4] T. Guyet et R. Quiniou, Mining temporal patterns with quantitative intervals, in 4th International Workshop on Mining Complex Data (ICDMW), 2008.
[5] T. Guyet et R. Quiniou, Extracting temporal patterns from interval-based sequences, International Joint Conference on Artificial Intelligence (IJCAI), 2011.
[6] http://www.irisa.fr/dream/QTempIntMiner/

Nom : Rohou Erven
Equipe : ALF
Mail : erven.rohou@inria.fr
Lien : http://www.inria.fr/en/teams/alf
Contact : Erven Rohou (erven.rohou@inria.fr)

Titre : Estimate of power consumption with hardware performance counters
Mots cles : power, micro-architecture, hardware performance counters

Description :

Power consumption has become a key characteristics of computing systems. Maximizing performance for a given power budget, or minimizing power for a given power target are important goals in many industrial contexts. Power consumption, however, cannot easily be measured from the computer itself.

On the other hand, current processors let users observe many events related to the behavior of the micro-architecture. Hardware performance counters [1] monitor various events, such as the number of executed instructions, cycles, cache misses, mispredicted branch instructions, etc. [2] Performance counters have attracted considerable attention due to their ability to collect information at no (or negligible) cost.

The goals of this internship are:

to study to what extent the power consumption of a computer can be correlated to micro-architectural events (similar to [5], but simpler and more automated), and to identify a few events that can be used to safely predict the power,
to develop a tool that can display the estimated power consumption in real-time, and
to use the tool to study the impact of parallelism (hyperthreading, multicore) on the power consumed by various applications.

Various kinds of computers will be considered: smart phone, laptop, desktop (x86, PowerPC, Sparc), and node of a cloud.

Performance readings will be taken in real-time using a TCP-IP power distribution unit [4] available in our laboratory, and hardware counters are made available by a dedicated Linux system call.

Bibliographie : [1] "Intel® 64 and IA-32 Architectures Software Developer's Manual", Intel.
[2] "Computer Architecture - A Quantitative Approach", John L. Hennessy and David A. Patterson.
[3] "Making Sense of Performance Counter Measurements on Supercomputing Applications", Jeff Diamond, John McCalpin, Martin Burtscher, Byoung-Do Kim, Stephen Keckler, James Browne.
[4] "PDU", http://en.wikipedia.org/wiki/Power_distribution_unit
[5] "Runtime power monitoring in high-end processors: Methodology and empirical data", Canturk Isci, Margaret Martonosi.

Nom : Coste François
Equipe : Symbiose
Mail : francois.coste@inria.fr
Lien :
Contact : Tel: 02 99 84 74 91, Office A103 Orange, Symbiose, Inria/Irisa

Titre : Contact maps modelling of protein structure
Mots cles : Bioinformatics, Computer Science, Machine Learning, Topology, Information Theory, Protein Structure

Description :

The protein 3D structure is the spatial conformations in which the protein sequence folds. The biological function of a protein depends on its 3D structure and its knowledge is highly important in medicine (for example, in drug design) and biotechnology (for example, in the design of novel enzymes). Many of available structures are available in the Protein Data Bank as sets of the atoms coordinates, determined by costly techniques such as X-ray crystallography. Prediction of the structure of proteins is one of the most important goals pursued by bioinformatics and theoretical chemistry. The set of atoms coordinates contain the raw information but is not the more adequate for automatic prediction or characterizations based on the structures of proteins. In the team we have been able to get good or promising results by using alternative representations, such as protein contact maps, for the comparison of structures and their automatic classification [1] and pattern discovery and grammatical inference [2]. Protein contact maps represent structures of proteins by a binary relation between the residues which are close enough. We propose here to continue this line of research and to work on the definition of new representations of the protein structure based on the contact maps, to offer the right level of abstraction (without loss of important information) to develop new algorithms handling protein structures with a better quality and efficiency.

Bibliographie :

Maximum Contact Map Overlap Revisited, Rumen Andonov, Noël Malod-Dognin, Nicola Yanev, Journal of Computational Biology 18, 1 (2011) 1-15
Towards pattern discovery and grammatical inference in protein folds, François Coste, Fabio Cunial, techn. rapport, Symbiose, 2010.
Reconstruction of 3D Structures From Protein Contact Maps, Vassura M, Margara L, Di Lena P, Medri F, Fariselli P, Casadio R (2008). IEEE/ACM Transactions on Computational Biology and Bioinformatics 5 (3): 357–367
Predicting helix-helix interactions from residue contacts in membrane proteins, Lo A, Chiu YY, Rødland EA, Lyu PC, Sung TY, Hsu WL. (2009). Bioinformatics 25 (8): 996–1003

Nom : Cousin Bernard
Equipe : ATNET
Mail : bernard.cousin@irisa.fr
Lien :
Contact : Cédric Guéguen (cedric.gueguen@irisa.fr) Bernard Cousin (bernard.cousin@irisa.fr)

Titre : Protocole de routage opportuniste pour les réseaux sans fil.
Mots cles : Réseau sans fil, Routage, Affaiblissement multi-trajets, Algorithmique, Evaluation de performance.

Description : Ce stage se déroulera en deux phases : Tout d’abord il s’agira d'approfondir l'étude des protocoles de routage opportuniste dans les réseaux sans fil puis de participer, au sein de l’équipe ATNET, à la mise au point d’un protocole de routage pour les réseaux sans fil. Ce nouveau protocole devra s’appuyer sur un algorithme de prise de décision adapté au milieu sans fil permettant de choisir le meilleur chemin dans cet environnement à multiples contraintes. Il s’agira de tenir compte, lors du choix des différentes routes à emprunter, non seulement des métriques habituelles (nombre de saut, coût, etc.) mais également des différentes conditions radio susceptibles d’être rencontrées et qui influencent grandement la qualité des transmissions radio. Les objectifs visés sont variés : augmentation du débit global du système, économie d’énergie, amélioration de la Qualité de Service (QoS)…

La seconde phase de ce stage portera sur l’évaluation de performance du protocole précédemment créé. Cette évaluation pourra se faire soit par modélisation analytique, soit à l’aide de simulateurs (OPNET, NS, …). Il s’agira de démontrer que la solution proposée surpasse les protocoles de routage classiques sur un ou plusieurs des objectifs précédemment cités. Une poursuite en thèse dans notre équipe est recherchée. Le stage se déroulera à l'Irisa à Rennes. Une indemnité de stage est prévue au tarif fixé par l'IRISA.

Bibliographie : Che-Jung Hsu, Huey-Ing Liu and Winston K.G. Seah: Opportunistic routing - A review and the challenges ahead. Computer Networks 2011, ISSN 1389-1286. (http://www.sciencedirect.com/science/article/pii/S1389128611002337)
Cedric Gueguen and Sebastien Baey: A Fair Opportunistic Access Scheme for Multiuser OFDM Wireless Networks. In Proc. European Association for Signal Processing (EURASIP) , Journal on Wireless Communications and Networking. Special issue: "Fairness in Radio Resource Management for Wireless Networks", 2009. (http://www.hindawi.com/journals/wcn/2009/726495/)
Long Cheng, Jiannong Cao, Canfeng Chen, Jian Ma and Sajal K. Das : Exploiting geographic opportunistic routing for soft QoS provisioning in wireless sensor networks. In Proceedings of MASS'2010. pp.292~301

Nom : Gueguen Cédric
Equipe : ATNET
Mail : cedric.gueguen@irisa.fr
Lien :
Contact : cedric.gueguen@irisa.fr

Titre : Allocation de ressources dans les réseaux sans fil.
Mots cles : Réseau sans fil, Algorithmique, Evaluation de performance, Affaiblissement multi-trajets, Qualité de Service, « Green Networking ».

Description : Avec l'essor des services multimédia, garantir une réelle qualité de service est devenu une des grandes priorités de la nouvelle génération de réseaux sans fil. Cela implique que les algorithmes d'allocation de ressources soient capables d'assurer à la fois une équité élevée entre utilisateurs, quels que soient leurs types de trafic et leur mobilité dans la cellule, une différenciation de service efficace et la maximisation du débit global du système. De plus, le développement des réseaux de capteurs et, d’une manière générale, des réseaux à forte contrainte énergétique nécessite également de développer des solutions tenant compte de ce nouveau paramètre.

Ce stage consistera à étudier les protocoles existants adaptés au milieu sans fil puis à proposer un nouveaux algorithmes plus efficaces. En effet, dans les réseaux sans fil, en raison du phénomène d'affaiblissement multi-trajets, les utilisateurs ne peuvent pas tous bénéficier d'une même capacité de transmission/réception même s'ils occupent la même position et utilisent la même fréquence à un instant donné. Le principe du futur algorithme à développer sera donc d'exploiter ces dernières de manière opportuniste afin de les allouer à l'utilisateur qui en tirera à un instant donné le meilleur profit. L’algorithme proposés devra être conçu dans une approche inter-couches afin de tenir compte à la fois de paramètres issus de la couche physique comme les débits possibles associés à chaque couple utilisateur/fréquence mais aussi des contraintes applicatives telles que le taux de perte de paquets, le taux d'erreur par bit, le retard maximum admissible...

Grâce au futur système de priorité dynamique à mettre en place entre les différents utilisateurs, il s’agira de tirer avantage de la diversité temporelle, fréquentielle et multi-utilisateurs afin d’augmenter la capacité du réseau tout en assurant un haut niveau de Qualité de Service (QoS) égal pour tous. D’autres objectifs sont également visé tels que la minimisation de la consommation énergétiques ou la capacité à différencier les services.

Ce stage se déroulera en deux phases :

Tout d’abord il s’agira de participer, au sein de l’équipe ATNET, à l'étude et la mise au point d’un algorithme d’allocation de ressources pour les réseaux sans fil. La seconde partie de ce stage portera sur l’évaluation de performance de la solution précédemment créée. Cette évaluation de performance pourra se faire soit par modélisation analytique, soit à l’aide de simulateurs (OPNET, NS, …). Il s’agira de démontrer que la solution proposée surpasse les solutions actuelles.

Une poursuite en thèse dans notre équipe est recherchée. Le stage se déroulera à l'Irisa à Rennes. Une indemnité de stage est prévu au tarif fixé par l'IRISA.

Bibliographie : Sergio Herreria-Alonso, Miguel Rodriguez-Perez, Manuel Fernandez-Veiga, and Candido Lopez-Garcia: Opportunistic power saving algorithms for Ethernet devices. Computer Networks, Volume 55, Issue 9, 23 June 2011, Pages 2051-2064, ISSN 1389-1286. (http://www.sciencedirect.com/science/article/pii/S1389128611000764)

Cedric Gueguen and Sebastien Baey: A Fair Opportunistic Access Scheme for Multiuser OFDM Wireless Networks. In Proc. European Association for Signal Processing (EURASIP) , Journal on Wireless Communications and Networking. Special issue: "Fairness in Radio Resource Management for Wireless Networks", 2009. (http://www.hindawi.com/journals/wcn/2009/726495/)

Wei Yang, Weifa Liang and Wenhua Dou: Energy-Aware Real-Time Opportunistic Routing for Wireless Ad Hoc Networks, IEEE Globecom, 2010.

Nom : Coste François
Equipe : Symbiose
Mail : francois.coste@inria.fr
Lien : http://www.irisa.fr/symbiose/
Contact : Tel 02 99 84 74 91, office A103 Orange, Symbiose, Inria/Irisa

Titre : Learning compact hierarchical structures of DNA
Mots cles : Bioinformatics, Pattern Dicsovery, Grammatical Inference, Compression, Information Theory, Kolmogorov complexity, MDL/MML

Description :

Learning a compact hierarchical structure of a sequence is motivated by several applications: to compress the sequence, to measure its amount of information or to better understand it. In his thesis [1], Matthias Gallé worked successfully on the smallest grammar problem (i.e. searching for the smallest context free grammar that generates only one sequence) and introduced variants of this problem to cope with the specificities of DNA sequences. In particular, to cope with mutations arising frequently in DNA, he proposed to extend grammars with "don't cares" (grammars based on "motifs", see for instance [3]). The grammars in that case represent more than one sequence, forgetting uninteresting regions (for structure discovery or lossy compression) or relying on the emission of an extra amount of information to fill the gaps (structure discovery in the minimum description/message length [2] perspectives or lossless compression). This new setting opens new perspectives for both structure discovery and compression. The subject is to propose and implement new algorithms and heuristics in this framework to find efficiently more compact hierarchical structures, with a special interest to their application on real DNA sequences.

Bibliographie :

Searching for Compact Hierarchical Structures in DNA by means of the Smallest Grammar Problem, PhD thesis, Univ. Rennes 1, 2011 http://tel.archives-ouvertes.fr/tel-00595494/fr/
See references cited in http://en.wikipedia.org/wiki/Minimum_description_length
MADMX: A Strategy for Maximal Dense Motif Extraction, Roberto Grossi, Andrea Pietracaprina, Nadia Pisanti, Geppino Pucci, Eli Upfal and Fabio Vandin. Journal of Computational Biology. April 2011.

Nom : Morin Christine
Equipe : Myriads
Mail : christine.morin@inria.fr
Lien : http://www.irisa.fr/myriads/open-positions/internships/
Contact : Eugen Feller, bureau E206 Vert, Eugen.Feller@inria.fr, tél: 02 99 84 72 68 Christine Morin, Christine.Morin@inria.fr

Titre : Performance Evaluation of Live Migration Over Distributed File Systems in IaaS Clouds
Mots cles : distributed file systems, live migration, virtualization, cloud computing, performance evaluation, scalability, fault-tolerance

Description : Cloud computing has recently evolved as a new computing paradigm which promises virtually unlimited resources. Customers can rent resources based on the pay-as-you-go model and thus are charged only for as much as they have used. Thereby, resources are transparently provisioned by the cloud provider according to the customers requirements. For example, different types of virtual machine instances can be leased from existing public Infrastructure-as-a-Service (IaaS) cloud providers such as Amazon EC2 [1] or Rackspace [12] on demand.

Several open-source IaaS-cloud management frameworks (e.g., Eucalyptus [3], Nimbus [9], OpenNebula [4], OpenStack [10]) have been recently developed in order to provide alternatives to existing public cloud providers. Such frameworks can be used to either build private, public or hybrid clouds infrastructures. Thereby, virtualization technology is used in order to provide efficient resource usage. Consequently, virtual machines can be started by the users and are then managed by these frameworks.

One of the building blocks of any IaaS-cloud management software is live migration. Live migration is supported by most of the existing virtualization solutions (e.g., Xen [13], KVM [8]) and allows efficient (i.e., short downtime) virtual machine migration within a cluster. Given, that virtual machines can be live migrated, different advanced scheduling policies (e.g., workload consolidation for energysavings) can be implemented.

In order to provide efficient live migration typically the same shared storage is assumed to be mounted on all the cluster nodes. Currently mostly the Network-File-System (NFS) is used (see [9]) which is known to have a very limited scalability and fault-tolerance. Therefore, it is not suitable to serve as the storage backed for current and future large-scale IaaS-cloud management frameworks with live migration support.

As part of our work to provide energy-efficiency, scalability and fault-tolerance to IaaS-clouds we have developed a first prototype of the energy-aware, hierarchical and distributed IaaS-cloud management software called Snooze [5]. Snooze is made to scale across many thousands of servers and virtual machines. However, currently the NFS-based virtual machine data storage backend becomes the bottleneck of the system.

The internship will be divided into two main parts: In the first part, the intern will study the state of the art in distributed file systems. Particularly, existing distributed file systems (e.g., XtreemFS [6], Hadoop [7], BlobSeer [2]) will be analyzed with respect to live migration support. In the second part, the intern will conduct a live migration performance evaluation on top of the selected file systems and compare those with the state-of-the-art solution (i.e., NFS). Real-life experiments will be conducted utilizing the Snooze IaaS-cloud management framework on the Grid 5000 [11] testbed.

Bibliographie : [1] Amazon EC2. http://aws.amazon.com/ec2/
[2] Bogdan Nicolae, Gabriel Antoniu, Luc Bouge, Diana Moise, and Alexandra Carpen-Amarie. 2011. BlobSeer: Next-generation data management for large scale infrastructures. J. Parallel Distrib. Comput. 71, 2 (February 2011), 169-184. DOI=10.1016/j.jpdc.2010.08.004 http://dx.doi.org/10.1016/j.jpdc.2010.08.004
[3] Daniel Nurmi, Rich Wolski, Chris Grzegorczyk, Graziano Obertelli, Sunil Soman, Lamia Youseff, and Dmitrii Zagorodnov. 2009. The Eucalyptus Open-Source Cloud-Computing System. In Proceedings of the 2009 9th IEEE/ACM International Symposium on Cluster Computing and the Grid (CCGRID '09). IEEE Computer Society, Washington, DC, USA, 124-131. DOI=10.1109/CCGRID.2009.93 http://dx.doi.org/10.1109/CCGRID.2009.93
[4] Dejan Milojicic, Ignacio M. Llorente, and Ruben S. Montero. 2011. OpenNebula: A Cloud Management Tool. IEEE Internet Computing 15, 2 (March 2011), 11-14. DOI=10.1109/MIC.2011.44 http://dx.doi.org/10.1109/MIC.2011.44
[5] Eugen Feller, Louis Rilling, Christine Morin, Renaud Lottiaux, and Daniel Leprince. 2010. Snooze: A Scalable, Fault-Tolerant and Distributed Consolidation Manager for Large-Scale Clusters. In Proceedings of the 2010 IEEE/ACM Int'l Conference on Green Computing and Communications & Int'l Conference on Cyber, Physical and Social Computing (GREENCOM-CPSCOM '10). IEEE Computer Society, Washington, DC, USA, 125-132. DOI=10.1109/GreenCom-CPSCom.2010.62 http://dx.doi.org/10.1109/GreenCom-CPSCom.2010.62
[6] Felix Hupfeld, Toni Cortes, Bjoern Kolbeck, Jan Stender, Erich Focht, Matthias Hess, Jesus Malo, Jonathan Marti, and Eugenio Cesario. 2008. The XtreemFS architecture\—a case for object-based file systems in Grids. Concurr. Comput. : Pract. Exper. 20, 17 (December 2008), 2049-2060. DOI=10.1002/cpe.v20:17 http://dx.doi.org/10.1002/cpe.v20:17
[7] Feng Wang, Jie Qiu, Jie Yang, Bo Dong, Xinhui Li, and Ying Li. 2009. Hadoop high availability through metadata replication. In Proceeding of the first international workshop on Cloud data management (CloudDB '09). ACM, New York, NY, USA, 37-44. DOI=10.1145/1651263.1651271 http://doi.acm.org/10.1145/1651263.1651271
[8] KVM. http://www.linux-kvm.org/
[9] Nimbus. http://www.nimbusproject.org
[10] OpenStack. http://www.openstack.org/
[11] Raphael Bolze, Franck Cappello, Eddy Caron, Michel Dayde;, Frederic Desprez, Emmanuel Jeannot, Yvon Jegou, Stephane Lanteri, Julien Leduc, Noredine Melab, Guillaume Mornet, Raymond Namyst, Pascale Primet, Benjamin Quetier, Olivier Richard, El-Ghazali Talbi, and Irea Touche. 2006. Grid'5000: A Large Scale And Highly Reconfigurable Experimental Grid Testbed. Int. J. High Perform. Comput. Appl. 20, 4 (November 2006), 481-494. DOI=10.1177/1094342006070078 http://dx.doi.org/10.1177/1094342006070078
[12] Rackspace. http://www.rackspace.com/
[13] Xen. http://xen.org/

Titre : Minimizing Live Migration Performance and Energy-Costs in IaaS Clouds
Mots cles : energy management, performance and energy cost modeling, live migration, consolidation algorithms, virtualization, infrastructure-as-a-service, scheduling, optimization

Description : One of the well known methods to conserve energy and increase the resource utilization in today’s virtualized data centers is to perform workload (i.e., virtual machine) consolidation. Thereby, the problem is typically modeled as an instance of the NP-hard multidimensional bin-packing problem in which the bins represent the physical servers and items the virtual machines (VMs). The objective of the consolidation algorithm is then to place all items such that the number of utilized physical machines is minimized. Therefore, enough idle-time is created in order to suspend/turn-off over provisioned servers.

Existing workload consolidation algorithms can be divided into two categories: exact (e.g., linear or constraint programming) and approximation (e.g., First-Fit, Next-Fit, Best-Fit). While, the former compute optimal solutions they need significantly longer time when the problem size increases as their worst-case complexity is exponential. The latter, on the other hand, are able to compute near-optimal solution with quadratic worst case complexity. All these algorithms model the workload consolidation problem exactly in the same manner as the bin-packing problem. However, despite existing similarities between both models, workload consolidation still differs from the traditional bin-packing. In particular, bin-packing assumes an empty state (i.e., items are not assigned to any bin yet) from which the process of finding a solution starts, while workload consolidation is performed continuously starting from an already existing state (i.e., VMs are mapped to hosts). Given such a scenario, and a single objective (i.e., minimize number of hosts) workload consolidation algorithm (e.g., First-Fit) a new schedule with minimal number of hosts could be computed. However, in order to move from one configuration to another migrations are required which are not taken into account by the traditional algorithms. Consequently, their solutions might be minimal in terms of the amount of required hosts but not in the number of migrations. For example, two solutions both requiring 4 physical machines to accommodate the virtual machines might need 10 and 8 migrations, respectively to achieve the same final configuration. In a dynamic environment such as a Cloud, each migrations represents a costly (i.e., performance and energy) operation and needs to be minimized as much as possible [1]. Hence, considering solely the amount of required physical machines is not sufficient.

Recently, several works have started to investigate the problem of workload remapping. In [7] the authors propose a linear programming (LP) model for server consolidation with migration control. In [3 ] the authors formulate the introduced problem using constraint programming. Finally, in [5] a heuristic called Sercon targeting server and migration cost minimizing is introduced. However, all these works aim at minimizing the number of migrations without taking into account the actual cost of migrations (i.e., performance and energy impact of a migration operation). This internship will be divided into two parts: In the first part, the intern will study the state of the art in solving multi-objective bin packing problems (i.e., minimize number of hosts and migrations). Moreover, existing approaches for live migration performance and energy cost modeling will be investigated (e.g., [4]). In the second part, the intern will design and implement an multi-objective performance and energycost aware workload consolidation algorithm in the framework of the Snooze [2] IaaS-cloud infrastructure manager. Real-life experiments will be performed on the Grid5000 [5] testbed.

Bibliographie : [1] Akshat Verma, Gautam Kumar, and Ricardo Koller. 2010. The cost of reconfiguration in a cloud. In Proceedings of the 11th International Middleware Conference Industrial track (Middleware Industrial Track '10). ACM, New York, NY, USA, 11-16. DOI=10.1145/1891719.1891721 http://doi.acm.org/10.1145/1891719.1891721
[2] Eugen Feller, Louis Rilling, Christine Morin, Renaud Lottiaux, and Daniel Leprince. 2010. Snooze: A Scalable, Fault-Tolerant and Distributed Consolidation Manager for Large-Scale Clusters. In Proceedings of the 2010 IEEE/ACM Int'l Conference on Green Computing and Communications & Int'l Conference on Cyber, Physical and Social Computing (GREENCOM-CPSCOM '10). IEEE Computer Society, Washington, DC, USA, 125-132. DOI=10.1109/GreenCom-CPSCom.2010.62 http://dx.doi.org/10.1109/GreenCom-CPSCom.2010.62
[3] Fabien Hermenier, Sophie Demassey, and Xavier Lorca. 2011. Bin Repacking Scheduling in Virtualized Datacenters. The 17th International Conference on Principles and Practice of Constraint Programming; Application track. Perugia, Italy. Retrieved from: http://sites.google.com/site/hermenierfabien/hermenier-etal-cp2011.pdf
[4] Haikun Liu, Cheng-Zhong Xu, Hai Jin, Jiayu Gong, and Xiaofei Liao. 2011. Performance and energy modeling for live migration of virtual machines. In Proceedings of the 20th international symposium on High performance distributed computing (HPDC '11). ACM, New York, NY, USA, 171- 182. DOI=10.1145/1996130.1996154 http://doi.acm.org/10.1145/1996130.1996154
[5] Murtazaev A, Oh S. Sercon: Server Consolidation Algorithm using Live Migration of Virtual Machines for Green Computing. IETE Tech Rev [serial online] 2011 [cited 2011 Aug 10];28:212-31. Available from: http://tr.ietejournals.org/text.asp?2011/28/3/212/81230
[6] Raphael Bolze, Franck Cappello, Eddy Caron, Michel Dayde;, Frederic Desprez, Emmanuel Jeannot, Yvon Jegou, Stephane Lanteri, Julien Leduc, Noredine Melab, Guillaume Mornet, Raymond Namyst, Pascale Primet, Benjamin Quetier, Olivier Richard, El-Ghazali Talbi, and Irea Touche. 2006. Grid'5000: A Large Scale And Highly Reconfigurable Experimental Grid Testbed. Int. J. High Perform. Comput. Appl. 20, 4 (November 2006), 481-494. DOI=10.1177/1094342006070078
[7] Tiago C. Ferreto, Marco A. S. Netto, Rodrigo N. Calheiros, and César A. F. De Rose. 2011. Server consolidation with migration control for virtualized data centers. Future Gener. Comput. Syst. 27, 8 (October 2011), 1027-1034. DOI=10.1016/j.future.2011.04.016 http://dx.doi.org/10.1016/j.future.2011.04.016

Titre : Energy-Aware Distributed Ant Colony Based Virtual Machine Consolidation in IaaS Clouds
Mots cles : energy management, cloud computing, infrastructure-as-a-service, swarm intelligence, ant colony optimization, workload consolidation, virtualization, scalability, fault-tolerance

Description : With the emerge of the Cloud computing paradigm and the associated need for more resources Cloud providers (e.g., Amazon, Google, Microsoft) have recently started to deploy increasing amounts of energy hungry data centers [4]. Still, the resource demand in those environments is usually of a bursty nature and thus results in a low average utilization of approximately 20-30% [7]. Therefore, a big fraction of the resources can be used to take energy conservation decisions such as consolidating the workload (i.e., virtual machines) on a subset of machines and suspending or turning off the resulting idle servers.

Given that ubiquitous virtualization solutions are able to live migrate the workload and servers can be turned on and off at any time, algorithms and frameworks can be designed in order to turn exists clusters into dynamic pools of virtualized resources. Therefor, virtual machine consolidation techniques can be utilized. Consolidation of virtual machines on the least number of physical nodes is an instance of the well known multi-dimensional bin-packing (MDBP) problem and has been studied in several works (e.g., [3], [8], [9]). Thereby, algorithms utilizing both exact (e.g., linear programming, constraint programming) as well as approximate (e.g., First-Fit, Best-Fit, Next-Fit, etc.) approaches have been proposed. However, all these techniques suffer from the same problem: high degree of centralization. Hence, there scalability and fault-tolerance is very limited. For example, both of the mentioned exact methods require a central instance to: (1) keep the model including a potentially large number of constraints in-memory and (2) compute the solution (i.e., virtual machine to host allocations). On the other hand, existing approximate solutions have similar drawbacks and require a central instance to compute the solution.

In order to overcome these drawbacks we have recently proposed to take a more distributed bio/natureinspired workload consolidation [2] approach based on the Ant Colony Optimization (ACO). In such a system agents (i.e., artificial ants) ideally work autonomously and do not require global system knowledge. Thus no single-point-of-failure (SPOF) exists and decisions are made based solely on the locally available monitoring information and indirect communication between the agents. The first simulation results have shown that the ACO-based workload consolidation is able to compute nearoptimal solutions. However, it was still formulated and implemented in a centralized manner.

The internship will be divided into two main parts: In the first part, the intern will study the state of the art in both centralized and distributed ACO-based algorithms. Particularly, existing ACO-based approaches for solving bin-packing and related (e.g., graph coloring, subset selection) problems will be investigated.

In the second part, the intern will design a distributed version of the ACO-based workload consolidation algorithm and implement it in our own simulator. Simulation-based experiments will be performed on the Grid5000 [12] testbed.

Bibliographie : [1] Christine Solnon and Derek Bridge. Chapter I An Ant Colony Optimization Meta-Heuristic for Subset Selection Problems. Retrieved from: http://liris.cnrs.fr/Documents/Liris-2279.pdf
[2] Eugen Feller, Louis Rilling, Christine Morin. 2011. Energy-Aware Ant Colony Based Workload Placement in Clouds. Research report (7622). Retrieved from: http://hal.inria.fr/inria-00594992/en/
[[3] Fabien Hermenier, Xavier Lorca, Jean-Marc Menaud, Gilles Muller, and Julia Lawall. 2009. Entropy: a consolidation manager for clusters. In Proceedings of the 2009 ACM SIGPLAN/SIGOPS international conference on Virtual execution environments (VEE '09). ACM, New York, NY, USA, 41-50. DOI=10.1145/1508293.1508300 http://doi.acm.org/10.1145/1508293.1508300
[[4] Greenpeace International. 2010. Make IT Green: Cloud Computing and its Contribution to Climate Change. Retrieved from: http://www.greenpeace.org/usa/Global/usa/report/2010/3/make-itgreen- cloud-computing.pdf
[[5] John Levine and Frederick Ducatelle. 2003. Ant Colony Optimisation and Local Search for Bin Packing and Cutting Stock Problems. Journal of the Operational Research Society. Retrieved from: http://www.aiai.ed.ac.uk/~johnl/papers/levine-jors02.pdf
[[6] Kathryn A. Dowsland and Jonathan M. Thompson. 2008. An improved ant colony optimisation heuristic for graph colouring. Discrete Appl. Math. 156, 3 (February 2008), 313-324. DOI=10.1016/j.dam.2007.03.025 http://dx.doi.org/10.1016/j.dam.2007.03.025
[[7] Luiz Andre Barroso and Urs Hoelzle. 2007. The Case for Energy-Proportional Computing. Computer 40, 12 (December 2007), 33-37. DOI=10.1109/MC.2007.443 http://dx.doi.org/10.1109/MC.2007.443
[[8] Mark Stillwell, David Schanzenbach, Frederic Vivien, and Henri Casanova. 2010. Resource allocation algorithms for virtualized service hosting platforms. J. Parallel Distrib. Comput. 70, 9 (September 2010), 962-974. DOI=10.1016/j.jpdc.2010.05.006
[[9] Mark Stillwell, David Schanzenbach, Frederic Vivien, and Henri Casanova. 2009. Resource Allocation Using Virtual Clusters. In Proceedings of the 2009 9th IEEE/ACM International Symposium on Cluster Computing and the Grid (CCGRID '09). IEEE Computer Society, Washington, DC, USA, 260- 267. DOI=10.1109/CCGRID.2009.23 http://dx.doi.org/10.1109/CCGRID.2009.23
[[10] Marco Dorigo, Gianni Di Caro, and Luca M. Gambardella. 1999. Ant algorithms for discrete optimization. Artif. Life 5, 2 (April 1999), 137-172. DOI=10.1162/106454699568728 http://dx.doi.org/10.1162/106454699568728
[[11] Malika Bessedik, Rafik Laib, Aissa Boulmerka, and Habiba Drias. 2005. Ant Colony System for Graph Coloring Problem. In Proceedings of the International Conference on Computational Intelligence for Modelling, Control and Automation and International Conference on Intelligent Agents, Web Technologies and Internet Commerce Vol-1 (CIMCA-IAWTIC'06) - Volume 01 (CIMCA '05), Vol. 1. IEEE Computer Society, Washington, DC, USA, 786-791.
[[12] Raphael Bolze, Franck Cappello, Eddy Caron, Michel Dayde;, Frederic Desprez, Emmanuel Jeannot, Yvon Jegou, Stephane Lanteri, Julien Leduc, Noredine Melab, Guillaume Mornet, Raymond Namyst, Pascale Primet, Benjamin Quetier, Olivier Richard, El-Ghazali Talbi, and Irea Touche. 2006. Grid'5000: A Large Scale And Highly Reconfigurable Experimental Grid Testbed. Int. J. High Perform. Comput. Appl. 20, 4 (November 2006), 481-494. DOI=10.1177/1094342006070078 http://dx.doi.org/10.1177/1094342006070078
[[13] Suxin Wang, Leizhen Wang, Yanying Niu, and Meng Ge. 2009. Bin-packing multi-depots vehicle scheduling problem and its ant colony optimization. In Proceedings of the 21st annual international conference on Chinese control and decision conference (CCDC'09). IEEE Press, Piscataway, NJ, USA, 3765-3768.

Nom : Peterlongo Pierre
Equipe : Symbiose
Mail : Pierre.Peterlongo[AT]inria.fr
Lien : http://www.irisa.fr/symbiose/
Contact : Pierre Peterlongo Pierre.Peterlongo[AT]inria.fr A103 IRISA/INRIA Jacques Nicolas Jacques.Nicolas[AT]inria.fr A109 IRISA/INRIA

Titre : Conception de cibles pour l’identification précise des bactéries
Mots cles : Algorithmique des séquences, Optimisation combinatoire, Bioinformatique, Génomes.

Description : *Contexte* L'actualité nous en donne la preuve, il est indispensable de pouvoir contrôler le contenu de nos assiettes... Dans un contexte plus global, l’identification simple et rapide de germes pathogènes ou au contraire de bactéries d’intérêt à partir d'échantillons est une nécessité impérieuse avec des besoins croissant que ce soit dans un contexte agroalimentaire, de santé humaine ou d’environnement. L’ADN présent dans tout être vivant en fournit une signature idéale. Aujourd'hui, on dispose pour l’analyse soit de méthodes rapides et économiques mais qui manquent de sensibilité ou concernent peu d’espèces et sont difficilement adaptables [1], soit au contraire d’une méthode puissante et générale (par séquençage de l’ADN présent dans l’échantillon) mais beaucoup plus lourde à mettre en œuvre, ce qui entraîne des délais et le recours à des laboratoires spécialisés.

Parmi les méthodes rapides et économiques, il en existe une mise au point dans les années 90 qui a révolutionné la biologie moléculaire : la PCR (Polymerase Chain Reaction), est comme son nom l’indique une réaction en chaîne qui permet d’amplifier une partie ciblée d’un échantillon minuscule d’ADN. Ceci permet une identification facile et grossière en regardant uniquement la taille de la cible mais peut aussi mener à une identification fine par séquençage, c'est-à-dire en regardant lettre à lettre le contenu de la séquence ciblée d’ADN. Les cibles sont des portions de séquence très variables et donc discriminantes entre les espèces, encadrées par des zones qui sont au contraire extrêmement bien conservées, les amorces, communes à toutes les espèces et qui servent à initier la PCR.

*Question de recherche* Ce stage s’attaquera au développement d’une méthode automatique de conception d’amorces sensibles et spécifiques pour la PCR à partir de données de génomes. En effet, on connaît maintenant la séquence d’ADN complète de l’ADN génomique de plus de 1500 espèces. Il s’agit pour un ensemble d’espèces fixé d’exploiter ces données pour en extraire les meilleures zones d’application de la PCR et obtenir une méthode rapide, sensible et à bas coût. Nous avons déjà effectué un travail préliminaire sur ce sujet [2]. Nous proposons de baser cette nouvelle étude sur deux innovations principales qui seront mises en œuvre via des techniques d’optimisation combinatoire et de réduction du coût en temps et mémoire :
• Modélisation des réactions d’hybridation d’amorces en PCR. Un certain nombre de modèles de calcul des énergies à l’œuvre dans une étape de PCR existent [3], qui servent de base à un algorithme de programmation dynamique pour calculer le score des différentes amorces. On étudiera les modèles les plus récents et on s’inspirera d’une technique du domaine du « DNA computing », utilisant des amorces pré-hybridées pour en augmenter la spécificité [4].
• Recherche d’amorces multiples. Il s’agira de développer un algorithme qui joue sur la combinatoire de présence de différentes amorces pour discerner les espèces. Deux problèmes se posent : 1) développer un algorithme optimisé afin de détecter les amorces plein génome pour plusieurs dizaines d’espèces, un problème de calcul intensif [5] qui utilisera les ressources d’un cluster de calcul ; 2) combiner les amorces entre elles de manière optimale pour générer un code capable de caractériser chacune des espèces, un problème d’optimisation combinatoire traité via un système de résolution de contraintes logiques.

Bibliographie : [1] S. Hemalatha, DNA fingerprinting of Bacillus cereus from diverse sources by restriction fragment length polymorphism analysis. Advances in Bioscience and Biotechnology, vol. 1, no. 2, pp. 136-144, 2010.
[2] P. Peterlongo, J. Nicolas, D. Lavenier, R. Vorch, and J. Querellou, c-GAMMA: Comparative Genome Analysis of Molecular Markers. In Pattern Recognition in Bioinformatics. 2009
[3] S. Torgasin and K. Zimmermann, Algorithm for thermodynamically based prediction of DNA/DNA cross-hybridisation. Int J Bioinform Res Appl 6:82-97. 2010
[4] D. Zhang and E. Winfree. Control of DNA Strand Displacement Kinetics Using Toehold Exchange. J. Am. Chem. Soc. 131: pp. 17303-17314. 2009
[5] T. P. Mann and W. S. Noble, Efficient identification of DNA hybridization partners in a sequence database. Bioinformatics, vol. 22, no. 14, pp. e350-8. Jul. 2006

Nom : Michaud Pierre
Equipe : ALF
Mail : pierre.michaud@inria.fr
Lien : http://www.irisa.fr/alf/
Contact : pierre.michaud@inria.fr

Titre : Evaluation of shared caches performance on multiprogrammed workloads
Mots cles : multicore, microarchitecture, shared cache, performance, evaluation methodology

Description :

The last on-chip cache level on multicore processors is often shared between all the cores. Recently, shared caches have received a lot of attention from researchers in computer architecture. However, there is no clear agreement among researchers as to what is the best method for studying shared caches. One difficulty is to define a good performance metric for multiprogrammed workloads, i.e., workloads consisting of independent tasks. Several possible metrics have been proposed [1][2], each highlighting one particular performance aspect, e.g., throughput or fairness. This multi-dimensional aspect of performance makes it more difficult to draw conclusions. Another difficulty comes from the methods used by computer architects to draw conclusions, which are mostly based on simulations. An implicit assumption is that the benchmarks used in simulations are representative. Given a fixed number of benchmarks, the number of possible multiprogrammed workloads increases quasi-exponentially with the number of cores. Because simulations are time consuming, researchers generally work on a small set of workloads, which they define more or less arbitrarily. Yet, even if the benchmarks themselves are representative, it is not clear how many workloads must be considered to make a representative set.

The work proposed consists in comparing the cache replacement policies that have been proposed in the recent Cache Replacement Championship [3]. More precisely, the goal is to understand to what extent the qualitative conclusions depend on the performance metric and on the set of workloads.

Bibliographie :

[1] S. Eyerman, L. Eeckhout, "System-level performance metrics for multi-program workloads", IEEE Micro, Vol. 28, No. 3, 2008.

[2] H. Vandierendonck, A. Seznec, "Fairness metrics for multi-threaded processors", Computer Architecture Letters, January 2011.

[3] Cache Replacement Championship, 1st JILP Workshop on Computer Architecture Competitions (JWAC-1), 2010. http://www.jilp.org/jwac-1/

Nom : Beaudoux Olivier
Equipe : GRI + Triskell
Mail : olivier.beaudoux@eseo.fr
Lien : http://gri.eseo.fr + http://www.irisa.fr/triskell
Contact : Olivier Beaudoux (olivier.beaudoux@eseo.fr)
Arnaud Blouin (arnaud.blouin@irisa.fr)

Titre : Prise en compte des contraintes sur un modèle métier dans la spécification et l’exécution des systèmes interactifs
Mots cles : modèles, IHM, contraintes, liens IHM / modèle métier, opérations actives

Description :

Contexte

Le développement des systèmes interactifs (SI) est presque toujours basé sur une décomposition du système en un modèle métier décrivant les données métier manipulées par le système, et différentes présentations (ou vues) permettant à l’utilisateur d’interagir sur ces données. Les boites à outils modernes de conception de SI intègrent une telle décomposition en offrant des mécanismes de “data binding” qui permettent de connecter un modèle métier à ses différentes présentations. Il a été récemment démontré que l’usage des “opérations actives” permet de repousser les limites actuelles de tels mécanismes. Cependant, il n’a pas encore été démontré dans quelle mesure l’usage de ces mêmes opérations actives permet de spécifier et d’exécuter un ensemble de contraintes mathématiques projetables sur le modèle métier.

Objectif

L’objectif de ce stage est ainsi d’étudier comment les opérations actives peuvent être utilisées ou/et étendues de manière à permettre la conception de SI intégrant un modèle métier sur lequel il est possible de projeter des contraintes. Cette étude devra déterminer comment il est possible de présenter à l’utilisateur le résultat de la projection des contraintes, ainsi que les modifications que l’utilisateur pourrait apporter sur les données métier pour que les contraintes soient satisfaites.

Bibliographie :

Conception des IHM
1. A. Blouin , O. Beaudoux - Improving modularity and usability of interactive systems with Malai, Proceedings of the 2nd ACM SIGCHI Symposium on Engineering Interactive Computing Systems (EICS 2010), ACM, 2010.
2. G. E. Krasner and S. T. Pope. A description of the model-view-controller user interface paradigm in smalltalk80 system. Journal of Object Oriented Programming, 1 :26–49, 1988.
Mécanismes de “data-binding” :
1. Eclipse Foundation. JFace data binding. http ://wiki.eclipse.org/index.php/JFace_Data_Binding.
2. R. Field. JavaFX language reference (chapter 7 - Data binding). http ://openjfx.java.sun.com/ current-build/doc/reference/ch07s01.html.
3. C. Kazoun and J. Lott. Programming Flex 2. O’Reilly, 2007.
Opérations actives :
1. O. Beaudoux , A. Blouin , O. Barais , J.M. Jézéquel - Specifying and implementing UI Data Bindings with Active Operations, EICS’11 : Proceedings of the 3rd ACM SIGCHI symposium on Engineering Interactive Computing Systems, 2011.
2. O. Beaudoux, A. Blouin, O. Barais, and J. M. Jezequel. Active operations on collections. In MoDELS ’10 : Proceedings of the 13th ACM/IEEE International Conference on on Model Driven Engineering Languages and Systems (LNCS 6394), pages 91–105. Springer, 2010.
3. O. Beaudoux and A. Blouin. Linking data and presentations : from mapping to active transformations. In DocEng ’10 : Proceedings of the 2010 ACM symposium on Document engineering, pages 107–110. ACM, 2010.
Contraintes :
1. J. B. Warmer and A. G. Kleppe. The object constraint language : getting your models ready for MDA. Addison-Wesley.
2. Cabot, J., Teniente, E. : Incremental evaluation of OCL constraints. In : CAiSE 2006, LNCS 4001. (2006) 81–95
3. ObeoDesigner : http ://www.obeodesigner.com/
4. Timothy Heron Programming with Dependency. MSc thesis, Department of Computer Science, University of Warwick, UK (September 2002).

Nom : Blouin Arnaud
Equipe : Triskell
Mail : arnaud.blouin@irisa.fr
Lien : https://www.irisa.fr/triskell/jobs/InternshipMaster/ProductLineInteractiveSystem
Contact : Arnaud Blouin -- arnaud.blouin _at__ irisa.fr

Titre : Dynamic Adaptation of Interactive Systems Based on Software Engineering Principles
Mots cles : Software Engineering, Interactive System, HCI, software product line, aspect-oriented modelling, dynamic adaptation

Description : The number of platforms, such as netbooks and smart phones, having various interaction modalities (e.g. multimodal, bimanual or vocal interactions) unceasingly increases over the last decade. Besides, user’s preferences, characteristics and environment have to be considered by software. This triplet (platform, user, environment), called context, leads user interfaces to be dynamically (i.e. at runtime) adaptable to reflect any change of context.

Dynamic adaptation has been widely tackled in the software engineering domain. However interaction features are never considered in the proposed approaches.

The goal of the internship is to investigate the dynamic adaptation of interactive systems using majors software engineering principles such as dynamic software product line (DSPL).

Bibliographie : Blouin, A.; Morin, B.; Beaudoux, O.; Nain, G.; Albers, P. & Jézéquel, J.-M. Combining Aspect-Oriented Modeling with Property-Based Reasoning to Improve User Interface Adaptation EICS'11: Proceedings of the 3rd ACM SIGCHI symposium on Engineering interactive computing systems, 2011, 85-94
Svein Hallsteinsen, Mike Hinchey, Sooyong Park, Klaus Schmid, Dynamic Software Product Lines, IEEE Computer, 2008
An Aspect-Oriented and Model-Driven Approach for Managing Dynamic Variability MoDELS '08: Proceedings of the 11th international conference on Model Driven Engineering Languages and Systems, Springer-Verlag, 2008, 782-796
Sottet, J.-S.; Calvary, G.; Coutaz, J.; Favre, J.-M.; Vanderdonckt, J.; Stanciulescu, A. & Lepreux, S. A Language Perspective on the Development of Plastic Multimodal User Interfaces Journal of Multimodal User Interfaces, 2007, 1, 1-12

Nom : Pichot Géraldine
Equipe : SAGE
Mail : geraldine.pichot@inria.fr
Lien : Link of the H2oLab platform: http://h2olab.inria.fr/
Contact : geraldine.pichot@inria.fr jocelyne.erhel@inria.fr

Titre : Study of a spectral algorithm for the generation of heterogeneous fields - Application in hydrogeology.
Mots cles : parallel computation (MPI), numerical simulation, Hydrogeology

Description : We propose the study of a parallel algorithm for the generation of heterogeneous fields. The classical case that will be studied here is a log normal law with an exponential correlation. We propose to generate samples of such law over the computational grid using a parallel generator based on a Fourier Integral Method. This generator is integrated within the H2oLab platform which is a collaborative C++ platform. There will be two main objectives. The first objective will be to analyze the efficiency of the generator in terms of computational and memory costs by running large sets of simulations. If necessary, some programming may be required to improve the generator, especially in parallel to reduce the number of communications. The second objective is to test the generator ability to simulate samples of the imposed law for different grid sizes and grid steps and for various degrees of heterogeneity. The main application of this work is to simulate physical quantities characterizing heterogeneous geological media, like permeability and porosity for porous media or transmissivity for fractured media.

Bibliographie : E. Pardo-Igúzquiza and M. Chica-Olmo, The Fourier Integral Method: an efficient spectral method for simulation of random fields, Mathematical Geology, 25, No.2, pp. 177-217, 1993. T. Yao, Reproduction of the mean, variance, and variogram model in spectral simulation, Mathematical Geology, 36, No.4, pp. 487-506, 2004

Nom : Blanc Alberto
Equipe : RSM (IRISA/Télécom Bretagne)
Mail : alberto. blanc@telecom-bretagne.eu
Lien :
Contact : Alberto Blanc et Géraldine Texier Département RSM IRISA/Telecom Bretagne alberto.blanc@telecom-bretagne.eu geraldine.texier@telecom-bretagne.eu

Titre : Etude des communautés dans l’Internet
Mots cles : Routage, analyse de graphes, structures communautaires

Description : Les nouvelles évolutions de l'Internet poussent la communauté à étudier les relations entre les acteurs de l'Internet (opérateurs, fournisseurs de contenus, utilisateurs, ...). En particulier, depuis 2007, des études ont montré que la forme de l'Internet ne peut plus être considérée comme hiérarchique [1]. La multi-domiciliation (multihoming) des usagers est une des causes de ce phénomène. Ainsi, les terminaux et les réseaux peuvent être connectés à plusieurs opérateurs et les relations entre les opérateurs sont de plus en plus difficiles à cerner. Des projets européens et nationaux s'intéressent à ce phénomène et aux modèles économiques qui régissent les échanges entre les opérateurs. Ces projets font souvent l'hypothèse d'opérateurs agissant pour leur propre compte ou au sein d'une alliance.

Cette notion d'alliance impose une collaboration forte entre les opérateurs et des conséquences importantes sur les échanges de trafic. Nous souhaitons vérifier cette hypothèse en étudiant les relations entre les opérateurs afin de détecter des comportements communautaires (des alliances). De nombreux chercheurs étudient les comportements communautaires mais l'intérêt d'appliquer ces méthodes à l'Internet est récent. Dans l'ensemble de ces travaux, on étudie les propriétés de la topologie de l'Internet par l'étude de son graphe. Plusieurs méthodes existent. Nous avons déjà travaillé sur l'une d'entre elles, basée sur la considération des plus courts chemins [2][3] mais la grande taille du graphe de l'Internet requiert une méthode qui puisse passer à l'échelle. Pour ce stage, nous proposons de nous intéresser à la méthode de la propagation de label qui semble prometteuse comme le montre l'article [4].

Etapes : Une première étape sera constituée d'une recherche bibliographique sur la notion de communauté dans les graphes appliquée à l'Internet et sur la méthode de propagation des labels. Cette étape permettra d'aborder la phase d'adaptation de l'algorithme pour modéliser les contraintes des relations entre les opérateurs de l'Internet et étudier le graphe de l'Internet le plus récent. La dernière phase aura pour but d'appliquer les méthodes développées pour étudier l'évolution de ces relations communautaires dans le temps en utilisant les graphes des années passées.

Pour cela, on utilisera les graphes fournis par CAIDA, qui sont une représentation de la structure de l'Internet. Ce stage nécessitera l'adaptation d'un algorithme de détection de communauté à ces graphes pour y trouver une structure communautaire. Ce projet est fait en coopération avec le TUB (Technische Universität Berlin), un laboratoire de Deutsche Telekom dans le cadre du réseau d'excellence EuroNF.

Bibliographie :
[1] C. Labovitz, S. Iekel-Johnson, D. McPherson, J. Oberheide, and F. Jahanian, “Internet inter-domain trafﬁc,” SIGCOMM Comput. Commun. Rev., vol. 40, p. 7586, August 2010.
[2] M. Girvan and M. E. J. Newman, “Community structure in social and biological networks,” Proceedings of the National Academy of Sciences, vol. 99, no. 12, pp. 7821–7826, 2002.
[3] A. Stanoev, D. Smilkov, and L. Kocarev, “Identifying communities by inﬂuence dynamics in social networks,” ArXiv e-prints, Apr. 2011.
[4] L. Subelj and M. Bajec, “Unfolding communities in large complex networks : Combining defensive and offensive label propagation for core extraction.” Phys Rev E Stat Nonlin Soft Matter Phys, vol. 83, no. 3 Pt 2, p. 036103, 2011.

Nom : Totel Eric
Equipe : CIDre
Mail : Eric.Totel@supelec.fr
Lien : http://www.rennes.supelec.fr/ren/rd/cidre/
Contact : Michel Hurfin (Michel.Hurfin@inria.fr) Eric Totel (Eric.Totel@supelec.fr)

Titre : Modélisation du comportement d’une application distribuée pour la détection d’intrusion
Mots cles : detection d'intrusion, systemes distribues, modèle de comportement distribue

Description :

Afin de détecter des intrusions, deux grandes techniques existent : l’approche par scénario et l’approche comportementale. Dans l’approche par scénario, on décrit les attaques connues contre le système et on stocke ces descriptions dans une base de connaissance (ou base de signatures). A l’exécution, on cherche à détecter si certaine de ces attaques sont en train d’être perpétrées. Malheureusement, une telle approche ne permet pas détecter des attaques inconnues qui, par définition, ne sont pas présentes dans la base de signatures. La deuxième approche consiste au contraire à modéliser le comportement normal de l’application : à l’exécution on cherchera à détecter toute déviation du comportement de l’application par rapport à ce profil de référence. On en déduit que ces déviations sont dues à des intrusions. Parmi les approches comportementales, l’approche dite « par la spécification » a été utilisée pour des applications centralisées ou distribuées. Ce type d’approche utilise comme comportement de référence une description de la spécification de l’application. Toute la difficulté de ce genre d’approche consiste à obtenir une description utilisable et suffisamment précise. Une spécification identifie plus ou moins finement soit des séquences d’actions autorisées (caractérisation des enchainements d’instructions, d’appels systèmes), soit des séquences d’états atteignables (caractérisation des prédicats/invariants qui doivent être satisfait par les valeurs des données manipulées).

Plusieurs travaux ont déjà été menés afin de détecter des attaques contre des applications. Dans [1], Uppuluri et al. montrent qu’il est possible de construire un modèle fondé sur la définition d’un langage décrivant les actions des processus (accès à des fichiers, lecture de fichiers ou de sockets, …) de manière fine (occurrence d’événement, séquence d’événements, …). La détection proposée dans ces travaux est essentiellement locale au nœud du réseau considéré. Dans [2], Ko et al. centralisent les actions (appels systèmes) réalisées sur chaque nœud en les ordonnant dans le temps afin de vérifier des propriétés temporelles globales sur le système distribué. D’autres travaux ont utilisé l’approche de détection par spécification dans le cadre de systèmes distribués, par exemple pour modéliser des protocoles [3, 4]. Les travaux sur le thème de la détection d’erreurs dans les systèmes distribués (outils de monitoring) ont également pour objectif de spécifier (et de détecter) des prédicats décrivant un comportement normal ou anormal d’une application [5].

Dans le cadre de ce stage, nous souhaitons modéliser des comportements normaux d’applications distribuées en utilisant les concepts suivants: nous raisonnerons à la fois en terme d’actions (échanges de messages, interactions avec le système, manipulation de l’état) et en terme d’états (locaux aux processus et globaux). Lorsque l’application s’exécute sur des processus distants, seule l’existence d’un référentiel de temps commun permet de dater de façon cohérente tous les événements et d’appréhender ainsi le comportement global de l’application. Dans le cas d’un système asynchrone, la notion de temps ne peut pas être utilisée. La notion de dépendance causale apparaît alors comme une alternative: d’une part, les actions (et les états locaux) de chaque processus sont totalement ordonnés ; d’autre part, le fait que la réception d’un message ne peut se faire avant l’émission de celui-ci permet de définir une relation d’ordre partiel entre les événements lorsque ceux-ci se produisent sur des sites distants.

Ces notions et ces approches seront utilisées pour définir un langage de modélisation du comportement attendu de l’application (cohérence des états des processus, enchaînement des actions). Ce langage pourra notamment prendre en compte la notion de temps lorsque cela est possible et permettre de gérer la granularité des observations (actions atomiques ou points d’observation dans l’application). Une application répartie réelle (très simple) sera identifiée. Elle devra permettre d’illustrer les différentes possibilités offertes par le langage de spécification et de démontrer que la spécification est suffisante pour détecter des déviations par rapport aux comportements attendus (attaques réelles).

Bibliographie :

[1] Prem Uppuluri and R. Sekar, Experiences with Specification-Based Intrusion Detection, Proceedings of the Fourth International Symposium on the Recent Advances in Intrusion Detection (RAID'2001), 2001, W. Lee and L. Mé and A. Wespi, 2212, LNCS, pp. 172-189, Davis, pp 172-189, 2001.

[2] Calvin Ko, Manfred Ruschitzka and Karl Levitt, Execution Monitoring of Security-Critical Programs in Distributed Systems : A Specification-based Approach, Proceedings of the 1997 IEEE Symposium on Security and Privacy, 1997, pp. 175-187, Oakland, CA, May, 1997.

[3] R. Sekar and Ajay Gupta and James Frullo and Tushar Shanbhag and Abhishek Tiwari and Henglin Yang and Sheng Zhou, Specification-based anomaly detection: a new approach for detecting network intrusions, Proceedings of the 9th ACM conference on Computer and communications security, pp. 265-274, Washington, DC, November, 2002.

[4] Chinyang Henry Tseng and Tao Song and Poornima Balasubramanyam and Calvin Ko and Karl Levitt, A Specification-based Intrusion Detection Model for OLSR, Proceedings of 8th International Symposium on Recent Advances in Intrusion Detection (RAID '2005), september, 2005.

[5] V. K. Garg, Principles of Distributed Systems, Kluwer Academic Publishers, ISBN: 0-7923-9668-5, 1996.

Nom : Lemaitre Claire
Equipe : Symbiose
Mail : claire.lemaitre@inria.fr
Lien : Symbiose
Contact : Claire Lemaitre (claire.lemaitre@inria.fr) Pierre Peterlongo (pierre.peterlongo@inria.fr)

Titre :

Modèles et algorithmes pour la détection de variants génomiques dans les données de séquençage nouvelle génération

Mots cles :

Description : Contexte

Une question fondamentale en biologie est de détecter et interpréter les variations entre les génomes d'individus d'une même espèce. Ces variations peuvent être des mutations ponctuelles d'un seul nucléotide (SNP), ou bien peuvent impliquer des segments d'ADN plus longs qui peuvent être dupliqués, supprimés, inversés ou déplacés le long du génome. Ces variants sont appelés des variants de structure et leur importance dans la diversité génétique entre individus n'a été révélée que récemment.

L'analyse de la diversité génomique entre individus a connu un essor sans précédent ces dernières années avec l'arrivée des NGS (Next Generation Sequencing). Ces nouvelles technologies permettent de séquencer l'ADN avec un débit beaucoup plus important et un coût beaucoup moindre. Cependant, elles génèrent de très grandes quantités de données d'un nouveau type qui requièrent des méthodes informatiques poussées.

L'équipe Symbiose est à la pointe dans ce domaine et a développé une nouvelle approche permettant d'extraire des variants de type SNPs de ces données. Elle est basée sur l'exploration du graphe de DeBruijn, une structure de données communément utilisée dans ce domaine, le principe étant que les variants génomiques génèrent des motifs spécifiques dans ce graphe.

Sujet

L'objectif du stage est d'étendre la méthode KisSNP, dédiée aux SNPs, pour détecter d'autres types de variants comme les variants de structure, qui sont plus complexes et plus rarement étudiés.

Le travail consistera dans un premier temps à formaliser les modèles générés dans le graphe de DeBruijn par chaque type de variant génomique. Leurs propriétés topologiques et combinatoires seront analysées pour caractériser chaque variant. D'autres structures de données alternatives au graphe de DeBruijn (ou dérivant de) pourront être proposées afin de gérer des informations biologiques supplémentaires. Dans un deuxième temps, de nouveaux algorithmes seront proposés pour détecter efficacement ces variants.

Bibliographie :

Next-generation gap. J D McPherson. Nat Methods, 2009, 6:S2-S5
Assembly algorithms for next-generation sequencing data. J R Miller, S Koren & G Sutton. Genomics, 2010, 95:315-327
Computational methods for discovering structural variation with next-generation sequencing. P Medvedev, M Stanciu & M Brudno. Nat Methods, 2009, 6:S13-S20
Identifying SNPs without a reference genome by comparing raw reads. P Peterlongo, N Schnel, N Pisanti, MF Sagot & V Lacroix. In proceedings of String Processing and Information Retrieval, 2010

Nom : Jannin Pierre
Equipe : Visages/U746
Mail : pierre.jannin@irisa.fr
Lien : https://www.irisa.fr/visages/activities/theme1/projects/spm/index
Contact : Pierre Jannin, CR1 INSERM (02 23 23 45 88, Pierre.Jannin@irisa.fr)

Titre : Modélisation des connaissances procédurales en chirurgie pour la simulation chirurgicale
Mots cles : Chirurgie assistée par ordinateur, réseaux bayésiens, simulation chirurgicale

Description : Présentation générale du domaine

Le sujet porte sur la modélisation des procédures et processus mis en jeu en chirurgie. Aujourd’hui, la chirurgie assistée par ordinateur se focalise principalement sur des aspects d'imagerie ou de robotique. La compréhension des processus mis en jeu avant, pendant et après la chirurgie n’est pas explicitée. Nous avons proposé une méthodologie pour la modélisation des procédures chirurgicales qui consiste à la définition d'une ontologie et d'outils associés 1) pour décrire des procédures chirurgicales en se basant sur cette ontologie et 2) pour analyser grâce à des techniques de fouille de données les connaissances qui peuvent être extraites de ces descriptions. Ces connaissances peuvent améliorer la conception de systèmes de chirurgie assistée par ordinateur. Cette connaissance est aussi très importante pour les chirurgiens, pour la simulation chirurgicale à la fois pour la formation des juniors ou pour l’anticipation de la procédure en phase de préparation chirurgicale.

Objectif scientifique du stage

Dans ce stage, nous proposons d’étudier des méthodes basées sur les réseaux bayésiens dynamiques ou temporels pour représenter les possibles scénarios suivis par les chirurgiens pour la réalisation d’un type de procédures. Ces méthodes devraient permettre de représenter et de proposer les probabilités associées au déroulé d’une procédure et aux possibles changements et transitions entre étapes chirurgicales. Des méthodes de comparaison de réseaux pour identifier des différences entre populations seront étudiées. Une application de simulation chirurgicale, permettant l’affichage des scénarios chirurgicaux possibles en fonction des caractéristiques du patient sera développée et évaluée. Cette étude sera appliquée à plusieurs types d’interventions pour lesquelles nous possédons les données: la chirurgie du rachis et les procédures d’artériographies et d’embolisation d’anévrismes cérébraux en neuroradiologie interventionnelle. Ce travail sera réalisé avec les services de neurochirurgie et de neuroradiologie du CHU de Rennes.

Pré-requis: Programmation: C++ ; MATLAB ; Data mining, Réseaux Bayésiens Début souhaité : Printemps 2012 ; Durée : 6 mois Indemnités de stage prévues Une thèse à la suite du stage est envisagée.

Bibliographie :
• Jannin P., Morandi X. Surgical models for computer-assisted neurosurgery, NeuroImage 2007, 3(37) :783-791.
• Riffaud L., Neumuth T., Morandi X., Trantakis C., Meixensberger J., Burgert O., Trelhu B., Jannin P., Recording of surgical processes: a study comparing senior and junior neurosurgeons during lumbar disc herniation surgery, Neurosurgery (accepted), 2010.
• Neumuth T., Jannin P., Strauss G., Meixensberger, Burgert O. Validation of Knowledge Acquisition for Surgical Process Models, Journal of the American Medical Informatics Association, 2009 Jan-Feb;16(1):72-80.
• Jannin P, Raimbault M, Morandi X, et al. Model of surgical procedures for multimodal image-guided neurosurgery. Comp Aided Surg 2003,8:98-106.

Nom : Jannin Pierre
Equipe : Visages/U746
Mail : pierre.jannin@irisa.fr
Lien : http://www.acoustic-ant.org
Contact : Pierre Jannin, CR1 INSERM (02 23 23 45 88, Pierre.Jannin@irisa.fr)

Titre : Analyse de données en Stimulation Cérébrale Profonde pour la création d’atlas anatomo-cliniques
Mots cles : Imagerie médicale, analyse et fouille de données, stimulation cérébrale profonde

Description : Présentation générale du domaine La stimulation cérébrale profonde (SCP) est utilisée depuis une vingtaine d’années dans le traitement de la maladie de Parkinson. Le traitement consiste à stimuler électriquement des structures cérébrales profondes comme le noyau sous-thalamique, ce qui entraine une diminution spectaculaire des troubles moteurs. Une ou deux électrodes sont implantées dans le cerveau du patient et reliées à un dispositif de style « pacemaker » installé au niveau du thorax. La précision du positionnement de l’électrode ainsi que le choix du plot sont des critères majeurs dans la qualité du traitement. Il y a 4 plots par électrode et l’on choisit celui ou ceux avec le meilleur effet clinique. La position précise du plot stimulé au sein d’une cible permettra de mieux comprendre le bénéfice clinique ressenti par le patient voire les éventuels effets secondaires. Le fait de connaitre une valeur moyenne de position idéale permettra de mieux cibler les futurs patients opérés et d’avoir de meilleurs résultats cliniques.

Objectifs du stage

Ce stage se situe dans un projet qui cherche à construire des atlas anatomo-cliniques en SCP à partir de données récoltées aux services de neurologie et neurochirurgie CHRU de Rennes. Ces atlas doivent mettre en relation les coordonnées 3D des électrodes et des plots choisis définis dans un repère anatomique commun et les signes cliniques pré et post opératoires. Le sujet du stage porte sur l’étude de méthodes pour l’analyse et la fouille de données mettant en lien les coordonnées des électrodes extraites de l’image et les données cliniques. Plus particulièrement, il faudra étudier l’analyse conjointe des corrélations entre les différents scores cliniques. Les méthodes étudiées devront prendre en compte l’aspect volumique de la zone stimulée. Des approches de type champs de Markov cachés pourront être envisagées. Cette analyse devra permettre de définir des règles optimales pour le placement des électrodes en fonction des signes cliniques. Le projet se déroulera en collaboration avec le CHRU de Rennes. Ce projet se réalisera dans le cadre du projet ANR ACouStiC (http://www.anr-acoustic.org)

Compétences demandées Analyse de données, statistiques, fouille de données. Début souhaité : Printemps 2012 ; Durée : 6 mois Indemnités de stage prévues Une thèse à la suite du stage est envisagée.

Bibliographie :
1. Lalys F., Haegelen C., Abadie A., Jannin P., Post-operative assessment in Deep Brain Stimulation based on multimodal images: registration workflow and validation, Proc. SPIE 7261, 72612M (2009), DOI:10.1117/12.810475
2. Lalys F., Haegelen C., Baillieul M., Abadie A., Jannin P., Anatomo-clinical atlases in subthalamic Deep Brain Stimulation correlating clinical data and electrode contacts coordinates, 7th Annual World Congress for Brain Mapping and Image Guided Therapy, IBMISPS'2010
3. D'Haese P. F., Pallavaram S., Li R., Remple M. S., Kao C., Neimat J. S., Konrad P. E., Dawant B. M., CranialVault and its CRAVE tools: A clinical computer assistance system for deep brain stimulation (DBS) therapy, Med Image Anal. 2010

Nom : Lecuyer Anatole
Equipe : VR4i
Mail : anatole.lecuyer@inria.fr
Lien : http://www.irisa.fr/bunraku/openvibe2/
Contact : Anatole Lecuyer INRIA Rennes Projet VR4i anatole.lecuyer@inria.fr

Titre : Interaction « hybride » avec un monde virtuel basée sur le geste et l’état mental
Mots cles : Réalité Virtuelle, Interaction 3D, Geste, Etat mental, Interfaces Cerveau-Ordinateur

Description : Ce stage de Master se situe dans le cadre de la conception de nouvelles techniques d’interaction avec les mondes 3D (dispositifs de réalité virtuelle). Il vise à concevoir et à tester de nouvelles techniques d’interaction 3D avec les mondes virtuels « hybrides », c’est-à-dire combinant deux entrées de l’utilisateur : son état mental et ses gestes.

Les gestes de l’utilisateur peuvent par exemple être mesurés à l’aide de systèmes optiques (KINECT, ART, etc). Les états mentaux peuvent être mesurés à l’aide d’une interface cerveau-ordinateur (en anglais « Brain-Computer Interfaces » ou BCI). Le principe des BCI consiste à extraire et utiliser directement l’activité cérébrale de l’utilisateur mesurée par des EEG (ElectroEncéphaloGraphie) pour piloter un ordinateur ou une simulation. Ce stage s’intègre donc dans le cadre du projet « Open-ViBE2 » (http://www.irisa.fr/bunraku/OpenViBE2), qui regroupe des partenaires académiques et des industriels du monde du jeu vidéo (UBISOFT, KT, BLACKSHEEP Studio).

Au cours de ce stage il s’agira donc de concevoir, de développer et de tester un paradigme d’interaction 3D pour les mondes virtuels « hybride » et donc basé sur une interface cerveau-ordinateur et une interface gestuelle. Il faudra donc concevoir des techniques d’interaction qui vont faire le lien le plus optimal entre ‘les gestes et les états mentaux de l’utilisateur’ et ‘les tâches à effectuer dans le monde virtuel’. Il s’agira donc d’optimiser les multiples entrées de l’utilisateur pour l’une (ou plusieurs) des tâches suivantes : naviguer dans le monde virtuel, saisir (sélectionner) un objet virtuel, manipuler (déplacer) un objet, contrôler l’application 3D (quitter, menu, bouton 3D, etc). Des expérimentations sont prévues pour valider les développements et l’approche en utilisant une machine d’acquisition de signaux EEG.

Moyens matériels à disposition : Casque à électrodes EEG Périphériques de réalité virtuelle

Bibliographie :
A. Lécuyer, F. Lotte, R. Reilly, R. Leeb, M. Hirose, M. Slater, “Brain-Computer Interfaces, Virtual Reality, and Videogames”, IEEE Computer, vol 41, num 10, pp. 66-72, 2008
D. Bowman, F. Kruijff, J. La Viola, I. Poupyrev, “3D User Interfaces: Theory and Practice”, Addison-Wesley/Pearson, 2005

Nom : Combemale Benoit
Equipe : Triskell
Mail : benoit.combemale@irisa.fr
Lien : http://www.irisa.fr/triskell
Contact : Benoît Baudry (benoit.baudry@inria.fr) and Benoît Combemale (benoit.combemale@irisa.fr)

Titre : Model Transformation Testing
Mots cles : Software Engineering, Metamodeling, Model Transformation, and Test

Description : Scientific Context:
Nowadays, object-oriented meta-languages such as MOF (Meta-Object Facility) [1] are increasingly used in Model-Driven Engineering (MDE) to define Domain Specific Modeling Language (DSML). However, these meta-languages focus on the definition of the structural part of languages (i.e., the metamodel), and do not encompass behavioral description. Triskell team developed the executable meta-languages Kermeta (http://www.kermeta.org/) allowing to add precise description of behavior to a metamodel, potentially using aspect-oriented (meta)modeling (AOM) [2]. Kermeta is defined as an extension of the standard EMOF (Essential Meta-Object Facilities) providing an imperative, object-oriented, and model-oriented action language to define the body of metamodel operations [3]. Kermeta allows giving a precise operational semantics or implementing a transformation for a metamodel to be applied to models that are compliant. Such behaviors can be run using either the interpreter or the (java) compiler, both provided by Kermeta. Then, it becomes possible to simulate or transform domain specific model. Applicable to a very large number of models, in a wide variety of context, such programs require special attention for design and verification. For the purpose of verification, the Triskell team has developed a bridge between Kermeta and the Yeti random testing framework [4]. This makes it possible to automatically generate random test data and run test cases on a Kermeta program.

Work:
The main objective of this internship is to improve the existing test module by offering an innovative approach to generate test data according to different strategies, other than random. The work will be twofold: (i) extend the work from [6] to define criteria that will drive the generation of test data; (ii) investigate the automatic generation of test data that satisfy these criteria. The test data in such an approach are models, usually represented as a graph of objects, which structure is constrained by the source metamodel of the transformation under test.. To generate such a graph, the objective of the internship is to use Pramana [5], another tool developed in the Triskell team using Alloy.. Thus, the candidate will study the extend Pramana to transform the test objectives (test criteria) in Alloy. The internship’s objective is to set a tool to automate the testing activity for Kermeta programs according to specific criteria. The approach will be validated through experimental studies that evaluate whether the use of such a tool can increase the quality of Kermeta programs.

Bibliographie : [1] Object Management Group, Inc. Meta Object Facility (MOF) 2.0 Core Specification, January 2006.
[2] Jean-Marc Jézéquel. Model driven design and aspect weaving. Journal of Software and Systems Modeling (SoSyM), 7(2):209--218, May 2008.
[3] Pierre-Alain Muller, Franck Fleurey, and Jean-Marc Jézéquel. Weaving executability into object-oriented meta-languages. In MODELS/UML’2005, Springer.
[4] Cf. http://www.yetitest.org/
[5] Sagar Sen, Benoit Baudry, Jean-Marie Mottu. Automatic Model Generation Strategies for Model Transformation Testing. In Proceedings fo the International Conference on Model Transformation, 2009.
[6] Franck Fleurey, Benoit Baudry, Pierre-Alain Muller, Yves Le Traon. Towards Dependable Model Transformations: Qualifying Input Test Data, In Journal of Software and Systems Modeling (SoSyM), volume 8, 2009.

Nom : GIBET Sylvie
Equipe : SEASIDE, VALORIA-IRISA, Université de Bretagne Sud
Mail : sylvie.gibet@univ-ubs.fr
Lien : http://www-valoria.univ-ubs.fr/Sylvie.Gibet
Contact : sylvie.gibet@univ-ubs.fr pierre-francois.marteau@univ-ubs.fr

Titre : Indexation, fouille, classification et clustering de gestes instrumentaux capturés
Mots cles : Gestes musicaux, indexation, retrieval

Description : L’exploitation des données gestuelles pour contrôler des systèmes audionumériques est un domaine de recherche qui a connu un rapide essor ces dernières années, notamment grâce au développement des outils de capture du mouvement, des techniques de synthèse de sons et des méthodes d’analyse de séries temporelles multidimensionnelles. L’objectif du stage consiste à proposer et évaluer des méthodes d’indexation, de recherche, de classification et de clustering de gestes musicaux préalablement capturés et stockés dans une base de données. L’indexation des gestes pourra être effectuée sur des trajectoires de gestes de percussionnistes, réalisés avec différents modes de jeu et de nuances expressives (captures effectuées au laboratoire IDMIL de l’univ. de McGill, Montréal). Les mécanismes de recherche par similarité ainsi que la classification ou le clustering de données utilisera des mesures de similarité et des algorithmes novateurs développés dans l’équipe.

Bibliographie :
[1] A. Bouënard, M.M. Wanderley, S. Gibet. Gesture Control of Sound Synthesis: Analysis and Classification of Percussion Gestures, Acta Acustica united with Acustica, The Journal of the European Acoustics Association (EEA), to appear, 2010.
[2] Sophia Dahl, Human movement and timing in the production and perception of music, PhD thesis in Speech and Music Communication, Stockholm, Sweden 2005.
[3] Keogh, E., Palpanas, T., Zordan, V., Gunopulos, D. and Cardle, M. (2004) Indexing Large Human-Motion Databases. In proceedings of the 30th International Conference on Very Large Data Bases, Toronto, Canada.
[4] Marteau, P.F., Ménier, G., "Speeding up Simplification of Polygonal Curves using Nested Approximations", Journal of Pattern Analysis and Application, Springer Publisher, vol.12, N°4, pp.367-375, December 2009.
[5] Pierre-François Marteau, "Time Warp Edit Distance with Stiffness Adjustment for Time Series Matching," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31, no. 2, pp. 306-318, Feb., 2009.

Nom : Annie Foret et Guillaume Aucher
Equipe : LIS et Distribcom
Mail : foret@irisa.fr
Lien : http://www.irisa.fr/LIS
Contact : Annie.Foret@irisa.fr, IRISA-ISTIC, Université Rennes1.

Titre : Vers une modélisation logique de textes règlementaires
Mots cles : ressources linguistiques, traitement automatique du langage naturel, logique, grammaires catégorielles, langage de requête

Description : * Domaine : ce sujet se situe dans le cadre d'exploitation informatique de ressources en linguistique informatique.
* Résumé du projet : Le travail proposé s'intègre dans les travaux des équipes partenaires, d'une part sur les grammaires catégorielles pour l'analyse syntaxique des langues naturelles et d'autre part sur les systèmes d'information logique, en les spécialisant au cas des ressources linguistiques.
Ces travaux exploitent et produisent diverses sortes de ressources linguistiques :
- des lexiques associant des propriétés aux mots (comme Lefff [10] pour le français) ;
- des lexiques sous forme de grammaire catégorielle logique [1,7,8,9]: il s'agit de types d'une logique spécialisée qui sont associés aux mots ou à des classes de mots (des prototypes de grammaires ont été développées dans ces équipes, et font partie de la ``pregroup toolbox , '') ;
- des corpus arborés, consistant en des phrases sous forme d'arbre XML (comme le Corpus de Paris7) ;
- des résultats d'analyse syntaxique, qui peuvent aussi être sous forme d'arbre XML ;
- parfois aussi des ensembles de textes (brut, ou simplement annotés).
Nous proposons d'étudier, spécifier et expérimenter comment doter ces ressources (et les formalismes sous-jacents) de moyens de requête [6] et de navigation qui leur soient adaptés, dans le cadre de systèmes d'information logique [4].
Une originalité de l' approche proposée est de considérer les systèmes logiques comme un socle à la fois pour les modélisations et les traitements linguistiques (grammaires logiques) et pour la représentation et l'exploitation de la connaissance dans un système d'information (systèmes d'information logique) [5].
Cette étude pourra contribuer à la construction des grammaires lexicalisées, dans le cadre notamment du développement d'une suite logicielle sur les prégroupes (``pregroup toolbox'', voir [2]).

* Déroulement du travail, (plusieurs axes sont possibles). Après une étude de l'existant (formalismes, ressources, logiciels), on abordera l'un des axes ci-dessous.
Axe1. Le travail pourra commencer par intégrer une vue LIS (avec la logique actuellement installée) de grammaire catégorielle dans la ``Pregroup Toolbox'' pour y visualiser les types associés aux mots. Le travail pourra ensuite tenir compte des évolutions récentes du formalisme utilisé, tels que l'ajout des types itérés.
Axe2. Sur un lexique ou une grammaire catégorielle logique, à l'aide d' un système LIS : - permettre de sélectionner, suivant des critères adaptés, les informations ou types associées aux mots, ce qui permet d'extraire un sous-lexique ou une sous-grammaire (l'intérêt est alors de réduire le nombre d'analyses possibles) ; - définir un mode de navigation correspondant, dans ce LIS.
Axe3. Sur un ensemble d'analyses (de phrases ou parties de phrases) : - permettre d'extraire celles qui nous intéressent, à l'aide d' un système LIS ; cette question concerne notamment les données organisées en arbres (treebanks ou corpus arborés).

Bibliographie : * Quelques références.
1- D. Béchet, R. Bonato, A. Dikovsky, A. Foret, Y. Le Nir, E. Moreau, C. Retoré, et I. Tellier. Modèles algorithmiques de l'acquisition de la syntaxe : concepts et méthodes, résultats et problèmes. Recherches linguistiques de Vincennes, 2007.
2- Denis Béchet, Annie Foret. PPQ : a pregroup parser using majority composition. Workshop on Parsing with Categorial Grammars ESSLLI 2009: 20-24 July, 2009 in Bordeaux, France.
3- Sébastien Ferré. Camelis: a logical information system to organize and browse a collection of documents. Int. J. General Systems, 38(4), 2009.
4- Sébastien Ferré, Olivier Ridoux. An Introduction to Logical Information Systems. Information Processing & Management, 40(3):383-419, 2004S.
5- Annie Foret, Sébastien Ferré. On categorial grammars as Logical Information Systems. 8th International Conference on Formal Concept Analysis, ICFCA 2010, Agadir, Maroc, Mars 2010.
6- Stephan Kepser. Using MONA for Querying Linguistic Treebanks. In Proceedings HLT/EMNLP 2005, Chris Brew, Lee-Feng Chien, Katrin Kirchhoff (eds.), pp. 555-563, 2005.
7- Joachim Lambek. The mathematics of sentence structure. American mathematical monthly 65 (1958) 154-169.
8- Joachim Lambek. From word to sentence, a computational algebraic approach to grammar. Polimetrica 2008.
9- Christian Retoré. The logic of categorial grammars - Lecture Notes - Rapport de Recherche INRIA 5703
10- Benoît Sagot, Lionel Clément, Érice Villemonte de la Clergerie, Pierre Boullier. The Lefff 2 syntactic lexicon for French: architecture, acquisition, use LREC'06, Gênes.

Nom : Maillé Patrick
Equipe : Département RSM, Telecom Bretagne (site de Rennes)
Mail : patrick.maille@telecom-bretagne.eu
Lien :
Contact : Patrick Maillé (patrick.maille@telecom-bretagne.eu) Bruno Tuffin (bruno.tuffin@inria.fr)

Titre : Etude de l'influence de la "Network neutrality" dans les réseaux de télécommunication
Mots cles : Réseaux, économie, mathématiques appliquées

Description : The goal of this internship is to study the question of network neutrality, which is currently the subject of a vivid debate. The internship aims at elaborating and analyzing a mathematical model to investigate the potential consequences of network neutrality policies on the network ecosystem (with end-users, connection providers, content providers, and regulatory entities). Among the desirable outcomes for the internship, we would like to be able to encompass the main consequences of network neutrality or non-neutrality, in order to be able to draw recommendations about the most appropriate policy to implement.

Bibliographie :
[1] P. Njoroge, A. Ozdaglar, N. Stier-Moses, and G. Weintraub. Investment in two sided markets and the net neutrality debate. Technical Report DRO-2010-05, Columbia University, Decision, Risk and Operations Working Papers Series, 2010.
[2] R. Frieden. Internet Packet Sniffing and its Impact on the Network Neutrality Debate and the Balance of Power between Intellectual Property Creators and Consumers. Technical report, SSRN, 2007. http://papers.ssrn.com/sol3/papers.cfm?abstract_ id=995273

Nom : Kerboeuf Mickaël
Equipe : LISyC/IDM
Mail : kerboeuf@univ-brest.fr
Lien : http://idl.univ-brest.fr/m2r/m2r2011.ubo.lisyc.idm.kerboeuf.pdf
Contact : Mickaël Kerboeuf
UBO - LISyC/IDM
kerboeuf@univ-brest.fr

Jean-Philippe Babau
UBO - LISyC/IDM
babau@univ-brest.fr

Titre : Migration de données conformes à des métamodèles sémantiquement proches
Mots cles : IDM, MDD, modèles, métamodèles, transformation, sémantique, réutilisation

Description :

Contexte général

Ingénierie dirigée par les modèles

L'augmentation rapide et constante du volume, de la complexité et de l'hétérogénéité des systèmes informatiques pose les problèmes de la maîtrise des coûts et des délais de développement, de la garantie de qualité, et de la capacité pour un produit existant à être réutilisé dans différents contextes.

Afin de pallier ces problèmes, un certain nombre de pratiques ont été proposées, étudiées et partiellement adoptées par l'industrie du logiciel. Parmi elles, l'ingénierie dirigée par les modèles (IDM, ou MDE pour Model Driven Engineering) est un paradigme d'ingénierie dans lequel les modèles constituent les constructions primitives d'un logiciel et se retrouvent au coecontemplatifs (i.e. des documents de référence) : ils sont productifs. Ils sont ainsi la source d'artefacts produits automatiquement (e.g. code, tests, documentation).

Parmi les approches MDE notoires figurent le MDA (Model Driven Architecture), le MIC (Model Integrated Computing), et les Software Factories.

Métamodèles et langages dédiés

La production, et en particulier l'édition, d'un modèle est rendue possible par des outils de modélisation généralement dédiés à un langage particulier. Ces langages de modélisation peuvent être généralistes ou spécifiques à un domaine. Leur très grande diversité pose les problèmes de l'interopérabilité et de la réutilisation des outils.

La plupart des solutions à ces problèmes ont pour origine l'expression uniforme des modèles de ces langages appelés métamodèles, dans un même métalangage dont l'outillage peut être réutilisé (e.g. édition, sérialisation, transformations). Ecore, dialecte d'UML pour les modèles statiques, est un exemple notoire de métalangage.

Transformation de modèle

Une approche du développement logiciel dirigé par les modèles cible les problèmes de construction et d'évolution en s'appuyant sur la notion fondamentale de transformation. De nombreuses solutions pour la transformation de modèles existent, parmi lesquelles figurent ATL, SmartQVT, ou Kermeta.

Problématique

Réutilisation d'outils

La réutilisation de composants logiciels permet de réduire considérablement le coût du développement des outils dédiés à un langage spécifique. Un environnement de méta-modélisation comme EMF basé sur Ecore permet par exemple de produire des éditeurs spécifiques ou des explorateurs d'instances. Cependant, il reste souvent des composants spécifiques à définir. Dans de nombreux cas, ces éléments spécifiques sont déjà disponibles mais ils sont conçus pour des variantes du métamodèle sur lequel le concepteur travaille.

Langage de transformation spécifique

Nous nous intéressons plus particulièrement aux composants qui s'appuient sur des transformations de modèle. Une transformation de modèle s'applique à domaine correspondant à un certain métamodèle source. Les données traitées par la transformation sont donc des instances conformes au métamodèle source.

Afin de réutiliser une transformation, une méthode assez naturelle consiste à injecter les données dont on dispose dans le domaine d'application de la transformation. Du point de vue de l'IDM, cette injection est également une transformation de modèles qu'il serait possible d'exprimer en ATL ou SmartQVT. Cependant, puisque le concepteur juge pertinent d'appliquer une transformation existante aux instances de son métamodèle, nous pouvons raisonnablement supposer que des liens sémantiques forts existent entre le métamodèle du concepteur et le domaine de définition de cette transformation. Nous avons donc défini un langage de transformation spécifique appelé Modif pour cibler ce type de problème.

Modif est inspiré de certaines fonctions de stockage persistant (CRUD) à partir d'un métamodèle source pour produire un métamodèle cible. Ces fonctions sont notamment update (i.e. rename et change) et deletion. Il est ensuite possible depuis Modif de générer le métamodèle cible, ainsi que le composant de migration de données correspondant.

Problème posé

Les fondements sémantiques de Modif restent à définir formellement. Dans ce but, un domaine sémantique approprié doit être mis en évidence. Il doit en particulier couvrir les concepts fondamentaux des métamodèles, ainsi que les opérations primitives de refactoring de modèles.

Ce travail permettra de coupler Modif à des outils d'analyse formelle afin notamment de prouver que certaines propriétés des données initiales sont préservées une fois ces données transformées.

Ce travail permettra également de simplifier l'analyse et le traitement des spécifications Modif. En effet, certaines des nombreuses opérations proposées par le langage pourront très certainement être exprimées par la composition des opérations primitives qui auront été identifiées.

Enfin, l'outillage actuel de Modif devra être mis à jour en conséquence.

Organisation et objectifs du stage

Le stage se déroulera en trois phases. L'étude bibliographique sur l'IDM, les transformations de modèles, l'outillage IDM, la migration de données et les sémantiques de métamodèles constituera la première phase.

La deuxième phase consistera à mettre au point le domaine sémantique de Modif, ainsi que les fonctions de valuation du langage vers ce domaine sémantique.

Enfin, la dernière phase consistera à mettre à jour l'outillage existant.

Bibliographie : [1] F. Alizon, M. Belaunde, G. DuPre, B. Nicolas, S. Poivre, and J. Simonin. Les modèles dans l'action à France télécom avec SmartQVT. In Génie logiciel : Journées Neptune No5, 2007.
[2] K. Czarnecki and S. Helsen. Feature-based survey of model transformation approaches. IBM Systems Journal, 45(3) :621-646, 2006.
[3] Eclipse Modeling Framework. http ://www.eclipse.org/modeling/emf.
[4] J.-r. Falleri, M. Huchard, and C. Nebut. Towards a traceability framework for model transformations in kermeta. In In : ECMDA-TW Workshop, 2006.
[5] W. Frakes and C. Fox. Sixteen questions about software reuse. Communications of the ACM,38(6), 1995.
[6] R. France and B. Rumpe. Model-driven Development of Complex Software : A Research Roadmap. In FOSE '07 : Future of Software Engineering. IEEE Computer Society, 2007.
[7] J. Greenfield, K. Short, S. Cook, and S. Kent. Software Factories : Assembling Applications with Patterns, Models, Frameworks, and Tools. Wiley, August 2004.
[8] F. Jouault and I. Kurtev. Transforming models with atl. In Satellite Events at the MoDELS 2005 Conference, volume 3844 of Lecture Notes in Computer Science, pages 128-138, Berlin, 2006. Springer Verlag.
[9] Object Management Group. Technical Guide to Model Driven Architecture. 2003.
[10] Philipp Huber. The Model Transformation Language Jungle - An Evaluation and Extension of Existing Approaches. 2008.
[11] D. Schmidt. Model Driven Engineering. IEEE Computer, 39(2) :25-31, Feb. 2006.
[12] J. Sztipanovits and G. Karsai. Model-integrated computing. Computer, 30(4) :110-111, 1997.

Nom : Anquetil Eric
Equipe : Imadoc
Mail : eric.anquetil@irisa.fr
Lien : http://www.irisa.fr/imadoc
Contact : E. Anquetil (eric.anquetil@irisa.fr), Prof. à l’INSA de Rennes, Responsable de l’équipe IMADOC à l’IRISA. H. Mouchère (harold.mouchere@univ-nantes.fr), MC à l’Univ. de Nantes, IRCCyN, équipe IVC

Titre : Composition manuscrite de documents structurés sur des interfaces tactiles multipoint
Mots cles : Reconnaissance de document structuré, Table tactile (Microsoft Surface), Composition multipoint, Langage visuel, grammaire 2D, apprentissage et reconnaissance de formes

Description : L’équipe de recherche IMADOC (Images et Documents) de l’IRISA et l’équipe IVC de l’ IRCCyN travaillent sur la reconnaissance de l’écriture manuscrite et sur les nouveaux usages autour de l’interaction homme-document. Cela se traduit par la conception et le développement de nouvelles interfaces tactiles ou orientées stylo : l’utilisateur écrit et dessine directement des textes, des croquis, des commandes, etc. sur un écran tactile ou sensitif d’un smartphones, ipad, tablets PC (ordinateur stylo), etc.

Ce stage s’inscrit dans le lancement d’un nouveau projet de collaboration entre l’équipe IMADOC de l’IRISA et l’équipe IVC de l’ IRCCyN de Nantes. Ce projet vise à étudier, concevoir et expérimenter des approches méthodologiques pour la composition manuscrite de documents structurés sur des interfaces tactiles multipoint. De nombreux outils et travaux existent déjà dans le domaine des interfaces utilisant un simple stylo. Cependant, la démocratisation des périphériques tactiles a induit l'apparition d’une nouvelle modalité d’interaction : l’utilisation simultanée de plusieurs points de contact sur le document.

Les outils actuels permettent déjà leur manipulation en utilisant des commandes gestuelles simples telles que zoom, rotation, déplacement, mais la composition avancée des documents en utilisant cette modalité n’a pas encore été explorée. Cette modalité multipoint nécessite de nouvelles stratégies de traitement du signal (analyse, modélisation et interprétation) et de composition de documents complexes mais aussi l’évaluation des nouveaux usages induits.

L’objectif à terme du stage est de permettre la composition « à la volée » d’un document structuré de type « plan ou schéma » sur des tables « surface » (Microsoft Surface). Le challenge est d’étendre les langages visuels bidimensionnels (grammaire 2D) conçus pour l’analyse et la composition de documents structurés [1,2] en incorporant dans le pouvoir de description de ces modèles d’une part, l’interactivité avec l’utilisateur et d’autre part, la richesse du signal multipoint (gestion de signaux parallèles synchrones ou asynchrones dont la dynamique relative peut être aussi importante que leur forme graphique). Une idée serait d’aborder la problématique de la modélisation et de la reconnaissance d’un geste multipoint de façon homogène avec la celle de la composition d’un document structuré. Ces deux problèmes peuvent vraisemblablement être vu comme deux niveaux d’interprétation potentiellement formalisables au sein d’un même langage visuel de description.

Le cadre applicatif du projet s’articulera dans un premier temps autour de la composition multipoint de formes géométriques plus ou moins complexes pouvant servir dans un second temps de base à l’élaboration de document de type plan d’architecture. Les développements seront portés sur le « Microsoft surface » (.net, C#).

Ce stage pourrait être prolongé par le démarrage d’une thèse dans le cadre d’un nouveau projet ANR actuellement en dépôt.

Bibliographie :
[1] Sébastien Macé, Eric Anquetil. Exploiting on-the-fly interpretation to design technical documents in a mobile context. Journal on Multimodal User Interfaces, 2011.
[2] Sébastien Macé, Eric Anquetil. Eager interpretation of on-line hand-drawn structured documents: The DALI methodology. Pattern Recognition, New Frontiers in Handwriting Recognition, 42(12):3202-3214, 2009.

Nom : Ksentini Adlen
Equipe : Dionysos
Mail : aksentin@irisa.fr
Lien :
Contact : adlen.ksentini@irisa.fr, yassine.hadjadj@irisa.fr

Titre : Congestion Control in LTE-based machine type communication (MTC)
Mots cles : LTE, M2M, Sensors, energy conservation

Description : Cellular mobile networks offer different network technologies for M2M communications, and there are strong realistic predictions stating that M2M will be leveraged over cellular mobile networks to provide mobile operator much-needed revenues. However, cellular networks are designed for Human-to-Human (H2H), Human-to-Machine (H2M) and Machine-to-Human (M2H) applications, which is different from M2M. Thus, Mobile Network Operators (MNO) should accommodate their networks to support the M2M applications that involve a huge amount of autonomous devices. 3rd Generation Partnership Project (3GPP) is working on specifications to standardize the deployment of M2M applications in 3GPP networks (UMTS and LTE). Such a deployment will benefit for MNO, users and application developers. However, it is quite challenging and not trivial to find out solutions to this deployment. In fact, it raises problems of congestion that may occur due to simultaneous signaling or data messages from MTC devices (huge number of devices), which can be significant. The congestion doesn’t concern only the radio part but, also, the core network part, in contrast with the former deployment. This may lead to peak load situation and may have a tremendous impact on the operations of the mobile network, penalizing both MTC and non-MTC devices.

The aim of this mastership is to propose solutions to deal with congestion in LTE-based machine type communications. More especially the master student has to explore and propose techniques that leverage the problem of congestion for both data and signaling, while considering energy conservation for M2M devices.

Bibliographie :
- 3GPP, “System Improvements for Machine Type Communications”, TS 22.368 V10.1.0, Jun. 2010.
- A. Malm and T. Ryberg, “Wireless M2M and Mobile Broadband Services”, Berg Insight, Feb. 2007.
- 3GPP, “General Packet Radio Service (GPRS) enhancements for Evolved Universal Terrestrial Radio Access Network (E-UTRAN) access”, TS 23.401, Jun. 2010.
- 3GPP, “Architecture Enhancements for non-3GPP Accesses”, TS 23.402, Jun. 2010.
- 3GPP, “Service Requirements for Machine-Type Communications”, TS 22.368 V10.1.0, Jun. 2010.

Nom : Baudry Benoit
Equipe : Triskell
Mail : benoit.baudry@inria.fr
Lien :
Contact : benoit.baudry@inria.fr martin.monperrus@univ-lille1.fr

Titre : Observing and understanding the role of ‘refuge’ projects in open source repositories
Mots cles : empirical software engineering, ecology, data mining

Description : Sub-optimality is a key factor for ecosystem’s resilience and robustness. In this project we are interested in one specific aspect of ecosystems’ sub-optimality: the presence of a large number of ‘minor’ species in the system. All ecosystems host a huge number of diverse species (plants, animals, microorganism, etc.), most of which play a specific role in the system in order to balance resource production and consumption. However, ecologists have also observed that there are also species, which populations tend to be small and that play only a small or even no role at all. Still, ecologists have also noticed that these species can play a major role in case of environmental changes. For example, one of the ‘refuge’ species can rapidly grow when new resources become available. In that case, the species becomes one of the major species and it introduces a new role in the system that eventually reaches a new stable state that includes this new role in its balance.

Several works have mentioned the analogy between ecosystems and software systems that are built out of the assembly of large number of software components. However, none of these works have pushed the analogy much further than observing that both systems are composite, made of heterogeneous parts that interact in order to provide global functions (regulate water cycles or handle the world wide web). This project aims at pushing one specific part of the analogy a step further through a systematic evaluation of the relative amount of ‘refuge’ projects in open source repositories.

Open source repositories offer a platform to store, browse and collaboratively develop open source software. Apart from these provided services, there is no centralized control over the type of software that is developed. This means that, if a function is provided by a project present on the repository (e.g., unit test driver), but a group of developers wants to implement its own version of the same function (maybe in another language or using another design or simply to have its version) and put it on the repository, nothing prevents it. In that sense, open source repositories maybe seen as very sub-optimal since there exist a large number of projects that are very similar to each other: this is sub-optimal because all the design and implementation manpower provided to build those almost-the-same projects could have been spent in order to implement new functionality. In this context, we want to investigate two research questions: Are there cases in which one implementation is massively more used than all the others, even though there are many similar implementations of almost the same thing? How many open source projects are not used at all, and are there cases in which one of these ‘refuge’ project suddenly becomes very much used?

This project first aims at understanding the amount of ‘refuge’ projects in major open source repositories. This will provide some insights on the level of sub-optimality that is present in open source communities. In a second phase, we will try to understand the role these ‘refuge’ projects play in the growth and survival of these repositories. In particular, we will try to recover from historical data what environmental factors led to the growth of some ‘refuges’. From a method point of view, this project will consist in analyzing the history of open source repositories in order to observe (i) the emergence and extinction of ‘major’ projects and (ii) the presence and the growth of ‘refuge’ projects (i.e., projects rarely downloaded or rarely used by other projects). Then, on the basis of these observations, we will analyze the role of these ‘refuge’ projects in the development of open source projects in general.

In order to achieve these objectives, we will need to
- define several observable metrics (to measure the level of usage of projects, the level of popularity of a project, the level of activity, etc.)
- build tools to gather these metrics from open source repository
- analyze these data to learn about the ‘refuge’ phenomenon in open source software

Bibliographie :
Kevin Shear McCann. The diversity–stability debate. Nature, 405:228–233, May 2000.
Stephanie Forrest. The case for evolvable software. In OOPSLA, page 1, 2010.
Jan Bosch. From software product lines to software ecosystems. In Proceedings of the 13th Inter- national Software Product Line Conference, SPLC ’09, pages 111–119, Pittsburgh, PA, USA, 2009. Carnegie Mellon University.

Nom : René Quiniou
Equipe : DREAM
Mail : rene.quiniou@inria.fr
Lien :
Contact : René Quiniou (rene.quiniou@inria.fr)
Thomas Guyet (thomas.guyet@agrocampus-ouest.fr)
Alice Aubert (Alice.Aubert@rennes.inra.fr)

Titre : Fouille de données environnementales multi-échelle et multi-source pour la découverte de connaissances
Mots cles : apprentissage ; fouille de données ; motifs temporels ; multi-échelle ; série temporelles

Description : Dans le domaine agro-environnemental, de plus en plus de capteurs sont dispersés dans la nature pour enregistrer les manifestations de phénomènes naturels. Ces données vont servir à élaborer ou à confirmer des théories scientifiques expliquant le comportement d'éco- systèmes. Pour les scientifiques, la difficulté d'analyse grandit avec la masse des données ainsi stockées. Ils sont particulièrement demandeurs d'outils qui pourraient les aider à faire émerger des caractéristiques intéressantes de ces données, par exemple des régularités ou des divergences exceptionnelles.

Cependant, ces phénomènes intéressants apparaissent plus ou moins clairement selon le niveau d'abstraction choisi : un phénomène pourra ainsi "sauter aux yeux" lorsque l'on observe les données semaine par semaine alors qu'il sera difficile de l'observer à l'échelle du jour ou du mois. De plus, le niveau d'abstraction optimal varie lui-même dans le temps au gré de l'évolution du contexte des mesures. Par ailleurs, lorsque plusieurs capteurs enregistrent divers aspects du même phénomène, les mesures sont, en général, corrélées. Il est alors particulièrement intéressant de faire apparaître ces corrélations aux scientifiques, par exemple les causalités ayant une dimension temporelle, comme "la hausse de telle grandeur provoque la diminution de telle autre avec un délai de trois à cinq jours".

L'objectif de ce projet est l'extraction de motifs temporels multi-échelle et multi-source de données provenant de plusieurs capteurs. Cet objectif introduit des questions difficiles : quelles échelles sont caractéristiques des données? Quelles sont les relations entre ces échelles? Quelles sont les relations entre les différentes mesures? Comment modéliser et raisonner à partir de ces nouvelles relations? Une approche possible pour la modélisation multi-échelle des relations est qu'un motif de niveau inférieur puisse servir d'événements dans un motif temporel de niveau supérieur, mais d'autres relations plus riches sont à explorer.

Le travail demandé consiste à :

* analyser les propositions de représentation symbolique multi-échelle pour des séries temporelles,

* analyser des méthodes d'apprentissage ou de fouille de motifs temporels multi-échelle et multi-source,

* proposer une représentation des motifs temporels multi-échelle et multi-source,

* proposer un algorithme d'extraction de motifs temporels multi-échelle et multi-source de plusieurs séries temporelles simultanément.

Les expérimentations utiliseront un jeu de données réelles fournies par l'INRA provenant de relevés de capteurs enregistrant diverses mesures de la qualité des eaux en sortie de bassin versant.

Bibliographie : [1] Euzenat J., An algebraic approach to granularity in time representation, Proc. 2nd IEEE international workshop on temporal representation and reasoning (TIME), pp 147-154, 1995. [2] Castro N., Azevedo P., Multiresolution Motif Discovery in Time Series, in Proceedings of the SIAM International Conference on Data Mining (SDM 2010), 2010, pp. 665-676. [3] Shahar Y, Musen MA., Knowledge-based temporal abstraction in clinical domains. Artif Intell Med. 1996 Jul;8(3):267-98.

Nom : Rouvrais Siegfried
Equipe : INFO, Telecom Bretagne, IRISA-PASS
Mail : siegfried.rouvrais@telecom-bretagne.eu
Lien :
Contact : Siegfried Rouvrais, Enseignant-Chercheur, Dpt. Info, Télécom Bretagne, IRISA-PASS Tel : 0229001504, mailto:siegfried.rouvrais@telecom-bretagne.eu

Titre : Alignement de propriétés de qualité dans un framework d’architecture système pour le domaine aéronautique
Mots cles : Ingénierie, systèmes et services, processus métiers, modélisation, propriétés de qualité, services aéronautiques

Description : La gestion des processus métiers est devenue de première importance pour les entreprises de grandes tailles de plus en plus amenées à inter-opérer. Un processus métier permet de décrire l’orchestration des activités entre plusieurs acteurs d’un système.

Du côté du système informatique support, le pilotage et l’exécution des processus métiers requièrent des applications logicielles et une infrastructure technique le plus souvent sécurisée, fiable, performante ou encore flexible en fonction du domaine cible.

Pour faire face à cette complexité, des frameworks d’architecture s’appuyant sur le standard IEEE 1471 permettent de décomposer en couches un système – ou système de systèmes – complexe à l’aide de langages de spécification spécifiques aux domaines (couches métiers, fonctionnelles ou applicatives, et techniques).

Durant les phases de conception, les architectes et urbanistes sont de plus en plus tôt confrontés à la prise en compte des propriétés dites non fonctionnelles. Pour que ces propriétés puissent être respectées au mieux, il convient donc d’en connaître une description précise au niveau des processus métiers mais aussi des autres couches applicatives et techniques. Le domaine aéronautique est aussi confronté à ces problématiques quand de nombreux services sont amenés à interopérer (p.ex. gestion du trafic aérien, surveillance à l’aide de drones, etc.).

A ce jour, il n’y a pas de standard pour la définition des attributs de qualité dans les notations pour la spécification des processus métiers [Indulska09, Heinrich10] (p.ex. diagrammes d’activités UML, BPEL, BPMN). Sur ce point, de premiers résultats sur la composition de service applicatif offrent cependant des pistes prometteuses (cf. SOA).

Cette étude permettra de considérer la modélisation d’éléments dits non fonctionnels à travers différentes couches de frameworks d’architecture et d’en considérer l’alignement dans les phases amont de la conception. Le domaine d’application portera sur des services aéronautiques dans le cadre d’une collaboration avec un laboratoire Australien.

Objectifs du stage :

Ce stage de master recherche, rémunéré, s’attachera à :
* Réaliser un travail bibliographique (état de l’art) sur les travaux existants visant à spécifier des propriétés de sécurité (p.ex. liées aux habilitations et contrôles d’accès) ou de performance sur les architectures et les processus métiers ;
* Sur la base d’exemples de systsèmes, collecter des caractéristiques et attributs qualitatifs de sécurité au niveau des processus métiers et de proposer des extensions aux langages de modélisation existants pour traiter de telles propriétés (méta-model) ;
* Proposer, en relation avec les étapes précédentes, des analyses de cohérence entre les vues processus métiers et vues applicatives ou techniques à partir des modèles précédemment proposés ;
* Valider des éléments de l’approche sur un petit exemple de système aéronautique (p.ex. système de surveillance civil) ;
* Etudier l’applicabilité de l’approche proposée dans les frameworks d’architectures d’entreprise (urbanisation) s’appuyant sur des vues (p.ex. TOGAF/Zachman, [Lankhorst09]) ;
* Rédiger un rapport de stage et potentiellement un papier scientifique en anglais pour une conférence.

Bibliographie : Indulska09] Indulska, M., Recker, J., Rosemann, M., and Green, P. 2009. “Business Process Modeling: Current Issues and Future Challenges”. Advanced Information Systems Engineering, Volume 5565 of Lecture Notes in Computer Science, Springer Verlag, pp. 501- 514.
[Miege05] Alexandre Miege. “Definition of a formal framework for specifying security policies. The Or-BAC model and extensions”. These de doctorat Telecom Paris. 2005. http://4lx.free.fr/phd.php
[Heinrich10] R. Heinrich, B. Paech. “Defining the quality of business processes”. Modellierung 2010. Pages 133-148.
[Lankhorst09] Lankhorst, M. 2009. “Enterprise Architecture at Work: Modeling, Communication and Analysis”. Springer Verlag, 2nd Edition.
[FlightGlobal2011] FlightGlobal Web site, UAVs section. http://www.flightglobal.com/

Nom : Bertrand Coüasnon et Aurélie Lemaitre
Equipe : Imadoc
Mail : couasnon@irisa.fr / aurelie.lemaitre@irisa.fr
Lien : http://www.irisa.fr/imadoc
Contact : Bertrand Couasnon : couasnon@irisa.fr / 02 99 84 74 11

Titre : Inférence grammaticale interactive dans des grammaires visuelles pour la reconnaissance de documents structurés
Mots cles : Analyse d’images de documents, grammaires visuelles, apprentissage, inférence grammaticale

Description :

L'équipe de recherche Imadoc de l'Irisa (http://www.irisa.fr/imadoc) travaille notamment sur la reconnaissance de la structure de documents anciens, manuscrits ou dégradés (partitions musicales, registres d'archives, journaux, courriers manuscrits, schémas électriques ...). Dans ce contexte, les travaux de l'équipe ont porté sur le développement de grammaires bidimensionnelles permettant d'exprimer la connaissance sous forme d'une description visuelle, pour la reconnaissance de documents structurés. Un des nouveaux axes de l’équipe consiste à introduire l’utilisateur dans le processus d’analyse pour améliorer les résultats de reconnaissance et construire des systèmes auto-évolutifs.

L'équipe possède la méthode DMOS (Description et MOdification de la Segmentation). Elle est constituée d'un formalisme grammatical (EPF) permettant une description bidimensionnelle de la structure contenue dans une image de documents. Une extension de cette méthode, DMOS-P permet d'ajouter une dimension supplémentaire en prenant en compte plusieurs niveaux de perception d'une même image, par exemple à des résolutions différentes. Des travaux récents ont également mené à l’intégration d’un nouveau mécanisme d’analyse permettant des interactions asynchrones entre l’utilisateur et le système de reconnaissance de structure.

Les méthodes basées sur les grammaires visuelles montrent un intérêt certain pour la reconnaissance de documents structurés. Cependant, une limite forte de ces approches est qu'elles nécessitent de réaliser manuellement une description grammaticale pour chaque nouveau type de document à reconnaître. Le but du stage est donc de commencer à étudier l'intégration de techniques d’inférence grammaticale dans les grammaires visuelles utilisées pour la reconnaissance de documents structurés.

L’inférence grammaticale, qui est déjà un vrai challenge pour des grammaires mono-dimensionnelles, l’est d’autant plus en bi-dimensionnel. Cependant, le sujet de stage se place dans un cadre spécifique pour réussir à réaliser une première étape sur l’inférence : d’une part en profitant de la présence de l’utilisateur dans les mécanismes d’analyse ; d’autre part en focalisant l’inférence sur des aspects physiques de la structure, notamment dans un premier temps sur des aspects de dimensions, qui sont généralement les plus délicats à spécifier lors de la conception d’une grammaire, mais en revanche plus faciles à inférer que la structure logique.

Bibliographie :

B. Coüasnon. DMOS, a Generic Document Recognition Method: Application to Table Structure Analysis in a General and in a Specific Way. In International Journal on Document Analysis and Recognition, IJDAR, 2006, 8(2), 111-122

Lemaitre, J. Camillerapp, B. Coüasnon, B. Multiresolution Cooperation Improves Document Structure Recognition. In International Journal on Document Analysis and Recognition (IJDAR), 2008, 11, 97-109

Nom : Totel Eric
Equipe : CIDre
Mail : Eric.Totel@supelec.fr
Lien : http://www.rennes.supelec.fr/ren/rd/ssir/outils/sidan/
Contact : Eric Totel (Eric.Totel@supelec.fr) Frederic Tronel (Frederic.Tronel@supelec.fr)

Titre : Amélioration de la génération d’invariants du plugin SIDAN de Frama-C
Mots cles : Frama-C, analyse statique, génération d'invariants

Description :

Frama-C [1] est un framework permettant de réaliser l’analyse statique de codes écrits en langage C qui est activement développé par le CEA. Ce framework offre un ensemble de briques permettant de conduire différentes analyses classiques de code source. Frama-C est complètement écrit en objective CAML et repose lui-même sur le projet CIL dont le but est de transformer un code écrit en langage C vers un langage intermédiaire sémantiquement équivalent, mais utilisant seulement un sous-ensemble restreint du langage C. Par ailleurs, Frama-C peut être étendu par un système de plugins. Dans le cadre de sa thèse Jonathan Demay a réalisé un plugin pour Frama-C nommé SIDAN [2, 3, 4] qui permet la génération automatique d’invariants et leur incorporation dans un programme C. Ces invariants permettent de détecter des erreurs à l’exécution du programme, dont la survenue peut être attribuée à une attaque. Cependant dans son état actuel , il a été montré que la couverture de détection des erreurs de SIDAN reste relativement faible. Faute de temps, certaines améliorations du plugin identifiées par Jonathan Demay mais n’ont pas pu être implémentées durant la durée de sa thèse.

Le stage consistera donc à améliorer le plugin SIDAN suivant trois directions clairement identifiées :

1. Pour l’instant le plugin SIDAN ne considère que les variables simples de type entières. On cherchera à améliorer SIDAN en intégrant dans l’analyse des entiers contenus dans des structures de données arborescentes ou des tableaux d’entier ;

2. Les invariants générés actuellement ne portent que sur des relations entre variables à l’intérieur d’une même fonction. Or Frama-C réalise une analyse interprocédurale, ce qui permettrait d’établir des relations entre variables appartenant à des fonctions différentes. On cherchera à ajouter cette fonctionnalité à l’intérieur de SIDAN.

3. Si le temps le permet, on cherchera aussi à améliorer le plugin réalisant l’analyse de valeur au sein de Frama-C (plugin utilisé par Frama-C afin de calculer ses invariants) de manière à augmenter la vitesse d’analyse et la consommation mémoire. Pour cela on essaiera de modifier le plugin d’analyse de valeurs afin qu’il puisse conduire une analyse de valeur procédure par procédure (plutôt qu’une analyse globale).

Les compétences suivantes seraient un plus pour ce stage : la connaissance d’algorithmes d’analyse statique, une bonne connaissance des langages C et Objective CAML.

Bibliographie : [1] CEA, Frama-C, http://frama-c.com/.
[2] Jonathan Christopher Demay and Eric Totel and Frederic Tronel, SIDAN: a tool dedicated to Software Instrumentation for Detecting Attacks on Non-control-data, 4th International Conference on Risks and Security of Internet and Systems (CRISIS'2009), Toulouse, October, 2009.
[3] Jonathan Christopher Demay and Eric Totel and Frederic Tronel, Detecting illegal system calls using a data oriented detection model, Proceedings of the 26th IFIP International Conference (IFIP SEC'2011), June 7-9, Lucerne, Switzerland, 2011.
[4] Jonathan Christopher Demay, Génération et évaluation de mécanismes de détection d’intrusion au niveau applicatif, Thèse de doctorat, juillet 2011.

Nom : Mallet Julien, Rouvrais Siegfried
Equipe : INFO, Telecom Bretagne, Brest, IRISA-PASS
Mail : julien.mallet@telecom-bretagne.eu, siegfried.rouvrais@telecom-bretagne.eu
Lien : Sujet au format pdf
Contact : Julien Mallet, Enseignant-Chercheur, Dpt. Info, Télécom Bretagne, BREST, IRISA-PASS Tel : 0229001135, Siegfried Rouvrais, Enseignant-Chercheur, Dpt. Info, Télécom Bretagne, BREST, IRISA-PASS Tel : 0229001504

Titre : ANALYSE DE QUALITE SUR DES ARCHITECTURES LOGICIELLES
Mots cles : ingénierie logicielle, systèmes distribués, style d’architecture logicielle, choix de conception, qualité logicielle.

Description :
Descriptif du sujet :
Pour la conception de systèmes informatiques complexes, la description de la structure des éléments logiciels est devenue incontournable à la maîtrise et réussite des projets logiciels d’envergure. Lors de la conception de l’architecture du système, l’architecte et des experts métiers spécifiques sont amenés à faire des choix de conception qui peuvent être accompagnés de justification (appelée design rationale). Ces design rationals portent sur la nature et les raisons des choix effectués (p.ex. quelles alternatives ont été considérées, pourquoi avoir choisi cette solution, pourquoi avoir éliminé cette autre).

Cependant, l’architecture logicielle résultante peut ne pas être exempt d’incohérences, de contradictions ou de conflits entre de tels design rationals, d’autant plus, qu’elle est issue d’échanges et de collaborations entre experts variés. Les détections et les résolutions de ces incohérences sont rendues difficiles par la complexité des architectures. Elles sont dévolues à l’architecte qui s’appuie, le plus souvent, sur son savoir faire et peut conduire à des oublis ou des pistes erronées.

Dans les systèmes distribués, une application s’appuie très souvent sur un style ou pattern d’architecture qui induit des interactions spécifiques entre les différents composants (p.ex. pair-à-pair, code mobile ou client-serveur). De plus, il apparaît que les styles disposent de propriétés non fonctionnelles (ou qualités) intrinsèques (p.ex. performance, sécurité, fiabilité, maintenabilité). La norme SQuaRE définit les différentes qualités logicielles requises et/ou mesurables. Ce modèle catégorise les qualités logicielles en caractéristiques qui sont subdivisées en sous caractéristiques et en attributs de qualité. De tels attributs peuvent être mesurés par des éléments spécifiques. Toutefois, des propriétés peuvent entrer en conflit quand l’architecte souhaite garantir pleinement certaines exigences. On parle alors de problèmes de consistance.

En définissant des design rationals génériques pour les styles d’architecture, prenant en compte leurs propriétés non fonctionnelles, il devient possible de systématiser, en partie et en amont, la vérification de consistance entre propriétés non fonctionnelles des architectures. De telles analyses pourront aider l’architecte à réviser ses choix et ainsi à améliorer certains attributs de qualité du système résultant.

Objectifs du stage :
Ce stage de master recherche, rémunéré, s’attachera à (i) définir des design rationals génériques aux styles architecturaux (p.ex. P2P, C/S, publication/abonnement) en s’appuyant sur leurs propriétés non-fonctionnelles ; à (ii) élaborer des analyses à même de garantir l’absence d’incohérence, de contradiction ou de conflits entre design rational d’une architecture donnée et ainsi de détecter des conflits entre propriétés non fonctionnelles au plus tôt.

Pour cela, l’étudiant devra être capable de :

Réaliser un travail bibliographique sur les travaux existants visant à définir les attributs de qualités logicielles [ISO09], les choix de conception d’architecture et leur justification [K04, BB08, WB10] ;
Identifier les concepts des styles architecturaux et de leurs propriétés non fonctionnelles à rattacher aux design rationals ;<:li>
Proposer un formalisme pour spécifier des design rationals génériques pour 3 styles ou pattern classiques [TMD09] ;
Proposer une analyse pour vérifier la cohérence, la contradiction ou les conflits entre les design rationals d’une architecture conforme aux 3 styles classiques;
Etudier et proposer une extension de l’analyse précédente à des styles d’architecture hybrides ;
Rédiger un rapport de stage en français ou en anglais, potentiellement co-publier un article scientifique en anglais.

Bibliographie :

[BB08] Burge J. E.and Brown D. C.. Software engineering using rationale. J. Syst. Softw., 81(3):395–413, 2008.
[K04] Kruchten, P. An Ontology of Architectural Design Decisions. In Proceedings of the 2nd Groningen Workshop on Software Variability Management, 2004.
[ISO09] ISO/IEC. ISO/IEC 25010. Systems and software engineering - Systems and software Quality Requirements and Evaluation (SQuaRE). System and software quality models. ISO/IEC-JTC1/SC7/WG6,2009.
[TMD09] Taylor R. N., Medvidovic N., and Dashofy E. M., Software Architecture: Foundations, Theory, and Practice. Wiley, January 2009.
[WB10] Wang W. and Burge J.. Using Rationale to Support Pattern-Based Architectural Design. In Proceedings of the Workshop on Sharing and Reusing Architectural Knowledge. 2010.

Nom : Mallet Julien
Equipe : INFO, Telecom Bretagne, Brest, IRISA-PASS
Mail : julien.mallet@telecom-bretagne.eu
Lien : Sujet au format pdf
Contact : Julien Mallet, Enseignant-Chercheur, Dpt. Info, Télécom Bretagne, BREST, IRISA-PASS Tel : 0229001135

Titre : POLITIQUE DE CONTROLE DE FLUX D'INFORMATION POUR DES DECLASSIFICATIONS ET DES CONTRE-MESURES.
Mots cles : politique de sécurité, flux d’information, déclassification, analyse de programme, spécification formelle.

Description :
Problématique :
Afin de garantir la confidentialité des données différents modèles de contrôle de flux ont été proposés [Gol06]. Aujourd’hui le modèle de référence est le modèle de la non-interférence : un programme est dit non-interférant si les valeurs de ses données privées n'influent pas sur celles de ses données publiques. De nombreux travaux visent à garantir cette propriété en se basant soit sur des analyses statiques de programmes [SM03], soit sur des analyses dynamiques [LGBJS06].

Cependant le modèle de la non-interférence s’avère trop restrictif pour des systèmes réalistes : il est nécessaire de mettre en place des alternatives en « déclassifiant » certaines informations privées en publiques. Plusieurs analyses ont été développées afin de garantir que des programmes contenant des opérations de déclassification respectent certaines propriétés de sécurité [SS07, DMLT09]. Cependant, l’utilisateur final ou le responsable sécurité n’a que peu de contrôle sur la politique de sécurité appliquée. Dans certains cas, il serait pertinent que ces derniers précisent que la quantité et/ou la « qualité » des données sensibles divulguées peuvent être considérées comme négligeables ou rendues négligeables grâce des contre-mesures judicieusement choisies.

Objectifs du stage :
Ce stage de recherche, rémunéré, s’attachera à étudier la spécification de politiques de flux d’information plus expressives en permettant de mixer différentes types de déclassifications et d'introduire des contre-mesures adaptées aux fuites d'informations considérées.

Pour cela, l’étudiant devra être capable de :

Réaliser une étude bibliographique sur les travaux de contrôle de flux d'information existants [SM03] en approfondissant ceux qui prennent en compte les déclassifications [SS07] et des politiques de sécurité plus expressives [NBG11].
Proposer une spécification formelle de la politique de flux d’information permettant de mixer différentes types de déclassifications pour étendre l'expressivité de la politique.
Proposer l'intégration de contre-mesures dans la politique de sécurité pour rendre négligeables voire supprimer les fuites d’information induites par les déclassifications.
Rédiger un rapport de stage (problématique, état de l’art, approches, solutions, etc.).

Bibliographie :

[DMLT09] T. Demongeot, J. Mallet and Y. Le Traon. Runtime Verification of Declassification for Imperative Programs: Formal Foundations. In International Conference on Risks and Security of Internet and Systems (CRiSIS 2009), 2009.
[Gol06] D. Gollmann. Computer Security. John Wiley & Sons, 2nd Edition, 2006.
[LGBJS06] G. Le Guernic, A. Banerjee, T. Jensen, and D. Schmidt. Automata-based confidentiality monitoring. In Proceedings of the Annual Asian Computing Science Conference, 2006.
[SM03] A. Sabelfeld and A. Myers. Language-based information-flow security. IEEE J. on selected areas in communications 21, 1, 5—19, 2003.
[SS07] A. Sabelfeld and D. Sands. Declassification : Dimensions and principles. Journal of Computer Security, 2007.
[NBG11] A. Nanevski, A. Banerjee and D. Garg.Verification of Information Flow and Access Control Policies via Dependent Types. IEEE Symposium on Security and Privacy , 2011.

Nom : Pazat Jean-Louis
Equipe : Myriads
Mail : Jean-Louis.Pazat@irisa.fr
Lien : http://www.irisa.fr/myriads/
Contact : Nicolas Le Scouarnec Gilles Straub Jean-Louis Pazat

Titre : Migration d’applications web
Mots cles : Web services, ADSL, adaptation dynamique, migration

Description :

La faiblesse des débits montants sur les connexions ADSL reste une limite pour de nombreuses applications en ligne (Picasa, Youtube, Photoweb, RapidShare…). En effet, l’augmentation de la qualité des contenus (vidéos, photos), rend leur envoi vers des sites webs contraignant : l’envoi d’un album de 300 photos ou d’une longue vidéo peut prendre 3-4h. Durant toute la durée de l’envoi, l’utilisateur ne peut ni mettre en veille son terminal, ni le déconnecter, ce qui devient d’autant plus critique que de plus en plus de terminaux sont soit des smartphones, soit des portables, tous alimentés par batteries. Afin d’offrir un service plus commode à l’utilisateur, il serait intéressant d’exploiter les passerelles d’accès (box de FAI qui sont généralement allumées 24h/24h) pour y déporter les tâches longues afin d’autoriser la mise en veille et la déconnexion du terminal.

Nous souhaitons étudier une solution permettant de déporter dynamiquement certaines tâches (exécution de code Javascript, uploads, …) du navigateur vers un composant logiciel sur la passerelle d’accès afin d’autoriser la mise en veille du terminal faisant tourner le navigateur. Afin d’offrir une compatibilité avec les systèmes existants et un déploiement aisé, nous considérerons que seule la passerelle d’accès et éventuellement la partie cliente (navigateur) peuvent être modifiées. Par ailleurs, pour l’utilisateur, l’utilisation du système doit rester quasi inchangée : le déport des tâches doit être transparent.

Au cours de ce stage, l’étudiant proposera des stratégies permettant de déporter l’exécution de certaines tâches liées à l’exécution d’une application web dans un navigateur sur la plate-forme du client (adaptation dynamique, migration de processus,…). Il faudra également prendre en compte les mécanismes utilisés pour la connexion avec le serveur. L’étudiant devra proposer et réaliser un prototype d’une architecture permettant d’exécuter les tâches sur la passerelle d’accès plutôt que sur le terminal.

Bibliographie : 1. Byung-Gon Chun, Sunghwan Ihm, Petros Maniatis, Mayur Naik and Petros Maniatis. “CloneCloud: Elastic Execution between Mobile Device and Cloud”, EuroSys, 2011
2. Mike papazoglou, Klaus Pohl, Michael Parkin, Andreas Metzger (Eds.) Service research Challenges and Solutions for the Future Internet, LNCS 6500, 20120.
3. André Lage Freitas, Jean-Louis Pazat. « A Self-Adaptable Approach for Easing the Development of Grid-Oriented Services » International Conference on Computer and Information Technology (CIT 2010), Jun 2010, Bradford, United Kingdom.

Nom : Bothorel Cécile
Equipe : Telecom Bretagne, Département LUSSI, UMR CNRS 3192 Lab-STICC
Mail : cecile.bothorel@telecom-bretagne.eu
Lien :
Contact : cecile.bothorel@telecom-bretagne.eu

Titre : Algorithmes MapReduce de sélection de VoD pour une mise en cache anticipée dans un réseau innovant de distribution de VoD
Mots cles : Algorithmes de recommandation, prédictions de téléchargement, content centric networking, prefetching, caches intelligents, algorithmes distribués, MapReduce, Hadoop, Mahout, Java

Description : Actuellement, une grande partie du trafic sur le Web est dû aux sites de partage ou distribution de vidéos, et dans ce cas précis, les opérateurs de réseau n'ont qu'un faible contrôle sur le flux de données transmis par les CDN (Content Delivery Network). L'objectif du projet de recherche VIPEER est de permettre aux opérateurs d'avoir un contrôle plus explicite sur ces flux, en proposant des solutions de type "Content Centric Networking" grâce à la combinaison de CDN classiques et de CDN distribués (les dCDN sont des nœuds et "box" du réseau), dans le but d'améliorer la qualité de service rendue à l'utilisateur final. Le projet a commencé en janvier 2010, bénéficie d'une subvention de l'ANR (Agence Nationale de la Recherche), et réunit des acteurs industriels et académiques : France Télécom, NDS Technology, ENVIVIO, Eurecom, IRISA et Télécom Bretagne, leader du projet. Des informations sur le projet VIPEER sont disponibles sur ce site [1].

L'un des lots du projet concerne la gestion des caches dans le CDN distribué ou comment entreposer le plus efficacement possible les contenus que les clients demandent. Telecom Bretagne s'intéresse, entre autres tâches, à mettre en oeuvre des techniques de recommandation de contenus, de sorte à prévoir les futurs téléchargements et ainsi pré-remplir les caches de façon anticipée ("prefetching").

Des premières expérimentations ont montré que l'on pouvait prévoir une bonne partie du traffic (d'autant plus que l'espace disponible dans les caches est grand). Nous avons comparé deux politiques de sélection de contenus simples : l'utilisation du Filtrage Collaboratif communément utilisé par des sites comme Amazon, ainsi que la sélection naïve des k films les plus populaires. Si cette dernière méthode apporte de bonnes prédictions, nos premiers résultats nous montrent que les moteurs de recommandation peuvent améliorer sensiblement ce taux de prédiction.

Nous travaillons sur des données réelles de téléchargement de VoD. Ces données sont assez peu denses. Les techniques à base de mémoire de type Filtrage Collaboratif sont moins adaptées que d'autres techniques à base de modèle. Ces dernières sont plus robustes sur les données peu denses et tendent à capturer des informations cachées. La littérature scientifique met notamment en avant des techniques à base de SVD (Singular Value Decomposition) dont le but est de factoriser la matrice de téléchargements de VoD [2, 3].

Par ailleurs, les volumes de données que nous adressons sont très conséquents (à l'échelle d'un opérateur réseau, potentiellement). Nous mettons en oeuvre des techniques logicielles distribuées pour faire les calculs de prédiction, mais également pour toute la partie ingénierie des caches dCDN (placement des contenus en particulier). Nous travaillons avec MapReduce, un modèle de programmation destiné à rendre possible l’exécution d'algorithmes à très grande échelle. Conçu par Google pour indexer l'internet au départ, capable de traiter des téraoctets sur des milliers de machines, MapReduce est actuellement utilisé par un grand nombre d'acteurs du Web pour de nombreux problèmes différents [4, 5, 6]. Nous utilisons l'implémentation libre Apache Hadoop, considérée comme une référence en termes de performance et utilisée par un nombre impressionnant d'entreprises importantes [7]. La plate-forme Mahout est une extension de Hadoop fournissant un ensemble d'algorithmes bien connus en "machine learning", dont l'algorithme de Filtrage Collaboratif que nous avons testé pour valider l'approche de prédiction de cache [8].

Le but du stage est de travailler sur des algorithmes de sélection de contenus à placer dans les caches :
- faire un état de l'art de méthodes de prédiction utilisées pour le prefetching de contenus vidéos d'une part et implémentables d'autre part en MapReduce.
- implémenter une technique reconnue efficace de l'état de l'art à base de SVD en MapReduce.
- expérimenter cette technique sur les données que nous disposons, en comparant avec le Filtrage Collaboratif et la sélection naïve de contenus populaires.
- analyser les résultats de sorte à tenir compte de la temporalité et des zones géographiques de téléchargement : peut-on détecter des tendances ? Peut-on prédire la popularité ? Y-a-t'il des différences de comportement entre les zones géographiques ? Si oui, sur quels types de contenus ?

Une forte interaction est prévue avec les équipes de l'INRIA, mais aussi l'équipe de Telecom Bretagne travaillant sur l'allocation des contenus dans les caches et leur distribution.

Bibliographie :
[1] http://recherche.telecom-bretagne.eu/vipeer/
[2] Fidel Cacheda, Victor Carneiro, Diego Fernandez, and Vreixo Formoso. 2011. Comparison of collaborative filtering algorithms: Limitations of current techniques and proposals for scalable, high-performance recommender systems. ACM Trans. Web 5, 1, Article 2 (February 2011), 33 pages. DOI=10.1145/1921591.1921593 http://doi.acm.org/10.1145/1921591.1921593
[3] Paolo Cremonesi, Yehuda Koren, and Roberto Turrin. 2010. Performance of recommender algorithms on top-n recommendation tasks. In Proceedings of the fourth ACM conference on Recommender systems (RecSys '10). ACM, New York, NY, USA, 39-46. DOI=10.1145/1864708.1864721 http://doi.acm.org/10.1145/1864708.1864721
[4] An introduction to MapReduce : http://www.slideshare.net/Wombert/an-introduction-to-mapreduce-3414122
[5] MapReduce: Simplified Data Processing on Large Clusters (Dean et al., http://labs.google.com/papers/mapreduce.html)
[6] Introduction to Parallel Programming and MapReduce (Google Code University, http://code.google.com/edu/parallel/mapreduce-tutorial.html)
[7] http://wiki.apache.org/hadoop/PoweredBy
[8] http://mahout.apache.org/

Nom : Texier Géraldine
Equipe : RSM (IRISA/Télécom Bretagne)
Mail : geraldine.texier@telecom-bretagne.eu
Lien :
Contact : Geraldine.Texier@telecom-bretagne.eu, samer.lahoud@irisa.fr, alberto.blanc@telecom-bretagne.eu

Titre : Etude du routage compact dans l’Internet
Mots cles : Algorithmes de routage, Internet, routage compact

Description : L’Internet est constitué d’un ensemble de réseaux qui coopèrent pour fournir des communications de bout en bout. Ces réseaux échangent des informations de routage pour assurer la connectivité. Actuellement, Border Gateway Protocol (BGP) est le protocole utilisé pour interconnecter différents domaines de routage ou systèmes autonomes. BGP permet à chaque système autonome de définir sa propre politique de routage. Les limitations du protocole BGP sont aujourd’hui très bien identifiées [1], en particulier le passage à l’échelle de la table de routage, la convergence rapide, la stabilité et l’isolation des changements [2].

Malgré la diversité des solutions proposées comme alternatives à BGP , la communauté scientifique n’a pas encore réussi à trouver une architecture de routage pour l’Internet qui permet d’allier une flexibilité accrue dans la mise en place et une évolutivité prouvée théoriquement, cela en raison d’une approche très simplificatrice du problème due à la complexité des paramètres impliqués et de leurs interactions. (par exemple, les problèmes de passage à l’échelle de l’Internet sont dus à plusieurs facteurs dont la croissance du trafic et de la taille des topologies, la multi-domiciliation, et la dynamique du routage inter-domaine). En outre, les terminaux mobiles introduisent de nouveaux usages de l’Internet et une évolution du routage. De plus, le routage devrait proposer des solutions inhérentes aux problèmes de passage à l’échelle et de stabilité.

L’approche choisie utilise le routage compact. Le routage compact consiste à étudier les limites théoriques du passage à l’échelle du routage et à proposer des algorithmes qui permettent d’atteindre un compromis entre la qualité des routes et la taille de la table de routage. En particulier, le routage compact démontre que le plus court chemin, fondement du routage dans l’Internet, ne peut pas garantir une augmentation sous-linéaire de la taille de la table de routage. Un ensemble d’approches [7,8] ont donc été proposées pour le routage compact ; ces approches relâchent la contrainte du plus court chemin pour permettre une croissance sous-linéaire de la table de routage avec des bornes théoriques.

Le routage compact constitue un cadre très prometteur pour résoudre les problèmes fondamentaux de passage à l’échelle du routage dans l’Internet [9, 11]. Cependant, de nombreux défis persistent pour l’adoption d’une telle solution. Les résultats théoriques obtenus pour le routage compact étant valides pour des topologies statiques, il s’agit d’évaluer l’impact de la dynamique du graphe de l’Internet sur les performances globales [10] et de prendre en compte les applications émergentes à fortes contraintes de qualité de service.

Le stage a pour but l’étude d’un algorithme de routage compact dans le cadre de l’Internet. Le stage commence par une étude des propriétés du graphe actuel de l’internet en partant des tables BGP de serveurs de routes. Puis, il s’agit de mettre en œuvre un algorithme de routage compact et d’étudier ses performances sur le graphe de l’internet. Le défi est d’identifier les nœuds ou systèmes autonomes qui sont les plus à même de jouer le rôle de maitre pour les zones de routage compact et de disposer d’une information de routage complète. Une comparaison par rapport à un routage sur le plus court chemin ou par rapport au routage BGP actuel sera très intéressante. Le stage peut finalement intégrer les relations de peering ou de transit entre les systèmes autonomes pour contraindre le routage compact.

Les différentes solutions algorithmiques seront évaluées par des simulations et confrontées aux critères de faisabilité, de passage à l’échelle et de stabilité. Autant que possible, des mesures réelles de l’Internet seront utilisées dans le simulateur afin de confronter les hypothèses à des enjeux pragmatiques.

Bibliographie :
[1] O. Bonaventure, Reconsidering the Internet routing architecture, IRTF, work in progress, 2007.
[2] J. Rexford et al., BGP routing stability of popular destinations, In Proceedings of the 2nd ACM SIGCOMM workshop on Internet measurement, 2002.
[3] X. Yang, D. Clark, and A. Berger, NIRA: A New Routing Architecture, IEEE/ACM Transactions on Networking (ToN), 2007.
[4] D. Zhu, M. Gritter, and D. R. Cheriton, Feedback Based Routing, ACM Workshop on Hot Topics in Network, 2002.
[5] L. Subramanian et al., HLP: a next generation inter-domain routing protocol, SIGCOMM, 2005.
[6] P. Godfrey et al., Pathlet Routing, SIGCOMM 2009.
[7] M. Thorup and U. Zwick, Compact routing schemes, In Proceedings of the thirteenth annual ACM symposium on Parallel algorithms and architectures (SPAA), 2001.
[8] L. Cowen, Compact routing with minimum stretch, In Proceedings of the tenth annual ACM-SIAM symposium on Discrete algorithms, 1999.
[9] D. Krioukov, K. Fall, and X. Yang, Compact routing on Internet-like graphs, In Proceedings of the Twenty-third Annual Joint Conference of the IEEE computer and communications societies (INFOCOM), 2004.
[10] D. Kriouko et al., On compact routing for the Internet, SIGCOMM Computer Communications Review. 37, 3, 2007.
[11] S. Strowes, G. Mooney, and C. Perkins, Compact Routing on the Internet AS-Graph, In Proceedings of the 14th IEEE Global Internet Symposium, 2011.
[12] D. Farinacci et al., Locator/ID Separation Protocol (LISP), draft-ietf-lisp-10 (work in progress), March 2011.

Nom : Hadjadj Aoul Yassine
Equipe : Dionysos
Mail : yhadjadj@irisa.fr
Lien :
Contact : yhadjadj@irisa.fr ksingh@inria.fr aksentin@irisa.fr

Titre : Optimizing energy conservation for TCP-compliant video streaming in LTE
Mots cles : Energy, TCP, performance evaluation, control theory, LTE

Description : The multiplications of video based services coupled with the recent proliferation of mobile devices, with built-in video capability, have stimulated the interest in multimedia transmission over mobile communication systems such as 3G, LTE, etc. Supporting such services in mobile devices results, however, into significant energy consumption which reduce severely the devices' operation time [1]. On the other hand, the keen interest towards multimedia streaming over the Internet, which was clearly encouraged by the development of easy-to-use content sharing platforms (e.g. the YouTube phenomenon ), is making HTTP/TCP streaming the leading technology in the media delivery sectors for both mobile and fixed networks. Hence, it is compelling to consider issues associated with HTTP video distribution over such devices in order to maximize the batteries lifetime.$

The main objective of this mastership is to design an energy efficient, TCP compliant, transport solution for multimedia streaming over LTE. More especially the master student has to investigate innovative solutions acting at the transport layer, and not limited to such layer (i.e. cross-layer approaches), to optimize the energy conservation in green mobile communications systems. System modelling and control theory will be considered to optimize the sleeping time of the receiver. The final step will consist in validating the obtained results.

Bibliographie :
[1] S. Chandra and A. Vahdat, « Application-Specific Network Management for Energy-Aware Streaming of Popular Multimedia Formats », Proceedings of USENIX Annual Technical Conference, pp. 329 - 42, 2002.
[2] N. Zong, « Survey and Gap Analysis for HTTP Streaming Standards and Implementations'', Internet-Draft: draft-zong-httpstreaming-gap-analysis-01, October 2010.

Nom : Pettre Julien
Equipe : Mimetic
Mail : julien.pettre@inria.fr
Lien : http://www.irisa.fr/bunraku/GENS/jpettre/
Contact : julien.pettre@inria.fr / 02 99 84 22 36

Titre : Simulation de foule : évaluation du niveau de réalisme des modèles d’interaction
Mots cles : simulation foule interaction

Description : Contexte. Une foule est un rassemblement de nombreux individus dans un même lieu. La densité qui en résulte provoque la présence de nombreuses interactions physiques entre les individus. La combinaison de toutes ces interactions locales entre individus résulte en un comportement de l’ensemble caractéristique à plus grande échelle. La simulation de foule repose sur la définition de modèles numériques de ces interactions locales. Ces modèles restent simples mais tentent de faire émerger un comportement global réaliste de l’ensemble malgré cette simplicité. Evaluer le niveau de réalisme atteint par la simulation reste cependant un problème difficile ouvert.

Objectifs.

Ce stage porte sur l’évaluation du niveau de réalisme des modèles numériques d’interactions utiles à la simulation de foule. On étudiera différents modèles proposés dans la littérature et l’on cherchera à faire progresser les modèles propres à l’équipe MimeTIC. On basera l’étude sur des données cinématiques réelles de locomotion humaine en groupes. On cherchera à évaluer le niveau de réalisme à différentes échelle : de la microscopique où on regarde des données cinématiques individuelles à la macroscopique ou les phénomènes émergents des interactions multiples entre humains seront observés.

Bibliographie :
Pettré, J.; Ondřej, J.; Olivier, A.-H.; Cretual, A. & Donikian, S. Experiment-based modeling, simulation and validation of interactions between virtual walkers SCA '09: Proceedings of the 2009 ACM SIGGRAPH/Eurographics Symposium on Computer Animation, ACM, 2009, 189-198
Ondřej, J.; Pettré, J.; Olivier, A.-H. & Donikian, S. A Synthetic-Vision-Based Steering Approach for Crowd Simulation SIGGRAPH '10: ACM SIGGRAPH 2010 Papers, 2010

Nom : Pettre Julien
Equipe : Mimetic
Mail : julien.pettre@inria.fr
Lien : http://www.irisa.fr/bunraku/GENS/jpettre/
Contact : julien.pettre@inria.fr / 02 99 84 22 36

Titre : Peuplement massif d’environnements virtuels interactifs
Mots cles : simulation de foule perfromante

Description : Contexte. Les environnements virtuels interactifs de grandes dimensions restent généralement vides de toute population. Il est nécessaire de proposer des outils qui permettent de les peupler afin de les amener à la vie et les rendre plus crédibles. La simulation de foule est un outil pertinent pour atteindre cet objectif, mais les ressources de calculs nécessaires à la simulation croient rapidement avec la taille de la foule virtuelle du fait de la complexité des algorithmes dédiés. Pour traiter de très grands environnements et préserver une interactivité avec l’utilisateur, nous avons proposé une solution très efficace au problème de peuplement nommé « patches de foules » (cf. bibliographie). Ce stage de recherche se situe dans la continuité des travaux initiés.

Objectifs.

La méthode de patches de foules consiste à pré-calculer un ensemble de trajectoires de déplacements d’humains virtuels. Ces trajectoires sont locales, c'est-à-dire limitées dans l’espace et le temps, et forment un « patch ». Les patches peuvent ensuite être interconnectés pour créer des animations de plus grandes dimensions et passer d’une échelle locale à une échelle globale. Une population virtuelle animée complète peut donc être créer par agrégation de patches de foules. Il est recommandé de lire l’article référencé sur les patches de foules (« crowd patches ») pour mieux appréhender ce sujet. Dans ce stage, on cherchera à étendre l’approche initialement proposée. En particulier, on cherchera à formuler le calcul des trajectoires composant un patch sous la forme d’un problème d’optimisation sous contrainte. Les contraintes sont les conditions aux limites des patches (lieu et temps d’entrée dans un patch) et l’absence de collision entre les objets. L’on explorera les critères d’optimisation qui permettent d’obtenir de trajectoires au meilleur aspect visuel.

Bibliographie :

Yersin, B.; Mam, J.; Pettré, J. & Thalmann, D. Crowd patches: populating large-scale virtual environments for real-time applications I3D '09: Proceedings of the 2009 symposium on Interactive 3D graphics and games, ACM, 2009, 207-214 (Google “Julien Pettre” pour obtenir une copie de l’article et avoir accès à la video de présentation)

Nom : Marchal Maud Pettré, Julien
Equipe : VR4i/ Mimetic
Mail : Maud.Marchal@irisa.fr, Julien.Pettre@inria.fr
Lien :
Contact : Maud.Marchal@irisa.fr, Julien.Pettre@inria.fr

Titre : Conception de nouvelles interfaces pour la locomotion dans des environnements virtuels en interaction avec les humains virtuels
Mots cles : réalité virtuelle, interaction, humain virtuel, locomotion

Description : Contexte :
Ce stage de Master en réalité virtuelle se situe dans le cadre de la conception d'interfaces de navigation dans des environnements virtuels en interaction avec les humains virtuels qui le peuplent. Il vise à concevoir et tester de nouvelles techniques d'interaction permettant de marcher parmi d’autres humains virtuels de manière réaliste, c'est-à-dire tel qu’on le ferait dans le monde réel. Comme le débattement d’un système de réalité virtuelle est limité dans l’espace, une interface matérielle est utilisée par l’utilisateur pour naviguer sur de grandes distances virtuelles en restant physiquement dans un même endroit. Ces interfaces sont variées : clavier, souris, joystick pour les plus fréquentes. Elles sont associées à une fonction de transfert pour transformer l’état de l’interface en action et mouvement dans le monde virtuel. Cependant elles sont souvent peu appropriées pour retranscrire fidèlement le comportement et les sensations de marche dans un environnement virtuel. Ainsi, les trajectoires suivies par l’utilisateur dans le monde virtuel ne sont pas conformes à la réalité.

Objectifs :
Le sujet proposé porte sur l’étude d’une interface dédiée à la marche dans les mondes virtuels, le Joyman, dans le cadre d’une interaction avec les humains virtuels. Il s’agit de déterminer si cette interface améliore le réalisme d’une interaction avec les humains virtuels (par interaction nous entendons par exemple des tâches de suivi et d’évitement). Les objectifs du stage sont donc à la fois l'élaboration d'une méthode pour évaluer le niveau de réalisme des trajectoires de marche suivies par l’utilisateur dans le monde virtuel et l'optimisation des fonctions de transfert de l’interface pour maximiser ce réalisme.

Déroulement du stage :
Le candidat débutera son stage par une étude bibliographique sur les interfaces pour la locomotion dans des environnements virtuels. Il portera une attention particulière à l’interface « Joyman » [Marchal 2011]. Le Joyman fonctionne à l’instar du Segway à la différence qu’il reste statique : l’utilisateur se tient debout sur une plateforme articulée et se penche pour indiquer la direction souhaitée de déplacement dans le monde virtuel. L’inclinaison induite est l’entrée de la loi pilotant la locomotion virtuelle. Le candidat portera son attention sur la formulation de cette loi (en s’inspirant de [Zhang 2009]) et comparera expérimentalement plusieurs d’entre elles. Il élaborera un protocole expérimental pour évaluer les interactions entre utilisateurs en humains réels en se basant sur une étude précédente [Olivier 2010]. Ce travail permettra à terme d’élaborer une plateforme de réalité virtuelle permettant à un utilisateur de naviguer parmi un ensemble de piétons virtuels. L’objectif d’une telle plateforme est alors d’obtenir une interaction réaliste entre les individus réels et virtuels.

Bibliographie : [Marchal 2011] Marchal, M.; Pettré, J.; Pineau, S. & Lécuyer, A. Joyman: a Human-Scale Joystick for Navigating in Virtual Worlds. Proceedings of the IEEE Symposium on 3D User Interfaces 2011 (3DUI), 2011
[Olivier 2010] Olivier, A.-H.; Kulpa, R.; Ondrej, J.; Cretual, A. & Pettre, J. Interaction between Real and Virtual Humans during Walking: Perceptual Evaluation of a Simple Device. APGV '10: Proceedings of the 7th Symposium on Applied Perception in Graphics and Visualization, 2010
[Zhang et al. 2009] Y. Zhang, J. Pettré, Q. Peng and S. Donikian. Data based steering of virtual human using a velocity-space approach. Lecture Notes in Computer Science, Motion in Games, 2009
[Arechavaleta et al. 2008] G. Arechavaleta, J.-P. Laumond, H. Hicheur, A. Berthoz. An Optimality Principle Governing Human Walking. IEEE Transactions on Robotics 24(1): 5-14, 2008

Nom : Tedeschi Cédric
Equipe : Myriads
Mail : cedric.tedeschi@inria.fr
Lien : http://www.irisa.fr/myriads
Contact : Cedric Tedeschi, IRISA/Université Rennes 1, cedric.tedeschi@inria.fr

Titre : Algorithmes efficaces de recherche dans une machine chimique pair-à-pair
Mots cles : Algorithmique distribuée, calcul chimique, systèmes pair-à-pair

Description : Les ressources de calcul mondialement distribuées offrent aujourd'hui une capacité de calcul qui reste largement inexploitée. Programmer cette plate-forme globale de calcul apparue au-dessus de l'Internet fait apparaître de nouveaux challenges. Les ressources sont hétérogènes, géographiquement distribuées et offrent un niveau de fiabilité très disparate. Afin de rendre cette plate-forme exploitable, il est nécessaire de repenser les paradigmes de programmations traditionnels, et y injecter des propriétés telles que l'auto-organisation et la décentralisation.

Le paradigme de programmation chimique [1] a été récemment identifié comme une piste prometteuse pour la programmation de systèmes autonomes [2]. Dans ce paradigme, les calculs sont vus comme des réactions chimiques apparaissant de façon autonomes et parallèles parmi les molécules de données afin de produire une nouvelle molécule résultat. Le langage HOCL [3] implémente ces concepts et fournit l'ordre supérieur (les règles régissant les réactions peuvent elle même être réécrite dynamiquement par d'autres règles.) Exécuter des programmes chimiques sur une plate-forme distribuée se fait à travers une structure logiquement partagée, appelée multi-ensemble, contenant les molécules du calcul.

Des travaux récents ont initié la construction d'un tel multi-ensemble dans une plate-forme dynamique à large échelle, en se basant sur des technologies pair-à-pair de type "gossip" [4,5], qui montrent des bonnes propriétés de passage à l'échelle et de tolérance aux pannes, et qui permettraient donc de sous-tendre une telle machine chimique distribuée. Toutefois, rendre efficace cette plate-forme ouvre de nombreux challenges en termes d'algorithmique distribuée. En effet, retrouver des molécules d'un type particulier, ou satisfaisant une condition particulière à large échelle, reste un problème difficile. Le travail de l'étudiant consistera en la proposition et l'expérimentation de stratégies permettant la recherche efficace de molécules au-dessus d'une plate-forme de type "gossip".

Bibliographie : [1] J.-P. Banâtre, A. Coutant, D. Le Métayer. A Parallel Machine for Multiset Transformation and its Programming Style. Future Generation Computer Systems. 4(2):133-144, 1988.

[2] J.-P. Banâtre, P. Fradet, Y. Radenac. Chemical Specification of Autonomic Systems. In 13th International Conference on Intelligent and Adaptive Systems and Software Engineering (IASSE 2004).

[3] J.-P. Banâtre, P. Fradet, Y. Radenac. Generalised Multisets for Chemical Programming. Mathematical Structures in Computer Science 16(4), 2006.

Sur les protocoles de dissémination de l'information pair-à-pair:

[4] R. Guerraoui, S. Handurukande, K. Huguenin, A.-M. Kermarrec, F. Le Fessant, E. Riviere. GosSkip: an Efficient, Fault-Tolerant and Self Organizing Overlay Using Gossip-based Construction and Skip-Lists Principles. In 6th IEEE International Conference on Peer-to-Peer Computing (P2P 2006).

[5] M. Bertier, Y. Busnel, A.-M. Kermarrec. On gossip and populations. In 16th International Colloquium on Structural Information and Communication Complexity (SIROCCO 2009).

Nom : Parlavantzas Nikos
Equipe : MYRIADS
Mail : Nikos.Parlavantzas@irisa.fr
Lien : http://www.irisa.fr/myriads
Contact : Stefania.Costache@inria.fr, Nikos.Parlavantzas@irisa.fr, Christine.Morin@inria.fr

Titre : Multi-resource proportional-share allocation for private clouds
Mots cles : cloud computing, resource management, proportional-share auctions

Description :

Cloud computing is increasingly gaining popularity as it enables users to provision computing resources on-demand while paying for their use [1,2]. This paradigm relies on the use of virtualization technologies to provide users with private environments that can be customized by need. Users can elastically scale these environments by adding more resources when needed. "Private cloud" systems attempt to bring these advantages to private infrastructures. However, current resource provisioning models applied by these cloud systems do not provide users with enough feedback about the resource availability of the physical infrastructure. As the infrastructure capacity is limited, users require this feedback to know how many resources they are allowed to use, while the infrastructure needs to differentiate between the importance of their requests.

One approach that we see as an attractive alternative to current models is to provision VMs to users through a proportional-share auction [3]. In this model we allocate to each VM an amount of resource (i.e., CPU) proportional to the amount that the user is willing to pay and inversely proportional to the total resource price [4]. To validate this model, we have implemented a proof-of-concept scheduler on top of the OpenNebula [5] Virtual Infrastructure Manager. This scheduler uses a simple heuristic to allocate resources for each requested VM by using the proportional-share rule described above.

The main goal of this internship is to analyze the existing proportional-share allocation mechanism and extend it to handle multiple resource types beyond CPU. In the first stage, the intern will study the state of the art on VM placement algorithms in datacenters [6,7]. Afterwards, the intern will analyze the existing algorithm in terms of the resource share that VMs actually receive. Following that and based on the related work, the intern will propose an improved algorithm that maximizes the resource allocation for multiple resource types (i.e., memory and network) and takes into account the cost of VM migration. Finally, the intern will implement and integrate the algorithm in the existing scheduler.

Bibliographie :

[1] AmazonEC2. http://aws.amazon.com/ec2/

[2] http://aws.amazon.com/ec2/spot-instances/

[3] T. Sandholm and K. Lai. Dynamic proportional share scheduling in Hadoop. In 15th Workshop on Job Scheduling Strategies for Parallel Processing, 2010.

[4] S. Costache, N. Parlavantzas, C. Morin and S. Kortas, An economic approach for Application QoS Management in Clouds, Europar 2011, Parallel Processing Workshops, 2011

[5] B. Sotomayor, R. Montero, I. Llorente, and I. Foster. An Open Source Solution for Virtual Infrastructure Management in Private and Hybrid Clouds. IEEE Internet Computing, 13(5):14–22, 2009.

[6] F. Hermenier, X. Lorca, and J.M. Menaud. Entropy: a consolidation manager for clusters. In Proceedings of the 2009 ACM SIGPLAN/SIGOPS international conference on Virtual Execution Environments, 2009.

[7] M. Stillwell, F. Vivien, and H. Casanova. Dynamic fractional resource scheduling for HPC workloads. In Proceedings of the 2010 IEEE International Symposium on Parallel and Distributed Processing (IPDPS), 2010

Titre : Application adaptation to dynamic pricing in private clouds
Mots cles : cloud computing, adaptation policies, market-based resource management

Description :

Cloud computing is increasingly gaining popularity as it enables users to provision computing resources on-demand while paying for their use [1]. This paradigm relies on the use of virtualization technologies to provide users with private environments that can be customized by need. Users can elastically scale these environments by adding more resources when needed. "Private cloud" systems attempt to bring these advantages to private infrastructures. However, current resource provisioning models applied by these cloud systems do not provide users with enough feedback about the resource availability of the physical infrastructure. As the infrastructure capacity is limited, users require this feedback to know how many resources they are allowed to use, while the infrastructure needs to differentiate between the importance of their requests.

To address this problem, we propose to provision virtual machines (VMs) to users through a proportional-share auction [2]. This model allocates to each VM an amount of resource (i.e., CPU) proportional to the amount that the user is willing to pay and inversely proportional to the total resource price [3]. To validate this model, we have implemented a proof-of-concept scheduler on top of the OpenNebula [4] Virtual Infrastructure Manager. When using this model, a key challenge is how to react to changes in market prices to meet application performance requirements (e.g., deadlines).

The objective of this internship is to add support for meeting application performance goals on top of the proportional-share scheduler. Specifically, the student will investigate methods to adapt the bids submitted by users given the application goals as well as the user's budget constraints. The first step of the internship will be to analyze the current state of art for executing applications under budget and QoS constraints in clouds. Then the student will select one, or possibly two, application types and design new bidding strategies to dynamically adapt the application resource requests. For example, one popular application type that we will consider is MapReduce applications [5]. The last step of the internship will be to test these strategies by implementing an agent that monitors the application's performance and adapts its resource requests accordingly.

Bibliographie :

[1] AmazonEC2. http://aws.amazon.com/ec2/

[2] S. Costache, N. Parlavantzas, C. Morin and S. Kortas, An economic approach for Application QoS Management in Clouds, Europar 2011, Parallel Processing Workshops, 2011

[3] T. Sandholm and K. Lai. Dynamic proportional share scheduling in Hadoop. In 15th Workshop on Job Scheduling Strategies for Parallel Processing, 2010

[4] B. Sotomayor, R. Montero, I. Llorente, and I. Foster. An Open Source Solution for Virtual Infrastructure Management in Private and Hybrid Clouds. IEEE Internet Computing, 13(5):14–22, 2009.

[5] J. Dean and S. Ghemawat, “MapReduce: Simplified Data Processing on Large Clusters,” in 6th Symposium on Operating Systems Design and Implementation, 2004, pp. 137–149.

Nom : Tedeschi Cédric, Pazat Jean-Louis
Equipe : Myriads
Mail : cedric.tedeschi@inria.fr
Lien : http://www.irisa.fr/myriads
Contact : Cedric Tedeschi, Jean-Louis Pazat
IRISA, Campus de Beaulieu, Rennes
cedric.tedeschi@inria.fr, jean-louis.pazat@irisa.fr

Titre : Une approche chimique pour la composition de services à large échelle
Mots cles : Algorithmique distribuée, workflows, découverte de services, ordonnancement, adaptation

Description : Avec l'explosion de la quantité des ressources matérielles et logicielles disponibles, calculer à large échelle s'appuie sur de nouveaux concepts et méthodes, dont l'un des axes principaux est les architectures orientées services: toute entité digitale (espace de stockage, application distante, capteur, ...) est utilisé à travers un service. Il suffit de vous connecter à votre appStore favori pour expérimenter ce nouveau paradigme. Du point de vue de la conception des applications, cela entraîne une nouvelle façon de considérer les logiciels: ils sont de plus en plus fondé sur la composition de ces services, faite dynamiquement en fonction des requêtes d'utilisateurs au bord de l'Internet, par exemple lors de l'organisation de voyages, en s'appuyant sur un service de réservation d'hôtel, un service d'achat de billets d'avions, un service de facturation, etc. Une telle composition est aussi nommée workflow.

Les modèles actuels permettant de gérer cette multitude de workflows à satisfaire simultanément font des hypohtèses très lourdes (service de découverte des services, gestion des ressources centralisées) les randant peu viable à long terme, en raison de leur faible tolérance aux pannes et de leur extensibilité limitée (expérimentée régulièrement sur l'Internet). Avec l'ouverture et l'extension de ces architectures orientées service, il est nécessaire d'envisager une gestion totalement décentralisée et autonome de l'instanciation (découverte des services) et de leur exécution (auto-adaptation, auto-réparation).

Une approche possible est de s'appuyer sur une analogie issue de la nature, qui montre des propriétés similaires à celles recherchées dans notre cas: émergence de propriétés gloables à partir d'interactions locales, auto-adaptation, auto-réparation, etc. En particulier, les modèles d'inspiration chimique [1] dans lesquels les programmes sont vus comme un ensemble de molécules interagissant échangeant de l'information pour en créer de la nouvelle, semblent bien correspondre [2]. Récemment, ces modèles sont devenus plus concrets, avec la définition de langages d'ordre supérieur, comme HOCL [3], permettant de modéliser des systèmes très dynamiques et autonomes.

L'objectif du stage est de proposer un modèle d'instanciation et d'exécution de workflow totalement décentralisé en s'appuyant sur les abstractions des modèles de calcul d'inspiration chimique. Sa mise-en-oeuvre dans des environnements de simulation ou d'expérience à large échelle telle que la plateforme Grid'5000 pourront permettre sa validation.

Bibliographie : Sur le paradigme de programmation chimique:

[1] Peter Dittrich, Jens Ziegler, Wolfgang Banzhaf: Artificial Chemistries-A Review. Artificial Life 7(3): 225-275 (2001).

[2] J.-P. Banâtre, P. Fradet, Y. Radenac. Chemical Specification of Autonomic Systems. In 13th International Conference on Intelligent and Adaptive Systems and Software Engineering (IASSE 2004).

[3] J.-P. Banâtre, P. Fradet, Y. Radenac. Generalised Multisets for Chemical Programming. Mathematical Structures in Computer Science 16(4), 2006.

Sur les architectures orientées service:

[4] Michael N. Huhns and Munindar P. Singh, "Service-Oriented Computing: Key Concepts and Principles", IEEE Internet Computing, vol. 9, no. 1, pp. 75-81, 2005.

Nom : Anquetil Eric
Equipe : Imadoc
Mail : eric.anquetil@irisa.fr
Lien : http://www.irisa.fr/imadoc/
Contact : E. Anquetil (eric.anquetil@irisa.fr), Prof. à l’INSA de Rennes, Responsable de l’équipe IMADOC à l’IRISA.
A. Almaksour (abdullah.almaksour@irisa.fr), ATER à l’Univ. Rennes 1, équipe IMADOC, IRISA.

Titre : Apprentissage incrémental et synthèse de données pour les systèmes de reconnaissance de geste manuscrits
Mots cles : apprentissage incrémental, reconnaissance de formes, gestes manuscrits, synthèse.

Description : Le projet IMADOC de l’Irisa effectue des recherches autour de l’Interaction Homme Document en associant les problématiques des domaines de la reconnaissance de formes, de l’interaction homme‐machine et des « usages ».
L’objectif à terme est d’aboutir à des solutions permettant de développer une communication homme document performante, robuste et intuitive, en offrant notamment un continuum entre un document sous sa forme papier et ce même document sous sa forme numérique interprétée.
Une partie de nos dernières recherches porte sur la conception de systèmes de reconnaissance de formes (lettres, symboles, gestes graphiques…) plus robustes et adaptables afin de répondre aux nouveaux besoins des utilisateurs autour des interfaces gestuelles et tactiles. Nos recherches ont récemment abouti à l’élaboration d’un nouveau classifieur flexible, capable de s’adapter en permanence et donc de faire face à un environnement dynamique et changeant. Ce système de reconnaissance, dénommé « Evolve++ », est un système de classification auto‐évolutif basé sur un apprentissage incrémental à la volée. Il est capable d’intégrer les particularités des tracés manuscrits de l’utilisateur et même d’apprendre de nouvelles classes de formes à la demande, à partir de peu de données d’apprentissage.
L’objectif de ce stage est d’approfondir cet axe de recherches, d’une part, sur les aspects théoriques de l'apprentissage incrémental afin d’améliorer le système « Evolve++ » en intégrant les notions d’oubli, de sélection de caractéristiques, de combinaison de classifieurs, etc., et d’autre part, sur la réactivité de l’apprentissage du système en augmentant le nombre de données d’apprentissage par des techniques de synthèse de tracées manuscrits artificiels.

Bibliographie : [1] A. Almaksour, E. Anquetil. Systèmes d’inférence floue auto-évolutifs : applications sur l’apprentissage incrémental de systèmes de reconnaissance de gestes manuscrits. Document Numérique, 2/2011, 2011.
[2] Abdullah Almaksour, Eric Anquetil, Réjean Plamondon, Christian O’Reilly. Synthetic Handwritten Gesture Generation Using Sigma-Lognormal Model for Evolving Handwriting Classifiers, IGS 2011.
[3] Thèse de l’INSA de Rennes d’Abdullah Almaksour, sous la direction du Professeur Eric Anquetil : « Incremental Learning of Evolving Fuzzy Inference System : Application To Handrwritten Gesture Recognition ».

Nom : Cellier Peggy
Equipe : LIS
Mail : Peggy.Cellier@irisa.fr
Lien :
Contact : Bureau D167, couloir Dorange

Titre : Fouille de données séquentielles pour l'analyse de traces
Mots cles : fouille de données, traces

Description : Description :
Contexte :
Il existe plusieurs sortes de traces, par exemple les traces d'exécution, les traces d'interaction, les fichiers de log. Une trace est un ensemble d'événements caractérisant le comportement d'un objet ou d'un individu pendant une tâche. Par exemple, une trace d'exécution d'un programme collecte toutes les informations sur le comportement du programme (lignes exécutées, valeurs des variables, etc.) lorsqu'il est exécuté avec certains paramètres. La trace d'interaction d'une personne pendant qu'elle réalise une tâche (e.g., "conduire une voiture") contient toutes les actions menées par l'individu pendant la tâche (e.g., tourner à droite, regarder dans le rétroviseur, etc.). Une fois toutes les traces collectées il est important de pouvoir les exploiter afin par exemple de caractériser et d'expliquer des comportements anormaux ou de définir des profils de tâches.
La fouille de données permet d'extraire automatiquement de l'information "pertinente" dans des masses de données. Elle est utilisée dans de nombreux domaines comme le marketing, la bioinformatique. Il existe plusieurs techniques de fouille, notamment des méthodes ensemblistes (règles d'association [1] et analyse formelle de concepts [5]) et des méthodes séquentielles (recherche de motifs séquentiels [2,4]). Les méthodes ensemblistes ont été utilisées pour l'exploration de traces [3]. L'approche proposée extrait de l'information des traces et la structure afin d'aider un utilisateur à comprendre le comportement de l'objet/individu dont proviennent les traces. Toutefois cette approche ne prend pas en compte l'ordre des événements dans les traces, ou les valeurs des événements valués (e.g., les valeurs des variables, la température, etc.). Nous souhaitons enrichir l'approche proposée en utilisant d'autres possibilités offertes par la fouille de données comme la fouille de données séquentielles, l'utilisation d'attributs valués, ou la fouille de flux de données.
Objectifs du stage :
Dans un premier temps, l'étudiant se familiarisera avec les techniques de fouilles de données (ensemblistes et séquentielles en particulier). Il menera une étude bibliographique sur l'utilisation de ce type de techniques pour l'analyse de traces (traces d'interaction, fichiers de log, traces d'exécution). Il travaillera ensuite à enrichir l'approche déjà proposée en utilisant la puissance offerte par la fouille de données, en particulier la fouille de données séquentielles. L'objectif est de prendre en compte d'autres informations issues des traces en plus de celles déjà traitées, spécialement l'ordre entre les événements ou les attributs valués. La validation de l'approche se fera dans un premier temps dans le cadre de la localisation de fautes dans les programmes. D'autres applications pourront être envisagées dans le cadre du projet ECOMER qui s'intéresse à l'étude de la consommation des chalutiers.

Bibliographie : [1] R. Agrawal, T. Imielinski, and A. Swami. Mining associations between sets of items in massive databases. In ICMD. ACM, 1993.
[2] R. Agrawal and R. Srikant. Mining sequential patterns. In ICDE. IEEE, 1995.
[3] P. Cellier, M. Ducassé, S. Ferré, and O. Ridoux. DeLLIS: A Data Mining Process for Fault Localization. In SEKE, 2009.
[4] G. Dong,J. Pei. Sequence data mining. Springer, 2007.
[5] B. Ganter and R. Wille. Formal Concept Analysis: Mathematical Foundations. Springer-Verlag, 1999.

Nom : Ferré Sébastien
Equipe : LIS
Mail : Sebastien.Ferre@irisa.fr
Lien :
Contact : Bureau D166, couloir Dorange

Titre : Interactive construction of multidimensional and aggregation queries over Semantic Web data
Mots cles : semantic web, query language, navigation, aggregation

Description : The Semantic Web [1], also known as the Web of data or the Web 3.0, aims at making the Web "understandable" by machines. The adoption of W3C standards (e.g., RDF, OWL) for representing data and knowledge over the Web could trigger an avalanche of new applications and services. The main obstacle to the adoption of the Semantic Web is the difficulty of producing and accessing semantic data through formal languages as complex as SQL. There is a need, and an opportunity, to reinvent essential components of the Web such as browsers and search engines, adapting them from human-readable HTML documents to machine-processable RDF data.

The LIS team [2] aims at bridging the gap between formal languages and end-users, in order to allow more people to take part into the Semantic Web, both producing and consuming data. We have already designed an interaction model, Query-based Faceted Search (QFS) [3], that makes it possible to build complex relational queries without typing anything, only making choices among suggestions from the system. Those suggestions are designed to make navigation among queries safe (no empty results) and complete (all useful queries are reachable). Along the same principles, it is possible to create objects with complex descriptions. The language of queries and updates, LISQL, covers selections, joins, unions, and differences, but is restricted to mono-dimensional queries, i.e., queries returning sets of answers. All of this has been implemented in a prototype, Sewelis [4].

The objective of this internship is to extend the query language (LISQL), and the guided interaction, to support multidimensional queries and aggregations (e.g., sum, average, count, max, min). Those features are available in SQL, and in the next version of SPARQL (the equivalent of SQL for the Semantic Web). They are very useful for analysing data along several axis: e.g., "what is the average number of children per country and per year~?", "which shop has the highest total sale, per product~?". OLAP tools (On-Line Analytical Processing) [5] makes it easy to visualize and play with the results of multidimensional and aggregation queries, but the query itself has to be given ahead, generally in SQL.

Scientific challenges for the master thesis:

guided interaction for multidimensional and aggregation queries,
integration with OLAP visualization tools
nested aggregation queries, such as "the average, per month,

Scientific challenges for a PhD thesis:

guided interaction for defining dimensions as a function of several attributes through a formula (like in spreadsheets): e.g., the weighted average mark per student
guided interaction for defining a relation as a function of other relations: e.g., the age of people from their birthdate
the integration with semantic data of domain-specific functions and aggregations, e.g., for handling temporal and spatial values

Bibliographie : [1] P. Hitzler et al. Foundations of Semantic Web Technologies. Chapman & Hall/CRC, 2009.
[2] http://www.irisa.fr/LIS/
[3] S. Ferré and A. Hermann. Semantic Search: Reconciling Expressive Querying and Exploratory Search. Int. Semantic Web Conf. LNCS 7031, Springer, 2011 (to appear).
OR S. Ferré and A. Hermann and M. Ducassé. Semantic Faceted Search: Safe and Expressive Navigation in {RDF} Graphs. Research Report, IRISA, 2011.
[4] http://www.irisa.fr/LIS/softwares/sewelis/
[5] P. Vassiliadis, T. Sellis. A survey of logical models for OLAP databases. ACM Sigmod Record, 28 (4), 1999.

Nom : Ferré Sébastien
Equipe : LIS
Mail : Sebastien.Ferre@irisa.fr
Lien :
Contact : Bureau D166, couloir Dorange

Titre : MEMOLIS: une prothèse mémoire basée sur les Systèmes d'information logiques
Mots cles : gestion d'informations personnelles, mémoire, recherche par association

Description : Nous sommes de plus en plus submergés par des informations aussi diverses par nature que par origine: documents, photos, emails, notes, agenda, listes de mémos, news, logiciels, contacts, lieux, etc. Ces informations sont traitées par de nombreuses applications fonctionnant avec des formats et des interfaces incompatibles. En particulier, ces applications ne favorisent pas la récupération d'information. En effet, la mémoire humaine est basée sur la reconnaissance des informations recherchées (plutôt que sur l'expression de requêtes), et l'association d'idée. Par exemple, la recherche d'une photo que j'ai prise après un rendez-vous chez un médecin de mon quartier implique ma collection de photos, mon agenda, mes contacts et mes lieux préférés.

Des projets tels que MyLifeBits [1] ou Lifestreams [2] étudient les possibilités d'acquisition d'un grand nombre d'informations, tels que la position à tout instant, des photos prises à intervalles réguliers, les personnes rencontrées, les documents et pages web consultées, des conversations et même le rythme cardiaque. Une faiblesse de ces systèmes est le manque d'assistance aux utilisateurs dans la recherche d'information, lesquels doivent formuler des requêtes sur une base de données.

Les Systèmes d'information logiques (LIS) [4,5] sur lesquels nous travaillons offrent un certain nombre d'avantages pour la réalisation d'un prothèse mémoire qui intégrerait toutes ces informations. Les LIS permettent de traiter des données hétérogènes en leur attachant des descriptions riches et variées, de guider les utilisateurs dans leur recherche en s'appuyant sur leur faculté de reconnaissance, et d'établir des liens entre informations.

L'objectif de ce stage est de concevoir et réaliser un prototype de prothèse mémoire basée sur les LIS, en s'inspirant des travaux antérieurs sur Lifestreams et MyLifeBits et en appliquant les principes établis par Lamming et al. [3]. L'utilisation des informations temporelles et spatiales constitueront un aspect essentiel pour ce travail, et nouveau pour les LIS.

Un prototype de prothèse mémoire a été implémenté sur une tablette internet (Nokia N810) dans le cadre d'un projet de Master 1 encadré par Olivier Ridoux, et peut servir de point de départ pour la réflexion et l'implémentation. Un développement sur Android est également possible.

Programme:

enregistrement pendant le stage: emails, fichiers, log machine (ex., acces fichiers), log web (ex., acces pages), photos, evenements avec personnes presentes, contacts
collecte d'usages et recherches types (extensionel et intensionel)
acquisition et modelisation des donnees
modules logiques et contextuels pour proprietes et relations
validation modelisation viz. usages
experimentation avec Sewelis

Bibliographie : [1] Projet MyLifeBits (http://research.microsoft.com/barc/mediapresence/MyLifeBits.aspx). Voir en particulier l'article dans Communications of the ACM 2006.
[2] E. Freeman and D. Gelernter. Lifestreams: A Storage Model for Personal Data. SIGMOD Record, 25(1):80--86, 1996.
[3] M. Lamming et al. The Design of a Human Memory Prosthesis. The Computer Journal, 37(3):153--163, 1994.
[4] S. Ferré and O. Ridoux. An Introduction to Logical Information Systems. Information Processing & Management, 40(3):383--419, 2004.
[5] S. Ferré and A. Hermann. Semantic Search: Reconciling Expressive Querying and Exploratory Search. Int. Semantic Web Conf. LNCS 7031, Springer, 2011 (to appear).
OU S. Ferré and A. Hermann and M. Ducassé. Semantic Faceted Search: Safe and Expressive Navigation in {RDF} Graphs. Research Report, IRISA, 2011.

Nom : Laurence Rozé et Marie-Odile Cordier
Equipe : DREAM
Mail : {roze,cordier}@irisa.fr
Lien :
Contact : Laurence Rozé et/ou Marie-Odile Cordier {roze,cordier}@irisa.fr

Titre : Apprentissage incrémental et adaptatif pour la surveillance en ligne de logiciels embarqués
Mots cles : incremental learning, data streams, concept drift, adaptive learning algorithms, partial instance memory, classification rules

Description : Le stage de master proposé porte sur l'apprentissage incrémental de règles de classification, capable de prendre en compte l'évolution du concept cible (concept change). Ce problème est tout à fait crucial pour l'analyse des flux de données, puisqu'il faut construire un modèle de manière incrémentale, tout en permettant une évolution du système surveillé. Sachant que tous les exemples (instances) ne peuvent pas être sauvegardés, un point à étudier de manière approfondie est de définir ceux qui doivent être conservé et sous quelle forme (partial instance memory). Une difficulté supplémentaire et peu étudiée est celle de la modification de la distribution des exemples au cours du temps, due par exemple à un phénomène de masquage de certains exemples.
Ce sujet sera étudié dans le cadre de la surveillance en ligne d'une flotte de mobiles de type smartphones. Les logiciels de surveillance, qui ont en charge la détection et la prévention de dysfonctionnements, sont embarqués et doivent être régulièrement remis à jour afin de maintenir une qualité de service dans un contexte évolutif. Des rapports de fonctionnement, envoyés à intervalle régulier à un serveur, servent d'exemples et de contre-exemples pour l'apprentissage incrémental et adaptatif des règles de surveillance. Il fat tenir compte de l'évolution des matériels, mais aussi des actions préventives qui masquent les dysfonctionnements.
Le stage consistera en une étude bibliographique sur l'apprentissage incrémental, en particulier dans le cas d'évolution de concept des des flux de données. Il s'agira de proposer un mode de mémorisation des exemples passés pertinents (historique) puis de proposer un algorithme d'apprentissage incrémental tirant parti de cet historique.

Bibliographie : [Salperwick-Lemaire:EGC2009] Ch. Salperwyck, V. Lemaire. Classification incrémentale supervisée: un panel introductif, Actes de EGC'09, 2009, to appear in a special issue of the "Revue des Nouvelles Technologies de l'Information" http://perso.rd.francetelecom.fr/lemaire/publis/rnti_2011_camera_ready.pdf
[Gama:book2010] J. Gama, Knowledge discovery from data streams, University of Porto, Portugal
[Gama:NGDM2007] J. Gama, Issues and Challenges in Learning from Data Streams : Extended Abstract. NGDM, poster, 2007. http://www.cs.umbc.edu/~hillol/NGDM07/abstracts/poster/JGama.pdf
[Widmer-Kubat:ML1996] G. Widmer, M. Kubat, Learning in the Presence of Concept Drift and Hidden Concepts, Machine Learning, 23, 69-101, 1996.
[Maloof-Michalski:AIJ2004] M. A. Maloof, R. S. Michalski, Incremental Learning with partial instance memory, Artificial Intelligence, vol. 154, 95-126.
[Schlimmer-Granger:AAAI'86] J. C. Schlimmer, R. H. Granger, Beyond incremental processing: Tracking concept drift. Proceedings of AAAI'86, pp. 502-507
[Ferreretal:SAC2006] F. Ferrer-Troyano, J. S. Aguilar-Ruiz, J. C. Riquelme, Data Streams Classification by Incremental Rule Learning with Parameterized Generalization, Proceedings of SAC'06, pp. 657-661, 2006.

Nom : Moinard Yves
Equipe : DREAM
Mail : moinard@irisa.fr
Lien :
Contact : Yves Moinard moinard@irisa.fr 02 99 84 73 13
Louis Bonneau de Beaufort
louis.bonneau@agrocampus-ouest.fr 02 23 48 54 54

Titre : Modélisation qualitative d'un réseau d'influences entre variables décrivant un écosystème
Mots cles : cartes cognitives, ontologie, programmation logique, ensembles réponses

Description :

À partir de cartes cognitives, décrivant l’activité de pêche à la coquille Saint-Jacques, et d'une ontologie, nous souhaitons construire un réseau d’influence permettant d’évaluer les conséquences d'une modification éventuelle de l'environnement (la rade de Brest), des techniques de pêche, de la réglementation... Les cartes cognitives, issues de questionnaires de pêcheurs et de scientifiques, sont des graphes dont les noeuds sont des variables du domaine d'activité «quantité de coquille pêchée» par exemple) et les arcs des relations d'influence entre variables (parfois appelées «causalité floue»). L'ontologie modélise l'ensemble des termes utilisés dans les cartes cognitives et leurs inter-relations.
On propose d'utiliser la programmation par ensembles réponses (ASP, pour «Answer Set Programming»), qui est une évolution récente et très active de la programmation logique du genre Prolog. Le résultat est un ensemble de modèles de l'ensemble de propositions qui formalisent les données. Il s'agit d'une programmation dite «déclarative» constituée de règles proches d'une logique «naturelle». Les systèmes actuels permettent de traiter efficacement des domaines de plus en plus complexes. La proximité entre les «règles» qui composent un programme, et des règles naturelles comme celles représentées par les arcs ou les liens sématiques plaident en faveur de l'utilisation de ce type de programmation dans ce contexte. De plus, la programmation ASP est connue pour être efficace sur les parcours de graphes.

Le travail demandé consiste à extraire, à partir des données, de nouvelles relations issues des relations traduites par les cartes cognitives et de l'ontologie. Cette partie, qui traite de règles complexes (genre «règles causales» pour décrire les «influences» et «règles» issues de l'ontologie), nécessite un travail de formalisation non immédiat. Il convient en particulier de caractériser la notion de cohérence d'une carte, et aussi de groupements de cartes. Il faudra également se familiariser avec la programmation logique afin de traduire la formalisation choisie. La formalisation théorique, la description des algorithmes, et la programmation peuvent même interagir, grâce à la proximité entre règles formelles et règles de programmation logique.

Une connaissance préalable d'ASP n'est pas nécessaire, mais une connaissance d'un langage de programmation logique comme Prolog est un plus. Une familiarisation avec les ontologies n'est pas indispensable (même si elle ne peut pas nuire).

Bibliographie :

Lionel Chauvin, David Genest, Stéphane Loiseau, Ontological Cognitive Map, 20th IEEE Int. conference on Tools with Artificial Intelligence, 2008.
Bart Kosko, Fuzzy Cognitive Maps, Int. J. Man-Machines studies, 24, 65-75, 1986.
Laurent Mazuel, Traitement de l'hétérogénéité sémantique dans les interactions humain-agent et agent-agent, Thèse de doctorat UPMC, 2008.

Nicola Leone, Gerald Pfeifer, Wolfgang Faber, Thomas Eiter, Georg Gottlob, Simona Perri, and Francesco Scarcello. The DLV System for Knowledge Representation and Reasoning. ACM Transactions on Computational Logic (TOCL), 7(3):499--562, 2006.
Martin Gebser Roland Kaminski Benjamin Kaufmann Max Ostrowski Torsten Schaub Sven Thiele, A User’s Guide to gringo, clasp, clingo, and iclingo (version 3.x) October 4, 2010 — Preliminary Draft — (www.cs.utexas.edu/~vl/teaching/lbai/clingo\_guide.pdf)

Nom : Krupa Alexandre
Equipe : Lagadic et VR4I
Mail : Alexandre.Krupa@irisa.fr
Lien : http://www.irisa.fr/lagadic/documents/position/2012-stage-Lagadic-VR4I.pdf
Contact : Alexandre.Krupa@irisa.fr Maud.Marchal@irisa.fr

Titre : Guidage automatique d’une sonde échographique robotisée pour le maintien de la visibilité d’une aiguille de biopsie
Mots cles : Robotique médicale, imagerie échographique, asservissement visuel, vision par ordinateur

Description : Ce sujet de Master recherche s'inscrit dans les domaines de l'imagerie et de la robotique médicale. Le contexte applicatif que nous visons concerne l’insertion d’aiguille en radiologie interventionnelle. L'aiguille est un outil utilisé dans de très nombreux gestes médicaux tels que la biopsie, la ponction et l'ablation localisée de tumeur (cryo- ou thermo-ablation). De nombreux gestes sont effectués par le médecin sous imagerie échographique. Afin d’assister le médecin lors de son geste, nous proposons d’actionner la sonde échographique par un système robotique afin de maintenir automatiquement la visibilité de l’aiguille et de permettre ainsi au médecin de se concentrer principalement sur le geste d’insertion de l’aiguille. La première partie du stage portera sur l’étude et la mise en œuvre d’un algorithme de traitement d’image permettant de détecter en temps réel une aiguille rigide lors de son insertion manuelle dans un fantôme constitué d’une matière simulant des tissus mous. Les images considérées seront des volumes fournis par une sonde échographique 3D. Une étude bibliographique portant sur les différentes méthodes de segmentation d’aiguille en imagerie échographique devra être préalablement réalisée. La seconde partie de ce stage concernera le développement d’une commande par asservissement visuel permettant de guider automatiquement un robot manipulateur portant la sonde 3D. L’objectif de la tâche robotique est de déplacer la sonde de manière à maintenir automatiquement la visibilité de l’aiguille dans l’image échographique 3D lors de son insertion manuelle. Le travail consistera à proposer et modéliser des informations visuelles relatives à l’aiguille qui seront pertinentes à la réalisation de cette tâche. Afin de pouvoir mettre en œuvre l’asservissement visuel, il sera nécessaire de modéliser la variation des informations visuelles retenue en fonction du déplacement de la sonde. Ce modèle d’interaction permettra ensuite de mettre en œuvre sur notre système robotique expérimentale une commande référencée capteur permettant de réaliser la tâche. Les méthodes développées seront testées et validées sur un banc expérimental constitué d'une sonde échographique 3D embarquée sur un robot médical à 6 degrés de liberté équipé d'un capteur d'effort. Le fantôme utilisé pour l’insertion de l’aiguille lors des expérimentations sera également à confectionner lors du stage. Compétences requises: Des compétences en robotique et en vision par ordinateur sont fortement recommandées et des compétences en traitement d'image sont vivement conseillées. Il est également impératif de maîtriser la programmation en C et/ou C++.

Bibliographie : - F. Chaumette, S. Hutchinson - Visual Servo Control, Part I: Basic Approaches and Part II: Advanced Approaches. IEEE Robotics and Automation Magazine 13(4):82-90, Décembre 2006 and 14(1):109-118, Mars 2007. - R. Mebarki, A. Krupa, F. Chaumette. 2D ultrasound probe complete guidance by visual servoing using image moments. IEEE Trans. on Robotics, 26(2):296-306, Avril 2010. - C. Nadeau, A. Krupa. Intensity-based direct visual servoing of an ultrasound probe. In IEEE Int. Conf. on Robotics and Automation, ICRA'11, Pages 5677-5682, Shanghai, China, Mai 2011. - Three-dimensional ultrasound-guided robotic needle placement: an experimental evaluation. E. Boctor, M. Choti, E. Burdette, R. Webster. The Int. J. of Medical Robotics and Computer Assisted Surgery, 4(2) :180-191, 2008.

Nom : Gambs Sébastien
Equipe : CIDre
Mail : sgambs@irisa.fr
Lien :
Contact : Supervisors: Christophe Bidan, Sébastien Gambs, Nicolas Prigent.

Titre : Protection of privacy in mobile ubiquitous networks
Mots cles : Privacy, ubiquitous systems, geo-primitives, mobile social network

Description : Information-processing devices and objects, also known as ubiquitous systems, are increasingly common and well-integrated within everyday life. For instance, cell-phones, GPS-equipped vehicles and personal digital assistants (PDAs) have information processing capabilities and are widely present in our society. The resulting ubiquitous networks, sometimes called ambient intelligence or Internet of Things, offer potentially an unlimited range of applications for their users and for the society at large. For example, in the future it is possible to envision that the users of public transport system of a city will form a mobile social network through the connection with neighboring nodes as well as with the infrastructure. Examples of applications could be a service for two friends to discover automatically that they are in the same vicinity or another for helping two people to converge to a (dynamically chosen) point in order to meet “somewhere in the city centre”. However, due to the pervasive nature of these systems, this raises many important issues, such as how to protect the location privacy of users of such systems. Geo-primitives refer to the set of services used for data exchange between applications which are aware of their location and can explicitly use the geographical context in their operation. Geo-primitives require some basic components such as recognition of the location, routing and cryptographic functions (for instance generating distributing and managing cryptographic keys). Thus, privacy has also to be tackled at the level of these basic components in order to control the digital traces generated by their uses. For example, routing allows by construction to “track” the movements of a device if it always keeps the same identifier (IP or MAC address). During this master internship, the student will explore the problem of anonymous routing and key generation by taking explicitly geo-awareness into account. Moreover, techniques that can be used to verify the position claimed by the entities will also be investigated in order to guarantee the authenticity of the location information. For instance, it is possible to imagine geo-primitives that rely on the explicit use of the spatial context while at the same time preserve the privacy of entities by hiding their identity behind a pseudonym that is linked to a particular location (i.e. locanym). A part of this internship will consist in designing cryptographic geoprimitives (also called geo-cryptographic primitives) that enables authentication while relying on locanyms.

Bibliographie : [BS03] A. R. Beresford and F. Stajano, “Location privacy in pervasive computing”, IEEE Pervasive Computing 3(1): 46-55, 2003. [ET07] Karim El Defrawy, Gene Tsudik, "ALARM: Anonymous Location Aided Routing in Suspicious MANETS", the 2007 IEEE International Conference of Network Protocols (ICNP'07), October 16-19, Beijing, China. [GKN11] S. Gambs, M.O. Killijian and M. Nunez del Prado, Show me how you move and I will tell you who you are, Accepted for publication at Transactions on Data Privacy, 2011. [PH08] A. Pfitzmann and M. Hansen, “Anonymity, unlinkability, undetectability, unobservability, pseudonymity, and identity management a consolidated proposal for terminology”, Available at http://dud.inf.tu-dresden.de/Anon Terminology.shtml, February 2008 (version 0.31).

Titre : Fouille de grands graphes avec contraintes numériques
Mots cles : fouille de données, algorithmique, intelligence artificielle, graphes, paysages agricoles

Description : La modélisation et la simulation de paysages réalistes est devenu un domaine de recherche important dans les domaines de l'écologie ou de l'agronomie [1] pour comprendre et anticiper les relations entre les activités humaines, les structures des paysages et les problématiques environnementales. L'objectif de ces travaux est de fournir des outils qui vont permettre aux agronomes de générer des paysages « numériques » et « réalistes ».
Nous nous intéressons à des paysages « numériques », c'est-à-dire à des représentations numériques des paysages qui servent à réaliser des simulations numériques de processus agro-écologiques. Dans notre contexte, un « paysage » s'entend comme une mosaïque de parcelles en 2D, incluant la configuration (géométrie des parcelles, exploitations agricoles), la couverture du sol (prairie, blé, maïs,...).
L'objectif est de générer des paysages « réalistes ». La simulation permet de générer des paysages dont une partie des variables de contrôles sont fixées par le besoin des expérimentations de l'agronome. Quant aux autres variables de contrôle, les paysages générés doivent être réalistes par rapport aux paysages de référence (paysages réels). Le réalisme d'un paysage dépend donc des expérimentations qui sont à mener par les agronomes.

L'approche menée dans l'équipe DREAM consiste à représenter le paysage par un graphe de parcelles agricoles dans lequel les nœuds sont les parcelles agricoles et les arcs sont expriment des relations entre les parcelles (relations de proximité, d'adjacence, d'appartenance à une même exploitation, etc.). Les nœuds et les arcs sont de plus caractérisés par des informations quantitatives caractéristiques d'une parcelles (sa surface, son inclinaison, etc.) et des arcs (la distance entre parcelle, etc.).
Nous cherchons à caractériser l'organisation du paysage par l'existante de structures locales prégnantes. Pour cela, on cherche à extraire des sous-graphes récurrents dans le graphe du parcellaire total (graphe de 9000 parcelles).

L'objectif de ce stage sera d'explorer des algorithmes de fouille de grand graphes avec contraintes numériques pour extraire des graphes fréquents donc les caractéristiques quantitatives seront représentatives des occurrences de ce graphe.

En se basant sur un travail préliminaire réalisé dans l'équipe DREAM sur les méthodes de fouille de séquences avec intervalles. Le stagiaire aura pour objectif :

d'analyser les méthodes existantes et les problèmes rencontrés dans la fouille de grands graphes et dans la fouille de données de avec intervalles temporels,
de proposer un algorithme pour la fouille de grand graphe avec contraintes numériques,
d'analyser les propriétés des algorithmes proposés,
de développer et tester les algorithmes sur des données simulées et réelles (données de la Zone Atelier Armorique).

Le stage sera effectué à l'IRISA au sein de l'équipe DREAM (Diagnostic, Recommandation d'Action, Modélisation).

Bibliographie : [1] Vannier C., Delattre T., Le Féon V., Vasseur C., Boussard H., « Paysage et interdisciplinarité : regards croisés sur la zone atelier de Pleine-Fougères en Bretagne », Projets de paysages, 2009.
[2] T. Guyet, Fouille de données spatiales pour la caractérisation spatiale de paysages en lien avec des fonctionnalités agro-écologiques. Spatial Analysis and GEOmatics (SAGEO'10) : p. 3. 2010.
[3] T. Guyet et R. Quiniou, Mining temporal patterns with quantitative intervals, in 4th International Workshop on Mining Complex Data (ICDMW), 2008.
[4] T. Guyet et R. Quiniou, Extracting temporal patterns from interval-based sequences, International Joint Conference on Artificial Intelligence (IJCAI), 2011.
[5] Projet Payote

Nom : Fabre Eric
Equipe : DistribCom
Mail : fabre@irisa.fr, herve.marchand@irisa.fr
Lien :
Contact : Eric Fabre (equipe DistribCom) 02 99 84 73 26 Herve Marchand (equipe Vertecs) 02 99 84 75 09

Titre : Supervision de système réparti à horizon temporel borné
Mots cles : système distribué, algorithmique répartie, système à événements discrets, diagnostic, automates, théorie des langages

Description : Ce stage concerne la supervision des systèmes répartis, modélisables par des systèmes à événements discrets. Cela comprend des systèmes allant des architectures physiques modulaires (systèmes embarqués, "systems on chip"), aux programmes répartis, en passant par les processus de production ou encore les réseaux de télécommunications. On modélise ces systèmes comme de grands réseaux d'automates (éventuellement stochastiques), interagissant sur un mode pair à pair, ou de voisin à voisin. On ne souhaite pas déployer de superviseur centralisé (trop complexe), mais assurer la tâche de supervision par un programme lui-même réparti.

Le problème du diagnostic qui nous guidera consiste à retrouver les défaillances s’étant produites dans le système au vu des observation collectées à différents endroits de ce système réparti. C'est une version particulière du problème plus général d'estimation d’état : retrouver les états possibles du système au vu des observations qu'il a produites. Le sujet proposé vise à traiter ce problème pour un horizon glissant sur les observations : il s'agit d'estimer l’état du système au vu des N dernières observations reçues (et non pas toutes les observations). L'objectif étant de rendre robuste les méthodes existantes de supervision, en ne tenant plus compte d'observations trop anciennes.

Les recherches comporteront plusieurs phases:
- la construction d'un algorithme centralisé récursif d'estimation d'état à horizon borné. On fera le lien avec le filtrage à fenêtre mobile qui existe pour les processus markoviens (par exemple le filtrage de Kalman)
- la construction d'un observateur/diagnostiqueur a horizon borné ; l'étude des relations des observateurs d'horizon N et N+1, et de leur relation avec l'observateur a horizon infini (qui garde toutes les observations). L’étude des relations d'un observateur à horizon borné avec la notion de langage local d'un automate.
- l'étude de la notion de diagnosticabilité, dans ce contexte, c'est à dire la capacité ou non de détecter certaines pannes si l'on se limite a un horizon de N observations consécutives,
- l’étude de la version distribuée de cette approche, lorsque l'on souhaite ne garder qu'un nombre fini de mesures sur chaque composant d'un système réparti.

Bibliographie :
- "Diagnosability of discrete event systems", Sampath, Sengupta, Lafortune, Sinnamohideen, Teneketzis. IEEE Trans. on Automatic Control, 40 (9), sept. 1995.
- "An optimized algorithm for diagnosability of component bases systems", Ye, Dague. WODES 2010.
- DISC summer school on the monitoring of distributed discrete event systems. See the 2 lectures by Eric Fabre at http://www.disc-project.eu/PhD_School_Program.html

Nom : Salah Sadou
Equipe : ArchWare encollaboration avec Alkante SA.
Mail : Salah.Sadou@univ-ubs.fr
Lien :
Contact : Salah Sadou (Salah.Sadou@univ-ubs.fr, 02.97.01.71.76) Vincent Le Gloahec (v.legloahec@alkante.com, 02.99.22.25.70)

Titre : Déploiement automatisé de composants logiciels pour la mise à jour distante de produits
Mots cles :

Description : L'objectif de ce stage est l'élaboration d'un protocole de mise à jour distante de produits packagés sous la forme de composants logiciels. La mise en oeuvre de ce protocole doit reposer sur une gestion avancée des dépendances entre composants et la mise en place d'un dépôt des composants livrables. Certaines problématiques devront notamment être prises en compte lors de l'élaboration du protocole : sécurité des échanges, contrôle d'intégrité, authentification, gestion des droits, etc. Un des enjeux de ce projet sera d'identifier avec pertinence à quels niveaux de la solution devront être intégrés ces exigences. Il sera aussi demandé de mettre en oeuvre un système graphique de contrôle et de vérification des dépendances basé sur les concepts de l'Ingénierie Dirigée par les Modèles. Ce stage est proposé dans le cadre d'une collaboration entre l'équipe ArchWare (IRISA-UBS) et la société Alkante (Cesson Sévigné). Le stagiaire sera installé dans les locaux d'Alkante, mais aura des rencontres régulières avec

Bibliographie :

Nom : Fleurquin Régis
Equipe : ArchWare encollaboration avec Alkante SA.
Mail : Fleurquin.Regis@univ-ubs.fr
Lien :
Contact : Régis Fleuquin (Regis.Fleuquin@univ-ubs.fr, 02.97.01.72.97) et Vincent Le Gloahec (v.legloahec@alkante.com, 02.99.22.25.70)

Titre : Ingénierie des exigences dans les projets informatiques orientés Web
Mots cles : Ingénierie des exigences, Applications Web, modélisation, méta-modélisation.

Description : L'objectif de stage est de concevoir un système de gestion des exigences adapté aux projets informatiques de type Web. Dans ce contexte, il vous sera demandé de formaliser une méthode de gestion des exigences orientée Web, problématique de recherche encore non étudiée, et de concevoir un outil mettant en oeuvre la méthode proposée. Ces travaux serviront de support à la concrétisation d'une démarche qualité globale permettant le suivi et l'amélioration des différentes phases des projets informatiques (analyse, conception, développement, maintenance). Ainsi, les travaux proposés devront permettre de s'interfacer avec certains outils existants (outils de gestion de projets agiles, rédaction des plans de test, gestion des bugs).

Ce stage est proposé dans le cadre d'une collaboration entre l'équipe ArchWare (IRISA-UBS) et la société Alkante (Cesson Sévigné). Le stagiaire sera installé dans les locaux d'Alkante, mais aura des rencontres régulières avec les membres de l'équipe ArchWare.

Bibliographie :

Nom : Cachera David
Equipe : Celtique
Mail : david.cachera@irisa.fr
Lien : http://www.irisa.fr/celtique/
Contact : David Cachera

Titre : Vérification randomisée de certificats
Mots cles : sécurité logicielle, analyse statiques, algorithmes randomisés

Description : Les applications téléchargées depuis un site Internet posent des problèmes de sécurité, dans la mesure où rien ne garantit l'absence de virus, logiciels espions, etc., les antivirus existants ne fournissant de garanties que pour les attaques déjà connues. L'utilisation de techniques d'analyse statique permet de garantir l'absence de certains types d'erreurs ou d'attaques. Elles ont prouvé leur utilité dans la vérification de systèmes critiques (aviation par exemple), mais n'ont pas encore diffusé vers les applications grand public, à cause de la complexité de leur mise en oeuvre. La technique du code porteur de preuve (PCC) vise à produire des certificats qui, fournis avec le code, permettent de valider des propriétés de correction de ce code. La méthode opère en deux temps~: le producteur du code vérifie son programme, sans limitation de temps ou de ressources de calcul; le résultat de cette phase de vérification est une « certificat de bonne conduite » qui est transmis à l'utilisation avec le code. Ce certificat atteste du succès de la vérification, mais est plus rapide à vérifier que le processus de vérification initial.

La rapidité de vérification d'un certificat est cruciale pour que la technique soit adoptée dans une large mesure par les utilisateurs de logiciel. Le but est d'obtenir une vérification quasi linéaire en temps et en espace. Dans ce but, il est possible d'utiliser des techniques usuelles de manipulation symbolique, qui restent cependant difficiles à optimiser. L'approche proposée dans ce stage consiste à utiliser des techniques d'algorithmique randomisée pour vérifier la validité d'un certificat. Ceci doit permettre de réduire le temps de vérification du certificat, mais en revanche l'utilisateur n'obtiendra qu'un verdict probabiliste sur la sécurité du programme. Cependant, la marge d'erreur doit pouvoir être rendue aussi petite que possible en augmentant le temps de vérification. Avec une telle approche, on obtient une vérification graduelle du certificat, en comparaison des approches « tout ou rien » traditionnelles. Ceci mène à un scénario intéressant où l'utilisateur pressé d'utiliser un programme qu'il vient de télécharger peut se contenter d'une vérification rapide, en acceptant un certain risque d'erreur.

Le but de ce stage est d'explorer l'utilisation d'algorithmes randomisés pour vérifier le résultat d'une analyse statique. Les tests exhaustifs faits par le vérificateur de certificat sont alors remplacés par des tests aléatoires. Outre le développement de l'algorithme sur un exemple approprié d'analyse, il faudra produire une analyse mathématique précise d'évolution de la marge d'erreur en fonction du nombre de tests. Le stage sera l'occasion d'une étude bibliographique approfondie de l'algorithmique randomisée, et d'une initiation à l'analyse statique.

Bibliographie : [1] Gilles Barthe, Pierre Crégut, Benjamin Grégoire, Thomas Jensen, and David Pichardie. The MOBIUS Proof Carrying Code infrastructure. In Proc. of the 6th International Symposium on Formal Methods for Components and Objects (FMCO'07), Lecture Notes in Computer Science. Springer-Verlag, 2007.

[2] Sumit Gulwani. - Program Analysis using Random Interpretation. Phd Dissertation, UC-Berkeley, 2005.

[3] Rajeev Motwani and Prabhakar Raghavan. - Randomized Algorithms. Cambridge University Press, 1995.

Nom : Frey Davide
Equipe : ASAP
Mail : davide.frey@inria.fr
Lien : http://www.irisa.fr/asap/?page_id=246
Contact : Davide Frey: davide.frey@inria.fr

Titre : Asymmetric Trust in Implicit Social Networks
Mots cles : social networks, distributed systems, epidemic protocols, trust

Description : The pervasiveness of the Internet has lead research and applications to focus more and more on their users. Online social networks such as Facebook provide users with the ability to maintain an unprecedented number of social connections. Recommendation systems exploit the opinions of other users to suggest movies or products based on our similarity with them. This shift from machines to users motivates the emergence of novel applications and research challenges. This internship seeks to embrace the social aspects of the Web 2.0 from a novel perspective. Consider the problem of buying something (e.g. an e-ticket for a concert) on the Internet from someone you do not know. One obvious way is to rely on a trusted third party that ensure the correctness of the transaction, but say this trusted third party is not available. What you are left with is the risk of paying for a ticket you will never receive. Social Market [1] seeks to address this and similar problems by combining interest-based implicit social networks [2] with explicit networks like Facebook. This makes it possible to find someone that not only sells a concert ticket, but that is also reachable through a chain of interconnected friends. The current version of social market [1] assumes that users joining a social network agree on a mutual level of trust. That is, if A trusts B then B also trusts A to the same extent. With this internship, we plan to remove this limitation and consider scenarios in which trust values can be asymmetric. This requires techniques to keep trust values sufficiently private. For example you would not want to disclose to some of your colleagues that you do not trust them a lot. The work will lead to the version of social market that will be evaluated by means of simulation.

Bibliographie : [1] Davide Frey, Arnaud Jégou, and Anne-Marie Kermarrec - Social Market: Combining Explicit and Implicit Social Networks - to appear in SSS 2011, Grenoble October 2011 [2] Bertier Marin; Frey Davide; Guerraoui Rachid; Kermarrec Anne-Marie; Leroy Vincent. The Gossple Anonymous Social Network. ACM/IFIP/USENIX 11th International Middleware Conference, Nov 2010, Bangalore, India.

Nom : Hiet Guillaume
Equipe : CIDre (en collaboration avec l'équipe CELTIQUE)
Mail : guillaume.hiet@supelec.fr
Lien :
Contact : Guillaume Hiet (CIDre, Supélec) Sandrine Blazy (CELTIQUE, IRISA)

Titre : Analyse statique pour le contrôle hybride des flux d'information dans les programmes Java.
Mots cles : Analyse statique, sécurité informatique, contrôle de flux d'information, détection d'intrusion

Description :

Une des approche utilisée dans le domaine de la détection d'intrusions consiste à contrôler dynamiquement les flux d'information qui résultent de l'exécution des programmes sur le système surveillé. Les travaux successifs réalisés au sein de l'équipe CIDre ont conduit à la proposition de différentes approches pour réaliser ce contrôle. Ces approches ont elles-mêmes donné lieu au développement de différents prototypes.

Ainsi, Blare [8, 7, 3], une version modifiée du noyau Linux, permet le suivi dynamique, au niveau OS, des flux d'information. Cette approche permet facilement de suivre l'ensemble des flux d'information d'un système tout en limitant le surcoût à l'exécution. Toutefois, il s'agit d'une approche "gros grain" qui ne permet pas de suivre finement les flux d'information générés par un programme donné (le comportement de chaque application est fortement sur-approximé).

Cette limitation nous a conduit à proposer une deuxième approche où le contrôle dynamique des flux d'information est réalisé au niveau de la machine virtuelle Java (JVM) [2, 4, 3]. Cette deuxième approche permet certes un suivi plus précis (au niveau de chaque variable du programme) des flux d'information mais elle présente les limitations suivantes :

l'approche purement dynamique du contrôle ne permet pas de suivre correctement les flux d'information indirects résultant des branchements conditionnels;
la précision du suivi se fait au détriment d'une dégradation importante des performances à l'exécution des programmes surveillés.

Ces limitations justifient le recours à des approches hybrides qui réalisent un contrôle des flux d'information en deux temps :

une analyse statique du bytecode de chaque méthode du programme surveillé est réalisée hors-ligne ou lors du chargement;
le contrôle des flux d'information à proprement parler est réalisé dynamiquement en s'appuyant sur les résultats de l'analyse statique.

Dans cette approche, la pré-analyse statique permet d'une part de prendre en compte les flux indirects et d'autre part de limiter les opérations réalisées dynamiquement pour le suivi et le contrôle des flux d'information, ce qui permet donc de limiter le surcoût à l'exécution.

Lors de son stage de Master 2 réalisé en 2011 dans l'équipe CIDre, Mounir Assaf a proposé une telle approche. Plus précisément, il a proposé une analyse statique qui permet de déterminer, en différents points d'une méthode Java, des dépendances entres variables. L'ensemble de ces dépendances constitue le "profil" d'une application Java qui est stocké dans le bytecode de l'application sous la forme d'annotations Java. Mounir Assaf a également modifié une JVM afin qu'elle puisse réaliser un contrôle purement dynamique des flux d'information ou un contrôle hybride en s'appuyant sur les profils calculés au préalable. Ce prototype, H-JBlare, permet donc de comparer les deux approches.

Les résultats obtenus sont encourageants et montrent l'intérêt d'une telle approche, notamment en ce qui concerne la diminution du surcoût à l'exécution. Toutefois, l'analyse statique mise en œuvre dans H-JBlare reste rudimentaire et aucune preuve de correction du contrôle de flux n'a été établie. L'objectif du stage proposé pour l'année 2011/2012 consiste à poursuivre ces travaux en améliorant l'analyse statique.

Par ailleurs, l'équipe CELTIQUE s'intéresse à la certification des programmes, afin d'assurer notamment la sécurité. Elle a proposé différentes approches d'analyse statique pour différents langages et propriétés. Elle s'est notamment intéressé à l'analyse statique de bytecode Java et elle a développé Sawja [5], une bibliothèque OCaml permettant d'implémenter des analyses statiques de bytecode Java. Contrairement aux autres outils existants, il a été prouvé, pour cette bibliothèque, que la transformation vers un langage intermédiaire, sur lequel porte l'analyse, préserve la sémantique originale de la méthode analysée. L'utilisation de cette bibliothèque permettrait donc à terme d'initier la preuve de la correction du contrôle des flux d'information dans H-JBlare.

Le stage consistera dans un premier temps à porter l'analyse statique mise en oeuvre dans H-JBlare en utilisant Sawja. Dans un second temps, il s'agira d'améliorer cette analyse statique afin de limiter le nombre de points de contrôle et ainsi diminuer la dégradation des performances à l'exécution. L'étudiant devra implémenter et valider expérimentalement l'approche proposée : mesure de l'impact sur les performances, vérification d'une politique sur des cas simples puis sur des applications réalistes (Eclipse, Jetty, Tomcat, etc.).

Le stage sera principalement réalisé à Supélec au sein de l'équipe CIDre. Ponctuellement, l'étudiant pourra être amené à travailler dans les locaux de l'INRIA au sein de l'équipe CELTIQUE.

Bibliographie :

[1]	Deepak Chandra and Michael Franz, Fine-grained information flow analysis and enforcement in a java virtual machine, ACSAC, 2007, pp. 463–475.
[2]	G. Hiet, L. Mé, B. Morin, and V. Viet Triem Tong, Monitoring both os and program level information flows to detect intrusions against network servers, IEEE Workshop on ”Monitoring, Attack Detection and Mitigation”, 2007.
[3]	Guillaume Hiet, Détection d’intrusions paramétrée par la politique de sécurité grâce au contrôle collaboratif des flux d’informations au sein du système d’exploitation et des applications : mise en œuvre sous Linux pour les programmes java, Ph.D. thesis, Supélec, 2008.
[4]	Guillaume Hiet, Valerie Viet Triem Tong, Ludovic Mé, and Benjamin Morin, Policy-based intrusion detection in web applications by monitoring java information flows, Int. J. Inf. Comput. Secur. 3 (2009), no. 3/4, 265–279.
[5]	Laurent Hubert, Nicolas Barré, Frédéric Besson, Delphine Demange, Thomas Jensen, Vincent Monfort, David Pichardie, and Tiphaine Turpin, Sawja : Static Analysis Workshop for Java, The International Conference on Formal Verification of Object-Oriented Software, Lecture Notes in Computer Science, vol. 2010.13, Springer-Verlag, 2010, pp. 253–267.
[6]	Srijith K. Nair, Patrick N. D. Simpson, Bruno Crispo, and Andrew S. Tanenbaum, A virtual machine based information flow control system for policy enforcement, First InternationalWorkshop on Run Time Enforcement for Mobile and Distributed Systems (REM 2007) (Dresden, Germany), 2007, pp. 1–11.
[7]	Jacob Zimmermann, Détection d’intrusions paramétrée par la politique par contrôle de flux de références, Ph.D. thesis, Université de Rennes 1, 2003.
[8]	Jacob Zimmermann, Ludovic Mé, and Christophe Bidan, An improved reference flow control model for policy-based intrusion detection, Proceedings of the 8th European Symposium on Research in Computer Security (ESORICS), October 2003.

Nom : Kijak Ewa
Equipe : TEXMEX - IRISA
Mail : ekijak@irisa.fr
Lien : http://www.irisa.fr/texmex/
Contact : Ewa Kijak (ekijak@irisa.fr) Sebastien Lefevre (Sebastien.Lefevre@univ-ubs.fr)

Titre : Indexation d'images par arbres des coupes
Mots cles : indexation images, descripteurs, arbres des coupes

Description : Les arbres des coupes permettent de représenter une image numérique par les régions dont elle est composée à différentes échelles, à l'aide d'une structure arborescente. Leurs propriétés d’invariance (à la translation et à la rotation) et de robustesse au bruit [1] ont motivé quelques travaux récents en indexation d'image [2, 3, 4], mais leur usage dans ce domaine reste limité. L’objectif de ce stage est d'approfondir ces travaux et d’étudier l’utilisation des arbres des coupes pour l'indexation et la recherche d’image par le contenu. Plusieurs pistes sont envisagées pour exploiter les arbres des coupes en indexation d'image. La plus directe consisterait à considérer l'arbre des coupes d'une image comme un descripteur global de celle-ci, puisque l'arbre est une représentation de l'image. Le problème réside alors en la comparaison entre descripteurs globaux, ou ici entre des arbres. Il s’agira d’étudier l’efficacité de la comparaison de structures arborescentes, et l’éventuelle transformation de ces structures en vecteurs qui sont les représentations usuelles du domaine. Il est également possible d'exploiter les arbres de coupes dans un contexte d'indexation par descripteurs locaux, que ce soit pour la détection des régions support ou pour leur description. Ainsi, chaque branche d'un arbre des coupes représente une région de l'image, décrite à différentes échelles en chaque noeud d’une même branche. Autrement dit, l'arbre peut être utilisé pour extraire des régions support à différentes échelles. On cherchera donc à élaborer des détecteurs de régions d’intérêts en tirant parti de ces représentations arborescentes. Par ailleurs, chaque région d’un arbre peut être décrite par des descripteurs (depuis une simple luminance jusqu’à des descripteurs plus complexes et plus adaptés à la recherche d’image qui impacteront sans doute la représentation obtenue). L’arbre peut alors être utilisé à la fois comme détecteur et descripteur de régions. Son exploitation est d’autant plus intéressante que sa représentation est intrinsèquement scalable : une région est décrite par ses propres descripteurs mais aussi par celle de ses fils. Ce sujet fait l'objet d'une collaboration entre les équipes SEASIDE et TEXMEX de l'IRISA, qui apportent leurs compétences respectivement en analyse d'image par morphologie mathématique (dont sont issus les arbres des coupes) et en indexation multimédia, en particulier des images. Les expérimentations en recherche d’images utiliseront la plate-forme d’indexation multimédia de l’équipe TEXMEX de l’IRISA. Cette plateforme opérationnelle contient de nombreuses bases de données d’images (de l’ordre de plusieurs millions d’images) et les algorithmes de recherche permettant de réaliser des évaluations en recherche d’images (mêmes scènes, mêmes objets) ou en détection de copies.

Bibliographie : [1] B. Perret, Caractérisation multibande de galaxies par hiérarchie de modèles et arbres de composantes connexes, Thèse de l'Université de Strasbourg, novembre 2010. [2] N. Alajlan, M. Kamel, G. Freeman, Geometry-Based Image Retrieval in Binary Image Databases, IEEE Transactions on Pattern Analysis and Machine Intelligence, 30(6):1003-1013, juin 2008. [3] E. Urbach, J. Roerdink, M. Wilkinson, Connected Shape-Size Pattern Spectra for Rotation and Scale-Invariant Classification of Gray-Scale Images, IEEE Transactions on Pattern Analysis and Machine Intelligence, 29(2):272-285, février 2007. [4] V. Vilaplana, F. Marques, P. Salembier, Binary Partition Trees for Object Detection, IEEE Transactions on Image Processing, 17(11):2201-2216, novembre 2008.

Nom : Gabriel Antoniu
Equipe : KerData
Mail : gabriel.antoniu@inria.fr
Lien : http://www.irisa.fr/kerdata
Contact : Matthieu Dorier: matthieu.dorier@irisa.fr, Gabriel Antoniu: gabriel.antoniu@inria.fr

Titre : Evaluating the impact of dedicated I/O cores on post-petascale high-performance simulations
Mots cles : high-performance computing, supercomputers, data management

Description :

A major research topic in the context of HPC simulations running on Post-Petascale supercomputers is to explore how to efficiently record and visualize data during the simulation without impacting the performance of the corresponding computation generating that data, that is to say by improving I/O efficiency without introducing any additional jitter. Conventional practice of storing data on disk, moving it off-site, reading it into a workﬂow, and analyzing it to produce scientific solutions becomes increasingly harder to the use due to large data volumes generated at fast rates compared to limited backend speeds. Scalable approaches to deal with these I/O limitations are thus of utmost importance.

In this context, the KerData joint team of INRIA Rennes - Bretagne Atlantique and ENS Cachan - Bretagne started to explore ways to remove the limitations mentioned above through a collaborative work in the framework of the Joint INRIA-UIUC Lab for Petascale Computing (Urbana-Champaign, USA). Our preliminary investigations on the I/O behavior of a sample application (the CM1 atmospheric model) showed the inefficiency of current I/O approaches, which either consists in writing large amounts of small files periodically, or writing a set of shared files using collective I/O. These approaches produce burst of I/O in the parallel file system, leading to poor performance and extreme variability compared to what could be expected from the underlying hardware. We then proposed a new approach called Damaris (Dedicated Adaptable Middleware for Application Resources Inline Steering), which leverages one dedicated core in each multicore SMP node to perform I/O and data post-processing asynchronously. By keeping data longer in main memory, Damaris is able to make an efficient use of the underlying file system by avoiding synchronization and contention as much as possible.

Since Damaris uses shared memory to communicate from cores running the simulation to cores running the data management service, it might perturb the simulation by introducing a jitter on local memory accesses. The goal of this internship would be to measure the impact of Damaris on the running simulations with respect to this jitter, to point out design issues that led to this jitter and to propose new interaction models for Damaris to reduce this impact. This work is related to the Blue Waters supercomputer project will be realized in collaboration with the National Center for Supercomputing Applications within framework of the Joint INRIA-University of Illinois Laboratory for Petascale Computing.

Bibliographie : [1] The Blue Waters Project - http://www.ncsa.illinois.edu/BlueWaters/

[2] The Damaris Project - http://damaris.gforge.inria.fr

Nom : Antoniu Gabriel
Equipe : KerData
Mail : gabriel.antoniu@inria.fr
Lien : http://www.irisa.fr/kerdata/
Contact : Louis-Claude Canon : louis-claude.canon@inria.fr, Alexandru Costan : Alexandru.Costan@inria.fr, Gabriel Antoniu : Gabriel.Antoniu@inria.fr

Titre : Optimisation du placement des données pour les applications MapReduce
Mots cles : Placement de données, MapReduce, systèmes distribués

Description :

Le stage se déroulera dans le contexte des applications accédant intensivement des données (recherche textuelle dans des documents, simulation scientifique) [1]. Les accès disques et les transferts de données constituent des goulots d'étranglement qui deviennent critiques pour l'exploitation efficace des plateformes de calcul à large échelle. En effet, la croissance des capacités disque et réseau en terme de vitesse est moindre que celle des moyens de calcul tandis que la quantité de données à traiter croit exponentiellement.

Pour répondre à ces besoins de traitement, la plateforme MapReduce a été proposée par Google. L'architecture a ensuite été reprise dans le projet libre Hadoop [2]. Les applications s'appuyant sur MapReduce se décomposent en un ensemble de tâches accédant chacune à des données. Les résultats sont ensuite regroupés par une opération de réduction. Considérer des applications MapReduce fournit un cadre restreint qui permet de délimiter un problème plus spécifique tout en étant général en terme d'applications.

L'architecture MapReduce repose sur un système de fichiers optimisé (GFS pour l'implémentation de Google et HDFS [3] pour Hadoop). Les tâches sont placées au plus près des données afin de limiter les temps de communication. Cependant, les algorithmes utilisés sont peu élaborés et ne prennent pas en compte les caractéristiques de la plateforme matérielle.

L'équipe KerData développe un outil, BlobSeer [4], gérant efficacement des données. Il se base sur plusieurs principes tels que la segmentation et le versionnage des données, une gestion distribuée des métadonnées, etc. Malgré des performances avantageuses par rapport à HDFS, sa stratégie de placement se limite à distribuer les données de façon uniforme et à les répliquer dans une logique de fiabilité.

Il existe donc une opportunité pour gérer plus finement les données et accélérer les temps de traitement. Il semble par exemple intuitif de regrouper les données qui sont peu accédées sur quelques machines pour laisser davantage de bande-passante à celles fréquemment utilisées. De plus, adapter le taux de réplication des données en fonction de leur usage et des capacités de la plateforme soulève un problème algorithmique non-trivial. Le placement des données dans les infrastructures de calcul fait d'ailleurs l'objet d'études récentes [5,6].

L'objectif du stage sera de mettre au point une solution plaçant efficacement les utilisées par une application MapReduce. Plusieurs étapes sont envisagées : modélisation et formulation mathématique du problème ; conception d'algorithmes de placement de données ; implémentation de ces stratégies au sein de BlobSeer ; validation expérimentale par le biais d'applications MapReduce.

En fonction des résultats obtenus, ce stage pourra être suivi par une thèse.

Bibliographie :

[1] "Data-Intensive Technologies for Cloud Computing," A.M. Middleton. Handbook of Cloud Computing. Springer, 2010.

[2] "The hadoop distributed file system: Architecture and design", D. Borthakur, Hadoop Project Website, 2007.

[3] "HDFS architecture", D. Borthakur, Hadoop 0.19 Documentation, 2008.

[4] "Blobseer: Next generation data management for large scale infrastructures", Bogdan Nicolae, Gabriel Antoniu, Luc Bougé, Diana Moise, Alexandra Carpen-Amarie, Journal of Parallel and Distributed Computing 71:2, 2011.

[5] "A data placement strategy in scientific cloud workflows", D. Yuan, Y. Yang, X. Liu, J. Chen, Future Generation Computer Systems, 2010.

[6] "Job Scheduling for Multi-User MapReduce Clusters", M. Zaharia, D. Borthakur, J. S. Sarma, K. Elmeleegy, S. Shenker, I. Stoica, Technical Report, 2009.

Nom : Antoniu Gabriel
Equipe : KerData
Mail : gabriel.antoniu@inria.fr
Lien : http://www.irisa.fr/kerdata/
Contact : Alexandru Costan: Alexandru.Costan@inria.fr, Louis-Claude Canon: Louis-Claude.Canon@inria.fr, Gabriel Antoniu: Gabriel.Antoniu@inria.fr

Titre : Optimizing the deployment of a data management system based on performance modeling
Mots cles : distributed systems, performance modeling, storage management, cloud computing

Description :

Managing data at a large scale has become a critical requirement in a wide spectrum of research domains. BlobSeer [1] is a service developed by the KerData team at INRIA Rennes - Bretagne Atlantique with this goal, able to share massive data at very large scale under high concurrency. A first step towards BlobSeer’s performance improvement and resource-usage optimization consisted in enabling its autonomic behavior based on introspection [2].

However, self-adaptation incurs a high degree of complexity in the conﬁguration and tuning of the system, with possible repercussions on its availability and reliability. We therefore plan to complement this approach by a comprehensive performance model of BlobSeer. Its role is to capture how the system’s components interact for different operations (read / write) and to identify the relevant parameters to adjust, costs incurred or the maximum workload thresholds.

This performance model should be further used as a starting point for an offline analysis of several traces of BlobSeer, when used as a backend for different applications (e.g. MapReduce based). Mining this information in an automated fashion, we aim to detect the different trade-offs that influence a BlobSeer deployment: time required to execute the application vs. deployment costs, time required on different configurations vs. workload per machine per configuration.

Bibliographie :

[1] Bogdan Nicolae, Gabriel Antoniu, Luc Bouge, Diana Moise, and Alexandra Carpen-Amarie. 2011. BlobSeer: Next-generation data management for large scale infrastructures. J. Parallel Distrib. Comput. 71, 2 (February 2011), 169-184.

[2] Alexandra Carpen-Amarie, Jing Cai, Alexandru Costan, Gabriel Antoniu, and Luc Bouge. 2010. Bringing Introspection Into the BlobSeer Data-Management System Using the MonALISA Distributed Monitoring Framework. In Proceedings of the 2010 International Conference on Complex, Intelligent and Software Intensive Systems (CISIS '10)

Nom : Besson Frédéric
Equipe : Celtique
Mail : frederic.besson@inria.fr
Lien :
Contact : Sandrine Blazy sandrine.blazy@irisa.fr Frédéric Besson frederic.besson@inria.fr

Titre : Retro-engineering de malware par analyse statique
Mots cles : binaire, analyse de programme

Description : La sécurité des systèmes informatiques est un défi pour le monde numérique. Cette sécurité est mise à mal par des codes malveillants (malware) de plus en plus sophistiqués comme le récent et fameux Stuxnet. Une fois détecté, l'éradication d'un malware requiert une compréhension précise de son modus operandi. C'est une tâche complexe et très largement manuelle qui requiert un haut niveau d'expertise. Cette tâche est d'autant plus ardue que les malware mettent en oeuvre des contre-mesures pour compliquer leur analyse: absence de code source, obfuscation, cryptage, code automodifiant, ...

L'analyse statique de programme par interprétation abstraite [1] est une méthodologie pour prouver automatiquement des propriétés de sûreté et de sécurité des programmes. Il s'agit d'une méthode formelle qui établit une théorème de correction vis-à-vis de la sémantique des programmes. Cette méthodologie est utilisée avec succès pour construire des modèles abstraits de programmes sources.

L'analyse de code binaire comporte des difficultés supplémentaires [2]. Les buts de ce stage sont d'identifier les défis supplémentaires pour l'analyse de malware et de proposer une analyse statique pour du code binaire qui soit adaptée aux caractéristiques spécifiques des malware. Pour la partie pratique de ce stage, on étendra la plateforme BAP [3] qui est une bibliothèque OCaml pour l'analyse de code binaire.

Bibliographie : [ 1 ] P. Cousot, R. Cousot Abstract interpretation: a unified lattice model for static analysis of programs by construction or approximation of fixpoints. In Popl'77. ACM Press
[ 2 ] G. Balakrishnan, T. W. Reps WYSINWYX: What you see is not what you eXecute, ACM Trans. Program. Lang. Syst.
[ 3 ] David Brumley, Ivan Jager, Thanassis Avgerinos, and Edward J. Schwartz BAP: A Binary Analysis Platform, In CAV 2011

Nom : Frey Davide
Equipe : ASAP
Mail : davide.frey@inria.fr
Lien :
Contact : Davide Frey: davide.frey@inria.fr Anne-Marie Kermarrec: anne-marie.kermarrec@inria.fr

Titre : Network Aware Epidemic Protocols
Mots cles : gossip, epidemic protocol, tcp friendly, video streaming

Description : Network aware epidemics Protocols based on the gossip paradigm, also known as epidemic dissemination achieve information dissemination through random exchanges that mimic real-world processes like rumor mongering or the dissemination of a disease in a population. Initially introduced as a solution for maintainining replicated database systems, gossip protocols have been proposed to solve important problems in distributed systems such as broadcast, peer-to-peer membership maintenance, video streaming, and aggregation in large scale networks. Despite the success of gossip, very little work has applied it in the context of real applications and a number of questions remain open regarding the interaction of gossip with lower level of the IP stack. Epidemic dissemination relies on random communication with a continuously changing set of partners in a P2P environment in a periodic fashion. This however, causes gossip to clash with the way the TCP/IP stack is designed. Periodic communication leads to a discontinous usage of bandwidth resources causing congestion in routers and packet loss. Similarly, the diversity of communication partners discourages the use of connection-oriented protocols such as TCP, resulting in unfair contention with TCP traffic. The goal of this intership is to investigate the interaction of gossip protocols with the underlying TCP stack and to identify the best tradeoffs for their effective implementation. When should gossip exchanges use TCP as opposed to UDP? Can UDP-based gossip communication be made TCP friendly? The internship will involve significant experimental work on the Grid5000 and PlanetLab testbeds, in the context of applications such as gossip-based video streaming [2,3,4].

Bibliographie : [1] Frey Davide; Guerraoui Rachid; Kermarrec Anne-Marie; Monod Maxime. Boosting Gossip for Live Streaming. P2P 2010, Aug 2010, Delft, Netherlands. . [2] Frey Davide; Guerraoui Rachid; Kermarrec Anne-Marie; Monod Maxime ; Boris Koldehofe; Martin Mogensen; Quéma Vivien. Heterogeneous Gossip. Middleware 2009, Dec 2009, Urbana-Champaign, IL, United States. . [3] Frey Davide; Guerraoui Rachid; Kermarrec Anne-Marie; Monod Maxime ; Quéma Vivien. Stretching Gossip with Live Streaming. DSN 2009, Jun 2009, Estoril, Portugal.

Nom : Masson Véronique
Equipe : Dream
Mail : Veronique.Masson@irisa.fr
Lien :
Contact : Véronique Masson, Irisa-bureau A122
Veronique.Masson@irisa.fr

Titre : Analyse d'un espace de simulations d'un modèle agronomique pour un apprentissage interactif
Mots cles : Apprentissage non supervisé, Simulations d'un modèle, Apprentissage Interactif

Description :
Dans de nombreux domaines scientifiques, des modèles sont construits pour représenter les connaissances sur un phénomène. Ces modèles sont ensuite utilisés pour valider la pertinence des connaissances ou prédire le comportement du phénomène modélisé. La version informatisée de ces modèles permet de simuler des scénarios, ou situations particulières, et d'obtenir des résultats qu'il faut analyser. Les systèmes modélisés sont souvent complexes, et l'espace des simulations est important. Face au volume des résultats de simulation, il est important de se doter d'outils permettant de les analyser, de les visualiser, de repérer des éléments intéressants.

L'équipe DREAM travaille en liaison avec l'INRA (Institut National de Recherche en Agronomie) sur des modèles agronomiques dans le domaine du transfert de polluants dans les bassins versants. Le but est d'inclure ces modèles dans des outils d'aide à la décision afin d'améliorer la qualité des eaux en Bretagne. Nous nous intéressons ici en particulier aux modèles, développés dans le cadre du projet Sacadeau, qui décrivent le transfert de pesticides, de leur application sur les parcelles agricoles jusqu'à la rivière. De nombreuses simulations sont ainsi obtenues établissant des relations entre entrées (climatiques, de configuration spatiale, d'application de pesticides, etc) et sorties (quantités de pesticides à différents endroits) des modèles.

Le travail demandé vise à définir des méthodes pour explorer l'espace des simulations de Sacadeau de manière efficace afin que l'analyse de cet espace permette, à plus long terme, un apprentissage interactif.
Il s'agit d'utiliser des méthodes d'apprentissage non supervisé comme le clustering pour pouvoir détecter le caractère remarquable d'une simulation, au sens de sa représentativité d'un ensemble de simulations, ou bien le caractère inattendu ou surprenant d'une autre simulation, etc. Il faudra définir des critères de distance entre simulations, tenant compte de leur structure propre, entrées, paramètres, sorties, afin de pouvoir les visualiser selon ces critères, les regrouper en clusters, etc. L'objectif à plus long terme de ce travail est d'analyser la qualité des simulations par rapport à une question posée sur le comportement du système agricole et de pouvoir en déduire le choix des entrées de simulations à effectuer pour répondre à cette question.
Ce travail de caractérisation de l'ensemble des simulations pourrait être une première étape d'un travail de thèse sur l'apprentissage inter-actif visant à enrichir l'espace des simulations en fonction d'une requête de l'utilisateur.

Le stagiaire s'appuiera sur l'outil de simulation Sacadeau qui est opérationnel. Des compétences en analyse de données et fouille de données seront appréciées et correspondent en particulier au parcours P4 (« Des données aux connaissances : apprentissage, modélisation et indexation des contenus multimédias et des données symboliques ») du Master 2 Recherche en Informatique de l'Université de Rennes 1.

Bibliographie : Al-Hegami A., Subjective measures and their role in data mining process, Proceedings of the International Conference on Cognitive Systems (ICCS), 2004.
Chantal Gascuel-Odoux, Pierre Aurousseau, Marie-Odile Cordier, Patrick Durand, Frederick Garcia, Véronique Masson, Jordy Salmon-Monviola, Florent Tortrat, Ronan Trépos. A decision-oriented model to evaluate the effect of land use and agricultural management on herbicide contamination in stream water. Environmental Modelling and Software, Volume 24, Issue 12, December 2009, Pages 1433-1446 (http://www.sciencedirect.com)
Chertov, O., Komarov, A., Mikhailov, A., Andrienko, G., Andrienko, N., and Gatalsky, P. 2005. Geovisualization of forest simulation modelling results: A case study of carbon sequestration and biodiversity. Comput. Electron. Agric. 49, 1 (Oct. 2005), 175-191 (http://geoanalytics.net/and/papers/compag05.pdf)
Lenca P., Meyer P., Vaillant B., Lallich S. « On selecting interestingness measures for association rules: User oriented description and multiple criteria decision aid », European Journal of Operational Research, vol 184, p 610-626, 2008

Nom : KERMARREC Anne-Marie
Equipe : ASAP
Mail : Anne-Marie.Kermarrec@inria.fr
Lien : http://www.irisa.fr/asap/
Contact : Davide.Frey@inria.fr Anne-Marie.Kermarrec@inria.fr

Titre : P2P News recommender: leveraging content
Mots cles : P2P, social networks, dissemination, epidemic protocols, privacy

Description : The Web has turned into an active social platform where users share and annotate content be it video, audio files, pictures, etc. This creates huge opportunities to enhance the user search and navigation experience. Typically, information dissemination has a huge impact in navigation for users are widely influenced by the notification they receive (typically, experiments have shown that navigation in Youtube is dominated by the the most relaled video feature). In the Gossple project of the ASAP group, we are working on WhatsUp, a P2P instant news items recommender. WhatsUp is an instant news system aimed for a large scale network with no central bottleneck, single point of failure or censorship authority. Users express their opinions about the news items they receive by operating a like-dislike button. WhatsUp’s collaborative filtering scheme leverages these opinions to dynamically maintain an implicit social network and ensures that users subsequently receive news that are likely to match their interests. Users with similar tastes are clustered using a similarity metric reflecting long-standing and emerging (dis)interests. News items are disseminated through a heterogeneous epidemic protocol that (a) biases the choice of the targets towards those with similar interests and (b) amplifies the dissemination based on the interest of every actual news item. The push and asymmetric nature of the network created by WhatsUp provides a natural support to limit privacy breaches. The evaluation of through large-scale simulations, a ModelNet emulation on a cluster and a PlanetLab deployment on real traces collected both from Digg as well as from a real survey, show that WhatsUp consistently outperforms ecentralized adlternatives in terms of accurate and complete delivery of relevant news. Yet, in the current version of WhatsUp, we do not look at the content of the news items which are disseminated. The purpose of this internship is to assess the benefit of looking at the content during the dissemination process. Typically, for example, considering different targets depending on the fact that the news item disseminated is about politics or sports. In this work, the objective is to investigate the use of the content information (such as tags). This comprises (1) investigate the introduction of such a mechanism in WhatsUp (2) design content-aware disseminating algorithms and (3) evaluate the proposed algorithms through simulations and deployment (4) consider the impact on privacy.

Bibliographie : [1] Mark Jelasity, Spyros Voulgaris, Rachid Guerraoui, Anne-Marie Kermarrec & Maarten van Steen Gossip-Based Peer Sampling. ACM Transactions on Computer Systems, August 2007 25(3). [2] Bertier Marin; Frey Davide; Guerraoui Rachid; Kermarrec Anne-Marie; Leroy Vincent. The Gossple Anonymous Social Network. In ACM/IFIP/USENIX 11th International Middleware Conference, Nov. 29, 2010, Bangalore, India. [3] Boutet Antoine ; Frey Davide; Guerraoui Rachid; Kermarrec Anne-Marie . WhatsUp: news from, for, through everyone. 10th IEEE International Conference on Peer-to-Peer Computing (IEEE P2P'10), Aug 2010, Delft, Netherlands.

Nom : Jensen Thomas
Equipe : Celtique
Mail : thomas.jensen@inria.fr
Lien :
Contact : Thomas Jensen (thomas.jensen@inria.fr) Frédéric Besson (frederic.besson@inria.fr)

Titre : Static analysis and secure scripting
Mots cles : javascript, sécurité, analyse statique

Description : Scripting languages such as JavaScript are the principal programming languages of the Web. These languages are designed to be very flexible, but this flexibility may lead to security problems. The purpose of this project is to study these scripting languages and analyse their security properties. We will in particular focus on various secure subsets of JavaScript such as Facebook's FBJS and google's Caja. The goal is to develop static analysis techniques for these subsets that can help verifying security properties. An example of such an analysis is control flow analysis. The purpose of a control flow analysis (CFA) is to construct an over-approximation of the control flow graph of a program. For object-oriented languages like Java, CFA has been extensively studied and state-of-the-art analyses are both precise and scalable. For languages like JavaScript, CFA is much less mature. Because the language is much more dynamic its precise analysis is still a challenge and current Java CFA analyses are not adequate and produce poor results. Other analyses to be considered include points-to analysis and precise string analyses.
In terms of security verification, the purpose is to model and verify access control mechanisms The most basic property consists in ensuring that sensitive API are not accessed or only accessed through secure entry-points. This could lead on to a more comprehensive study of capability-based security models for web applications.

Bibliographie : [1] S. Jensen, A. Møller, and P. Thiemann. Type analysis for JavaScript. In Static Analysis Symposium (SAS’09), volume 5673 of Lecture Notes in Computer Science, pages 238–255. Springer Verlag, 2009.
[2] A. Guha, C. Saftoiu, and S. Krishnamurthi. The essence of JavaScript. In Proc. of ECOOP 2010, volume 6183 of Lecture Notes in Computer Science, pages 126–150. Springer Verlag, 2010.
[3] S. Maffeis, J.C. Mitchell, and A. Taly. Object capabilities and isolation of untrusted web applications. In Proc. of Security and Privacy 2010, pages 125–140. IEEE, 2010.

Nom : Schmitt Alan
Equipe : Celtique
Mail : alan.schmitt@inria.fr
Lien :
Contact : Frédéric Besson, Alan Schmitt

Titre : Formalisation de JavaScript
Mots cles : javascript, coq, sémantique

Description :

JavaScript est un des langages de script les plus utilisés pour étendre les fonctionnalités de pages web. On le rencontre par exemple dans de nombreux outils Google (tels Google Maps ou Gmail). Bien qu’il possède une spécification standardisée, sa sémantique n’est pas donnée de manière formelle.

L’objectif de ce stage est de définir une sémantique formelle de JavaScript dans l’assistant de preuves Coq en se basant sur un travail définissant sa sémantique opérationnelle [1]. Ce développement pourra être utilisé pour extraire un interpréter certifié de JavaScript, ainsi que pour prouver plusieurs résultats comme la correction de la traduction de JavaScript en λJ [2]. Plusieurs extensions seront ensuite possibles, comme l’addition d’un système de types [3] ou la formalisation des API donnant accès au navigateur et au HTML DOM.

Il est recommandé d’avoir suivi le cours “Analyse de programmes pour la sécurité logicielle”.

Bibliographie : [1] S. Maffeis, J.C. Mitchell and A. Taly. An Operational Semantics for Javascript. Proc. of APLAS'08.
[2] A. Guha, C. Saftoiu, and S. Krishnamurthi. The essence of JavaScript. In Proc. of ECOOP 2010, volume 6183 of Lecture Notes in Computer Science, pages 126–150. Springer Verlag, 2010.
[3] C. Anderson, Paola Giannini. Type Checking for JavaScript. In Electronic Notes in Theoretical Computer Science (ENTCS) Volume 138 Issue 2, November, 2005.

Nom : Schmitt Alan
Equipe : Celtique
Mail : alan.schmitt@inria.fr
Lien :
Contact : Alan Schmitt

Titre : Formalisation de Modèles de Systèmes Distribués en Coq
Mots cles : systèmes distribués, calculs de processus, coq, sémantique

Description :

Les systèmes distribués sont souvent modélisés par des calculs de processus. Pour étudier des systèmes échangeant des programmes, on utilise des calculs de processus d’ordre supérieur: ce sont des calculs de processus qui peuvent échanger des processus.

HOCore [1] est un calcul de processus d’ordre supérieur minimal, semblable à un lambda-calcul concurrent, possédant l’étrange propriété d’être Turing puissant (donc la terminaison est indécidable) mais dont la notion d’équivalence naturelle est décidable.

L’objectif de ce stage est de prouver ce résultat dans l’assistant de preuve Coq, en se basant sur des premiers résultats et des techniques développées dans le cadre du projet ANR PiCoq. Cette modélisation présente de nombreuses opportunités de développement: encodage de machines de Minsky, preuves impliquant différentes formes de bisimulations, ou encodage du problème de correspondance de Post.

Bibliographie : [1] Ivan Lanese, Jorge A Pérez, Davide Sangiorgi, and Alan Schmitt. On the Expressiveness and Decidability of Higher-Order Process Calculi. Information and Computation, October 2010.

Nom : Antoniu Gabriel
Equipe : KerData
Mail : gabriel.antoniu@inria.fr
Lien : http://www.irisa.fr/kerdata/
Contact : Alexandru Costan (alexandru.costan@inria.fr), Bogdan Nicolae (bogdan.nicolae@inria.fr), Gabriel Antoniu (gabriel.antoniu@inria.fr).

Titre : Using Virtual Machine Migration to Enhance Checkpoint-Restart of HPC Applications running on IaaS Clouds
Mots cles : High-performance computing, cloud computing, fault tolerance

Description :

In recent years, Infrastructure as a Service (IaaS) cloud computing has emerged as a viable alternative to the acquisition and management of physical resources. With IaaS, user rent a theoretically unlimited number of virtual machines that they can use to build huge virtual environments. Such virtual environments are increasingly appealing as a non-expensive solution for running High Performance Computing (HPC) applications that are traditionally built for supercomputing infrastructures, which often are out of reach to many users due to high acquisition and operational costs.

In this context, an assumption about complete reliability is highly unrealistic: at such large scale, hardware component failure is the norm rather than the exception. Traditionally this problem has been addressed using checkpoint-restart [1]: capture the application state at regular intervals and restart from such states in case of failures, thus greatly reducing the amount of lost computation. However, with increasing scale the failure rate increases as well, which leads to the need for frequent checkpoints. While there are efficient approaches to checkpoint the application state of HPC applications running in IaaS clouds (such as BlobCR[2]: BlobSeer[3]-based Checkpoint-Restart), performance degradation with increasing checkpointing frequency is inevitable.

In order to compensate for this effect, one possible solution is to predict when virtual machines are about to fail (based on monitoring information and log analysis) in order to migrate them to safer hosts pro-actively, thus reducing the failure rate and decreasing the checkpointing frequency. This project proposes to explore the trade-off between the overhead/accuracy of prediction, migration and checkpointing in order to minimize the negative impact on the application, both in terms of performance and resource utilization. The goal is to model this trade-off, then apply it to BlobCR, in order to be able to validate the model in practice, using real HPC applications.

Bibliographie :

[1] E. N. M. Elnozahy, L. Alvisi, Y.-M. Wang, and D. B. Johnson. A survey of rollback-recovery protocols in message-passing systems. ACM Comput. Surv., 34:375–408, September 2002.

[2] B. Nicolae and F. Cappello, "BlobCR: Efficient Checkpoint-Restart for HPC Applications on IaaS Clouds using Virtual Disk Image Snapshots," in Proc. SC '11: 24th International Conference for High Performance Computing, Networking, Storage and Analysis, Seattle, USA, 2011.

[3] B. Nicolae, G. Antoniu, L. Bouge, D. Moise, and A. Carpen-Amarie. BlobSeer: Next-generation data management for large scale infrastructures. J. Parallel Distrib. Comput. 71(2): 169-184, 2011.

Nom : Haralambous Yannis
Equipe : UMR CNRS 3192 Lab-STICC & Télécom Bretagne
Mail : yannis.haralambous@telecom-bretagne.eu
Lien :
Contact : Yannis Haralambous
Enseignant-chercheur, Télécom Bretagne
yannis.haralambous@telecom-bretagne.eu
Georges Dubois
Ingénieur à la division «Compétence Technique, Recherche - Innovation», SHOM
georges.dubois@shom.fr

Titre : Un langage contrôlé pour les Instructions Nautiques du SHOM
Mots cles : Traitement automatique de langue, langage contrôlé, alimentation d'ontologie, représentation de connaissances

Description :

Les langages contrôlés sont des langages artificiels utilisant un sous-ensemble du vocabulaire, des formes morphologiques, des constructions grammaticales et des interprétations sémantiques d'une langue naturelle (dans notre cas : le français). En quelque sorte ils constituent le pont entre les langages formels et les langues naturelles. De ce fait, ils remplissent la fonction de communication du médium texte tout en étant rigoureux et analysables par la machine sans ambiguïté.

En particulier, ils peuvent être utilisés pour faciliter l'alimentation de bases de connaissances, dans le cadre d'une interface homme-machine au moment de la saisie du texte.

Le Service Hydrographique et Océanographique de la Marine (SHOM) publie depuis plusieurs années les Instructions Nautiques, un recueil de renseignements généraux, nautiques et réglementaires, destinés aux navigateurs. Ces informations complètent les cartes marines. Elles sont obligatoires à bord des navires de commerce et de pêche.

L'Organisation Hydrographique Internationale (OHI) a publié des normes spécifiant l'échange de données liées à la navigation et notamment un modèle universel de données hydrographiques (norme S-100, janvier 2010).

Le but de ce stage est d'élaborer un langage contrôlé qui couvre les besoins des Instructions Nautiques et qui permette l'alimentation de bases de connaissances conformes à la norme S-100.

Dans le contexte d'une thèse CIFRE, deux applications seront envisagées : (a) une interface homme-machine qui analyse en temps réel le texte saisi par l'opérateur des Instructions Nautiques et qui valide son appartenance au langage contrôlé ; (b) un outil semi-automatique de traduction des documents existants dans le langage contrôlé.

Ce stage se concentrera sur la faisabilité d'un langage contrôlé qui satisfasse les deux contraintes : adéquation avec le contenu traditionnel des Instructions Nautiques et avec la norme S-100. Un prototype de langage sera élaboré, accompagné des algorithmes d'extraction de connaissances et d'alimentation d'une base de connaissance conforme à la norme S-100.

Ce stage est proposé en collaboration avec le SHOM.

Bibliographie :

Rolf Schwitter: Controlled Natural Languages for Knowledge Representation http://web.science.mq.edu.au/~rolfs/papers/coling10-schwitter.pdf

Wyner et al. On Controlled Natural Languages: Properties and Prospects. CNL 2009 Workshop, LNAI 5972, p. 281--289, 2010 http://omega2.enstb.org/html/yannis/17.pdf

SHOM Instructions Nautiques http://www.shom.fr/fr_page/fr_shom/Fiche_produits/fiche_ins.naut.pdf http://www.shom.fr/fr_page/fr_prod_ouvrage/inaut.htm

Normes de l'OHI http://www.iho.int/iho_pubs/IHO_Download.htm#S-100

Nom : Toutain Laurent
Equipe : RSM
Mail : Laurent.Toutain@telecom-bretagne.eu
Lien :
Contact : Laurent Toutain 02 99 12 70 26 Laurent.Toutain@telecom-bretagne.eu

Titre : AODV versus RPL
Mots cles : sensor network, IPv6, routing protocols

Description : The Internet of Things is a new research challenge since it introduce a lot of new constraints compared to the internet we use nowadays. These devices may have some energy constraints which limits the range and the traffic, code must have a limited footprint due to limited memory. On the other hand the number of devices connected to a network may reach several thousands generating traffic an important control message overhead and requiring more memory to store contexts. The goal of the project is to study the use of the RPL protocol [rpl1] in such an environment. RPL is a pro-active routing protocol creating routes between objects and a border routers connecting to the Internet. The goal is to minimize the context size and message exchanged to allow routes creation in a dense environment with hundreds of neighbor and fluctuating links [rpl2].

Bibliographie : [rpl1] D Wang, Z Tao, J Zhang, A.A Abouzeid, RPL Based Routing for Advanced Metering Infrastructure in Smart Grid, EEE International Conference on Communications Workshops (ICC), 2010 [rpl2] L Ben Saad, B Tourancheau, Sinks Mobility Strategy in IPv6-based WSNs for Network Lifetime Improvement, 4th IFIP International Conference on New Technologies, Mobility and Security (NTMS), Feb 2011

Nom : Fronville Alexandra
Equipe : IHSEV-Labstic-CERV
Mail : alexandra.fronville
Lien :
Contact : Centre Européen de Réalité Virtuelle Encadrement : Alexandra Fronville Anya Desilles Tel: 02.98.05.89.65 e-mail : alexandra.fronville@univ-brest fr

Titre : Programmation des algorithmes mutationnels
Mots cles : Réalité virtuelle, Analyse morphologique, Systèmes complexes, Systèmes multi-agents, Parallélisation d’algorithmes,

Description : Pour comprendre l'évolution d'un système vivant, les informaticiens font appel à des modèles informatiques de plus en plus détaillés. Ils sont ainsi amenés à créer un modèle de chacun des individus d'une population, intégré dans un programme informatique qui simule les interactions de chaque agent avec ses pairs ou son milieu. Les simulations révèlent des effets collectifs inattendus, dont la théorie mathématique est parfois très difficile à établir. Ce passage de l'individuel au collectif, qui est au coeur des théories récentes de la complexité, se manifeste dans la plupart des dynamiques. De plus, l'ordre d’exécution des agents a un impact important sur les résultats des simulations. Des comportements très différents peuvent être observés suivant le mode d’ordonnancement utilisé. Pour étudier des comportements globaux, issus d'interactions individuelles modélisés, on utilise une formalisation issue de la théorie de la viabilité et des équations mutationnelles, développés par J.-P. Aubin. C'est le cadre mathématique utilisé pour formaliser mathématiquement et numériquement les évolutions gouvernées par ces systèmes évolutionnaires. Les algorithmes de morphogenèse décrivent l’évolution de formes qui apparaissent au cours des divisions cellulaires par des équations morphologiques exprimant la dynamique des ensembles et non celle des fonctions. Ces dernières peuvent être étudiées conjointement à l’évolution de l’état d’un système contrôlé qui doit appartenir à chaque instant à l’environnement concerné. Ces équations mutationnelles jouissent de propriétés analogues à celles des équations différentielles. L'analyse mutationnelle permet d’étudier le problème du conﬁnement de formes qui ne peuvent évoluer qu’en respectant des contraintes. On étudie la co-évolution des formes et des contraintes morphologiques, la dynamique de chaque élément de l’ensemble dépendant aussi de celle de l’ensemble. Les algorithmes de morphogenèse sont issus de la théorie de la viabilité, les algorithmes de viabilité nécessitent la manipulation d'ensembles multidimensionnels dont il est impossible de donner une définition analytique (à travers des inégalités ou à partir des formes géométriques standard). Cela pose des problèmes importants sur le plan algorithmique et informatique. Tout d'abord la représentation des ensembles en construction, surtout en dimension supérieure à 3, nécessite beaucoup de mémoire. Le parcours de ces ensembles est souvent très couteux en temps. Selon la nature des algorithmes de viabilité, plusieurs types de représentation ont déjà été implémentés: sous forme de fonction caractéristique ou sous forme de fonction valeur. L'un des objectifs du stage est d'analyser les spécificités des algorithmes de morphogenèse pour proposer la représentation la mieux adaptée des ensembles, soit en adaptant des représentations déjà existantes, soit en élaborant une structure nouvelle. Ensuite des prototypes d'algorithmes de morphogenèse seront développés et testés sur une sélection d'exemples.

Bibliographie : A. Fronville, F. Harrouet, P. Deloor, A.Desilles, Simulation tool for morphological analysis, The European Simulation and Modelling Conference (ESM) 2010 P. Cardaliaguet, M. Quincampoix and P. Saint-Pierre (1999) Set-Valued Numerical Analysis for Optimal control and Differential Games, ”Stochastic and Differential Games: Theory and Numerical Methods” Annals of the International Society of Dynamic Games, Birkaüser P. Saint-Pierre (1994) Approximation of the Viability Kernel - Applied Mathematics & Optimisation 29:187-209 CUDA par l'exemple Une introduction à la programmation parallèle de GPU Jason Sanders, Edward Kandbrot Berkeley DB : une solution pour des bases de données embarquées : http://www.oracle.com/technetwork/database/berkeleydb/overview/index.html

Nom : Charot François
Equipe : CAIRN
Mail : francois.charot@inria.fr
Lien :
Contact : François Charot (francois.charot@inria.fr)

Titre : Extension de jeux d'instructions et organisation mémoire
Mots cles : extension de jeux d'instructions, processeurs spécialisés

Description :

L’extension de jeux d’instructions constitue une approche efficace pour l’accélération des performances de processeurs embarqués. L’accélération consiste alors à déporter les parties critiques de l’application sur du matériel spécialisé. Ceci est réalisé, d’une part en ajoutant des unités fonctionnelles spécialisées fortement couplées au chemin de données du processeur, et d’autre part en étendant le jeu d’instructions du processeur pour permettre l’exécution de ces parties critiques sur ces unités fonctionnelles. Le concepteur réalise, encore souvent, cette tâche complexe et critique de sélection de ces nouvelles instructions à la main.

Quelques méthodes automatiques traitant de l’extension de jeux d’instructions de processeurs existent [1], elles ont montré des résultats intéressants mais elles sont souvent limitées dans la façon dont elle traite les instructions d’accès à la mémoire. La bande passante entre le chemin de données du processeur et l’extension étant limitée, il en résulte une pénalité importante induite par les mouvements de données, limitant ainsi l’accélération.

Le but de ce stage est de d’analyser les mécanismes architecturaux (mémoire scratchpad, mémoire locale, etc.) [2] permettant d’éliminer une partie du trafic mémoire venant du cache et de la mémoire principale. Il s’agira ensuite d’étudier l’exploitation des mécanismes identifiés dans le contexte de la méthodologie d’extension de jeux d’instructions de processeurs développée dans l’équipe [3].

Bibliographie :

[1] Carlo Galuzzi, Koen Bertels, The Instruction-Set Extension Problem: A Survey, ACM Transactions on Reconfigurable Technology and Systems, 2010.

[2] Partha Biswas, Nikil D. Dutt,Laura Pozzi, Paolo Ienne, Introduction of Architecturally Visible Storage in Instruction Set Extensions, IEEE Trans. on CAD of Integrated Circuits and Systems, 2007.

[3] Kevin Martin, Génération automatique de jeux d’instructions de processeurs, Thèse de l’université de Rennes 1, 2010.

Nom : Combemale Benoit
Equipe : Triskell
Mail : benoit.combemale@irisa.fr
Lien :
Contact : Benoit Combemale (benoit.combemale@irisa.fr); Olivier Barais (olivier.barais@irisa.fr)

Titre : Process Driven Modeling Tool
Mots cles : Software Engineering, Metamodeling, and Process Engineering

Description : L'ingénierie système et du logiciel fait face à des processus de plus en plus complexes qui mettent en œuvre des métiers très différents. L'IDM propose d'adresser chaque métier (ou domaine) au travers de langages dédiés de modélisation (ou Domain Specific Modeling Languages) et d'environnements dédiés offrant des outils tels que des éditeurs (graphique ou textuel), des simulateurs, des analyseurs, des générateurs de code, de documentation ou de test, etc.

Dans ce contexte, l'outil Obeo Designer offre une version 'Architect' permettant de définir un DSML et ses points de vue associées (graphiques ou tabulaires). Ces langages et points de vue peuvent ensuite être utilisés dans la version 'Modeleur' de l'outil pour construire des modèles métier.

Ces DSMLs collent ainsi au plus près des processus métier, pouvant alors être considéré comme une description de l'utilisation des différents DSMLs et de leurs outillages pour le développement d’un système. Ces processus sont eux même décrit à l'aide de langages dédiés tel que SPEM (Software & Systems Process Engineering Metamodel specification) [1] proposé par l'OMG, et supporté en particulier par l'outil SPEM-Designer .

Dans le cadre d'une collaboration entre l'équipe Triskell (IRISA & INRIA Rennes) et la société Obeo, le stage aura pour objectif d'étudier les moyens de piloter l'environnement de modélisation Obeo Designer (version 'Modeleur') grâce à une interprétation du processus métier décrit en complément du langage et de ses points de vue dans la version 'Architect' de l'outil. Le candidat devra pour cela explorer les moyens d'établir un mapping entre la description du processus métier (en SPEM) et les éléments de syntaxe d'un DSML ainsi que les outils de l'environnement de modélisation offert par Obeo Designer.

Le stage devra aboutir à la description d'un langage permettant d'établir un modèle de configuration entre le processus métier (décrit à l'aide de SPEM-Designer) et l'environnement de modélisation décrit à l'aide d'Obeo Designer Architect. Ce langage devra être outillé par un générateur de configuration interprété par Obeo Designer (version 'Modeleur') pour s'adapter tout au long de l'exécution du processus.

Bibliographie : http://www.omg.org/spec/SPEM

Nom : Jard Claude
Equipe : IRISA-INRIA/Distribcom
Mail : Claude.Jard@bretagne.ens-cachan.fr
Lien :
Contact : Encadrants : C. Jard (Prof. ENS Cachan), A. Sundararaman (Postdoc Impro)

Titre : Robustesse des modèles formels temporisés
Mots cles : Time Petri nets, Robustness, Implementability

Description : Le sujet de ce stage de M2 concerne la robustesse des modèles concurrents temporisés et paramètrés. Nous pensons que la maîtrise du développement fiable des nouvelles applications réparties avec garantie de qualité de service passe par l'établissement de modèles formels. Ces modèles, comme les réseaux de Petri par exemple, comprennent en général des contraintes temporelles avec des paramètres. Ces paramètres capturent en général des caractéristiques de l'environnement réel dans lequel le modèle doit être mis en oeuvre. Une question importante est donc de comprendre dans quelle mesure les comportements du modèle sont sensibles à de petites variations des paramètres. Il s'agit par exemple de résister au fait que les horloges réelles ne sont pas complètement synchronisées. On dira dans ce cas que le modèle est implémentable. Plusieurs questions théoriques se posent : étant donné un modèle M paramètré par un jeu de variables X satisfaisant les contraintes f(X), peut-on décider si ce modèle est implémentable ? Si il n'est pas implémentable, peut-on synthétiser de nouvelles contraintes f'(X) qui le rendent implémentable ? Le stage aura lieu dans le cadre du projet ANR Blanc Impro, faisant collaborer des équipes de l'IRCCyN, de l'IRISA, du LSV, du LIP6, du LABRI et du LIAFA. Il se prolonge naturellement par un sujet de doctorat.

Bibliographie : http://anr-impro.irccyn.ec-nantes.fr/

Nom : Gravier Guillaume
Equipe : Texmex
Mail : guillaume.gravier@irisa.fr
Lien :
Contact : Guillaume Gravier -- guillaume.gravier@irisa.fr
Hervé Jégou -- herve.jegou@inria.fr

Titre : Apport de l'indexation pour la découverte de motifs sonores
Mots cles : traitement du son, multimédia, indexation, data mining, k-ppv

Description :

La découverte de motifs sonores est une tâche émergente qui consiste à trouver dans un signal sonore des portions de signal répétés avec une certaine variabilité, sans aucune connaissance a priori sur les motifs potentiellement présents. Suivant l'application visée, les motifs recherchés peuvent être peu variable d'une instance à l'autre (chansons répétés à la radio, publicités, etc.) [1,2] ou, au contraire, présenter une forte variabilité (cas des mots et locutions répétés dans les données de parole) [3,4].

Une approche naïve de la découverte de motifs nécessite de comparer tous les segments possibles entre eux, ce qui est inconcevable. Les techniques proposées pour résoudre ce problème font appel à des stratégies de restriction du nombre de comparaison et s'appuient, tant pour des motifs faiblement variables que pour les motifs hautement variables, sur des techniques de comparaison de motifs (pattern matching), coûteuse en temps de calcul, limitant ainsi le passage à l'échelle des technologies de découverte de motifs [2]. En parallèle, les techniques d'indexation sonore permettent de retrouver de manière extrèmement efficace (en terme de temps de calcul) les plus proches voisins d'une portion de signal requête [5]. Ces techniques d'indexation restent cependant peu étudiés dans le cadre de la découverte de motifs dans des données sonores.

L'objectif du stage est d'étudier l'apport des techniques d'indexation pour la découverte de motifs sonores afin de permettre un passage à l'échelle. On s'intéressera pour cela à différents aspects de la question : comparaison de techniques d'indexation, graphes de plus proches voisins approximatifs, indexing based fast match, fingerprinting, etc. On étudiera l'apport des techniques d'indexation dans deux cas d'étude : la découverte de chansons et publicités dans les flux radios (faible variabilité) et la découverte de mots dans des documents oraux (forte variabilité), en s'efforcant de montrer le potentiel et les limites des différentes techniques d'indexation dans ces deux cadres.

Le travail s'appuiera sur l'algorithme de découverte de motifs développé par les les équipes Texmex et Metiss de l'Irisa [4,5] et tirera partie des techniques d'indexation sonore développés dans l'équipe Texmex. Le stagiaire sera accueilli dans l'équipe Texmex.

Bibliographie :

[1] Cormac Herley. ARGOS: Automatically extracting Repeating Objects from multimedia Streams. IEEE Trans. on Multimedia, 8(1), 2006.

[2] Armando Muscariello, Guillaume Gravier and Frédéric Bimbot. An efficient method for the unsupervised discovery of signalling motifs in large audio streams. Proc. Content Based Multmedia Indexing, 2011.

[3] Alex Park and James Glass. Unsupervised Word Acquisition from Speech using Pattern Discovery. Proc. Intl. Conf. on Acoustics, Speech and Signal Processing, 2006.

[4] Armando Muscariello, Guillaume Gravier, Frédéric Bimbot. Audio keyword extraction by unsupervised word discovery. Proc. Conf. of the Intl. Speech Communication Association (Interspeech), 2009.

[5] Hervé Jégou, Matthjis Douze, Guillaume Gravier, Cordelia Schmid and Patrick Gros. INRIA LEAR-TEXMEX: Video copy detection task. Proc. TRECVid 2010 Workshop, 2010.

Nom : Morin Luce
Equipe : IETR - Images
Mail : Luce.Morin@insa-rennes.fr
Lien :
Contact : Vincent GAUTHIER NeoTec-Vision Bâtiment Club-Services 7, allée de la Planche Fagline 35740 Pacé +33(0)2 99 85 65 84 vincent.gauthier@neotec-vision.com

Titre : Mise en oeuvre d'algorithmes de traitement de cartes de profondeur issues de capteurs 3D Kinect pour le suivi de personnes à leur domicile et la détection de situations anormales
Mots cles : Image 3D, segmentation, recherche de plan, C++, C#, Microsoft Visual Studio

Description : Ce stage sera réalisé dans le cadre d'une collaboration entre la société NeoTec-Vision et le laboratoire IETR. Le projet PATH4FAR (Posture Analysis and Tracking at Home for Fall AlaRm) a pour objectif l'aide au maintien à domicile des personnes âgées dépendantes. En particulier, dans le cas d’une chute, la personne n’a pas toujours la possibilité d’appeler les secours, aussi un système de détection automatique de chute ou d’inactivité prolongée aura toute son utilité. Dans ce document nous présentons une méthode de détection basée sur l’utilisation d’un capteur de mesure de forme 3D bas coût (Kinect) pour la détection de chute et le suivi de personnes âgées à leur domicile. A partir de cartes de profondeur (ou images 3D), vous implémenterez des algorithmes de traitement que vous aurez préalablement sélectionnés lors de l'étude bibliographique. Ces algorithmes auront donc pour but de repérer et suivre des personnes dans leur domicile : calibration de la scène, détection des plans de référence (sol, murs), définition du repère de la pièce, segmentation 3D, détection des objets, positionnement dans le repère pièce, suivi temporel, fourniture d'information sur les postures. Suivra une phase d'essai sur des séquences types de manière à tester la robustesse des algorithmes aux différentes situations (variations d'éclairage, personne en partie masquée par des objets ou qui sort puis rentre dans le champ du capteur, présence de plusieurs personnes, présence d'un animal, ...). A terme, une expérimentation devra être menée afin d'évaluer l'acceptabilité et la pertinence thérapeutique de la solution proposée. Ces expérimentations seront menées en collaboration avec l'hôpital de Port-Louis et le laboratoire LOUSTIC.

Bibliographie : - G. Diraco, A. Leone, P. Siciliano, “An Active Vision System for Fall Detection and Posture Recognition in Elderly Healthcare”, CNR-IMM, Via Monteroni, presso Campus Universitario, Lecce, Italy, 2010 - Caroline Rougier, Edouard Auvinet, Jacqueline Rousseau, Max Mignotte, and Jean Meunier, « Fall Detection from Depth Map Video Sequences », B. Abdulrazak et al. (Eds.): ICOST 2011, LNCS 6719, pp. 121–128, 2011 - Philippe Noriega et Olivier Bernier, "Suivi 3D Monoculaire du Haut du Corps par une Propagation des Croyances sous Contraintes Articulaires", France-Telecom R&D Lannion - 2006 - C. Rougier, , J. Meunier, A. St-Arnaud, J. Rousseau, «Robust Video Surveillance for Fall Detection Based on Human Shape Deformation», in Circuits and Systems for Video Technology, IEEE Transactions – May 2011 - M. BILLON, J.-M. GOUJON, R. LE PAGE, L. POFFO, P. LUTZLER, «Systèmes embarqués de détection de chute et de situation anormale : quels critères et protocoles de validation ?», dans "1er Congrès de la Société Française des Technologies pour l'Autonomie et de Gérontechnologie et 2ème colloque PARAChute (SFTAG 2009), Troyes : France (2009)

Nom : Aucher Guillaume
Equipe : Distribcom
Mail : guillaume.aucher@irisa.fr
Lien : http://www.irisa.fr/distribcom/
Contact : Guillaume Aucher (guillaume.aucher@irisa.fr)

Titre : Distances between Kripke Models
Mots cles : Kripke models/Labelled Transistion System, Belief change

Description : Several authors coming from the database field such as Winslett, Katsuno, Mendelzon, and Satoh have linked the problematics of database updating to that of belief change as studied by philosophers in the field of formal epistemology. If a database is represented by a finite set of interpretations of propositional logic, then the revision of this database with a formula phi, typically contradicting this database, consists in all the interpretations which satisfy phi and which are the closest possible to the interpretations representing the database. This "closeness" relation is defined on the basis of a distance between interpretations of propositional logic. There are many ways a distance between interpretations of propositional logic can be defined (for example the Hamming distance, the Winslett distance). For example, if propositions P and Q are false, then one can say that a knowledge base which contains P and not-Q is closer to the truth than a knowledge base which contains P and Q. From these different kinds of distance, one can define revision and update operations on knowledge bases (for example the Dalal revision operation, the Winslett PMA update operator, as well as AGM revision operations and Katsuno-Mendelzon update operations). In a multi-agent setting, things are a bit more involved, because in order to represent the beliefs that several agents have about the world and about the other agents' beliefs, we need to resort to more complex models than mere interpretations of propositional logic, namely epistemic models. Epistemic models are particular kinds of Kripke models, or Labelled Transition Systems (LTS). Just as for the propositional case described above, defining distances over these more complex structures leads to the definition of revision and update operations. These operations can bear on the beliefs of several agents, on discrete event systems and action theories (represented by sets of LTS), and more generally on anything which can be somehow represented by a labelled graph. Obviously, the intuitive interpretation of these revision operations depends on the interpretation given to the labelled graph. The goal of this internship is twofold. The first goal is to define (specific) distances between epistemic models, and more generally between labelled graphs, based on a distance between the propositional interpretations of the nodes of epistemic models/LTS. The second goal is to study their formal properties and to investigate their applicability and adequacy with repect to (some of) the interpretations mentionned above.

Bibliographie : [1] Andreas Herzig, Omar Rifi. Propositional belief base update and minimal change. Artificial Intelligence, 115(1): 107-138 (1999). [2] Guillaume Aucher. Generalizing AGM to a multi-agent setting. Logic Journal of the IGPL 18(4): 530-558 (2010). [3] Hirofumi Katsuno, Alberto O. Mendelzon: Propositional Knowledge Base Revision and Minimal Change. Artif. Intell. 52(3): 263-294 (1992)

Nom : Sadou Salah
Equipe : ArchWare
Mail : Salah.Sadou@univ-ubs.fr
Lien :
Contact : Salah Sadou (Salah.Sadou@univ-ubs.fr, 02.97.01.71.76)

Titre : Adaptation des contraintes OCL à l'évolution de leur méta-modèle
Mots cles : OCL, QVT-Relation, Modèle, Méta-Modèle, Evolution.

Description : Comme la plupart des artefacts constituant un logiciel, les méta-modèles évoluent au fil du temps pour répondre à de nouveaux besoins. Souvent, cette évolution est réutilisée manuellement par adaptation progressive. Toutefois, au cours de cette évolution les contraintes OCL associées aux méta-modèles sont omises ou réécrites à la main, ce qui fait perdre du temps aux concepteurs et/ou génère des erreurs.
Nous avons déjà proposé une approche collaborative, dont le but est d’exprimer toute évolution sous la forme d’un ensemble d’opérations, puis d’exprimer pour chacune de ces opérations d’évolution l’adaptation nécessaire pour faire co-évoluer les contraintes OCL qui leur sont associées. L'expression des règles d'évolution est en utilisant QVT-Relation. Cela facilite la génération du code permettant la transformation du modèle ainsi que les contraintes impactées. L’application sur un Modèle (méta-modèle) d’une opération de base va potentiellement altérer la syntaxe et/ou remettre en cause l’intention initiale associée à une contrainte. Le but de notre approche est qu’à la fin d’une évolution d’un Modèle (donc après application de toute la suite nécessaire d'opérations de base), chaque contrainte soit dans l’état “consistant”. Certaines transitions entre états peuvent être réalisées automatiquement. D’autres, relatives aux aspects sémantiques, ne peuvent se faire qu’avec la collaboration du concepteur.
L'objectif de ce stage est de valider la complétude des opérations de base proposées ainsi que les adaptations des contraintes associées. Pour cela, nous appliquerons l'approche sur le cas UML : évolution du méta-modèle de la version 2.0 à la version 2.4 et peut-être de la version 4.4 à la version 2.5, dès que celle-ci sera disponible.

Bibliographie :

G. Wachsmuth, “Metamodel adaptation and model co-adaptation,” in Proceedings of the 21st European Conference on Object-Oriented Programming (ECOOP’07), ser. Lecture Notes in Computer Science, E. Ernst, Ed., vol. 4609. Springer-Verlag, jul 2007, pp. 600–624.
S. Markovic and T. Baar, “Refactoring OCL annotated UML class diagrams,” Software and System Modeling, vol. 7, no. 1, pp. 25–47, 2008.
M. Herrmannsdoerfer, S. Benz, and E. Juergens, “Automatability of coupled evolution of metamodels and models in practice,” in MoDELS ’08: Proceedings of the 11th international conference on Model Driven Engineering Languages and Systems. Berlin, Heidelberg: Springer- Verlag, 2008, pp. 645–659.
M. Giese and D. Larsson, “Simplifying Transformations of OCL Constraints,” in MoDELS, 2005, pp. 309–323.

Nom : Gouranton Valérie
Equipe : VR4i
Mail : Valerie.Gouranton@irisa.fr
Lien :
Contact : Valérie Gouranton : Valerie.Gouranton@irisa.fr et Quentin Avril : Quentin.Avril@irisa.fr

Titre : Établissement d'une métrique par analyse des algorithmes de détection de collision en simulation physique 3D
Mots cles : simulation, performance, architecture

Description : Les environnements de réalité virtuelle deviennent de plus en plus complexes (géométrie, propriétés physiques spécifiques etc. ). L’interaction en temps-réel devient de plus en plus difficile à garantir pour la simulation physique. Un des goulets d'étranglement calculatoire réside dans l'algorithme de détection de collision, la première étape pour une simulation physique. Ces dernières années, les architectures machines ont subi un profond bouleversement, ouvrant une nouvelle voie pour la réduction du goulet d’étranglement lié à la détection de collision. La multiplication du nombre de coeurs offre ainsi la possibilité d’exécuter ces algorithmes en parallèle sur un même processeur. Dans le même temps, les cartes graphiques sont passées d’un statut de simple périphérique d’affichage graphique à celui de supercalculateur. L'objectif de ce stage de master est d'étudier l'influence de l'architecture sur les algorithmes de détection de collision. Le contexte se situe entre l'architecture machine (CPU multi-coeur, GPU, multi-GPU etc.) et les simulations physiques 3D. Une première étape consiste à mettre en place le contexte de travail de l'étude (modélisation 3D et développement d'algorithmes). La seconde étape étudie l'analyse les performances des algorithmes sur les différents environnements 3D sur des architectures différentes afin de pouvoir déterminer des liens possibles entre architecture et performances.

Bibliographie : 4 articles : [1] Fast and Scalable CPU/GPU Collision Detection for Rigid and Deformable Surfaces - Simon Pabst - Computer Graphics Forum - 2010 , [2] gProximity: Hierarchical GPU-based Operations for Collision and Distance Queries - C. Lauterbach and Q. Mo and D. Manocha - Computer Graphics Forum - 2010 , [3] Dynamic Adaptation of Broad Phase Collision Detection Algorithms - Quentin Avril and Valérie Gouranton and Bruno Arnaldi - IEEE ISVRI - 2011 et [4] Collision-streams: fast GPU-based collision detection for deformable models - Tang, Min and Manocha - SI3D - 2011

Nom : Guillaume Gravier, Pascale Sébillot
Equipe : TexMex
Mail : guillaume.gravier@irisa.fr pascale.sebillot@irisa.fr
Lien : http://www.irisa.fr/texmex/
Contact : Guillaume Gravier, guillaume.gravier@irisa.fr Pascale Sébillot, pascale.sebillot@irisa.fr

Titre : Segmentation thématique hiérarchique d'émissions télévisuelles transcrites automatiquement
Mots cles : Traitement automatique des langues, transcriptions automatiques, segmentation thématique hiérarchique, documents multimédias

Description : Afin d'offrir des modes d'accès pertinents à de vastes collections de documents multimédias -- par exemple plusieurs centaines d'heures d'émissions de télévision -- il est nécessaire de donner aux utilisateurs de ces collections des moyens de navigation "sémantique" (par opposition à linéaire) entre les émissions ou parties d'émissions qui les intéressent. Une des phases permettant cette navigation consiste à isoler, dans chaque émission, les différents sujets qui y sont abordés. On parle de segmentation thématique, par exemple en reportages successifs dans le cadre de journaux télévisés ou de programmes tels que Envoyé spécial. Cette segmentation peut se faire en transcrivant automatiquement la parole contenue dans les documents multimédias à l'aide d'un système de reconnaissance de la parole, et en adaptant des algorithmes de segmentation thématique qui ont été développés pour du texte écrit aux spécificités des transcriptions obtenues (erreurs, absence de casse, de ponctuation...). Cependant, cette première structuration reste assez "grossière", un reportage thématiquement homogène pouvant en fait aborder successivement plusieurs aspects du thème concerné. Par exemple, une émission sur une guerre dans un pays donné peut tout d'abord décrire les faits de guerre du jour, rappeler des guerres passées dans la même région, puis présenter des retombées économiques et politiques du conflit. Chaque sous-thème peut éventuellement lui aussi se dériver en plusieurs aspects, mettant au jour une structure hiérarchique du thème initial. C'est sur cette structuration hiérarchique que se focalise le sujet du stage. L'objectif principal du stage est de répondre à la question fondamentale : est-il possible de développer une technique de segmentation thématique hiérarchique non supervisée d'émissions, fondée sur la transcription automatique du flux TV ? Diverses solutions sont envisageables, l'une consistant à produire directement la structure hiérarchique, une autre à ré-appliquer un algorithme de segmentation thématique sur les segments obtenus à une itération précédente. Quelle que soit la méthode choisie se pose la question du critère d'arrêt du processus. Une voie à explorer concerne l'utilisation d'ensembles de pages Web dont chaque segment obtenu à une itération peut être sémantiquement rapproché (on parle de documents pivots). Ces pages Web peuvent également être utilisées pour assurer une meilleure qualité de la segmentation produite à chaque itération. Le stage s'intéressera à trouver des solutions théoriques et pratiques à ces interrogations et à expérimenter ces solutions sur des données télévisuelles réelles.

Bibliographie : 1- Hierarchical text segmentation from multi-scale lexical cohesion. Eisenstein, J. Proc. of the 10th International Conference of the North American Chapter of the Association for Computational Linguistics, 2009 2- Generic topic segmentation of document texts. Marie-Francine Moens, M.-F. & De Busser, R. Proc. of the 24th International Conference on Research and Development in Information Retrieval, 2001 3- Evaluating hierarchical discourse segmentation. Carroll, L. Proc. of the 11th International Conference of the North American Chapter of the Association for Computational Linguistics, 2010

Nom : Claveau Vincent
Equipe : TexMex
Mail : vincent.claveau@irisa.fr
Lien :
Contact : vincent.claveau@irisa.fr

Titre : Apprentissage semi-supervisé pour la publicité en ligne
Mots cles : apprentissage artificiel, bootstrapping, active learning, traduction

Description : Dans le domaine de la publicité en ligne, les annonceurs doivent s'assurer que les pages web sur lesquelles leurs publicités apparaissent ne nuisent pas à leur image. Certaines pages sont donc exclues, leur contenu n'étant pas jugé approprié (discours haineux, racisme, pornographie...). Cette catégorisation est automatisée par apprentissage artificiel : des pages web sont récoltées et étiquetées manuellement selon les différentes catégories à éviter, et servent d'exemples pour apprendre des modèles. Ces modèles, ou classifieurs, sont ensuite utilisés pour catégoriser automatiquement, à la volée, les pages sur lesquelles l'annonceur a la possibilité de mettre une publicité. La phase d'étiquetage manuel est une tâche coûteuse qui doit être répétée pour toute nouvelle catégorie ou langue. L'objectif de ce stage est de diminuer ce coût en suivant deux pistes. D'une part, il est possible de diminuer le nombre de pages à étiqueter manuellement grâce à des paradigmes d'apprentissage itératifs et interactifs tels que l'active learning. D'autre part, nous souhaitons étudier la génération, pour une catégorie donnée, d'un classifieur pour une nouvelle langue à partir de classifieurs existants dans autre langue. Le stage mélangera aspects théoriques et pratiques ; des expériences sur des données réelles devront être conduites, en lien avec une PME spécialiste de la publicité en ligne.

Bibliographie :

Nom : Claveau Vincent
Equipe : TexMex
Mail : vincent.claveau@irisa.fr
Lien :
Contact : vincent.claveau@irisa.fr laurent.ughetto@irisa.fr

Titre : Calcul de similarité pour la recherche d'information
Mots cles : recherche d'information, traitement automatique des langues, calcul de similarité

Description : En recherche d'information et en traitement automatique des langues, calculer la similarité entre deux textes (ou une requête et un document) est essentiel à de nombreuses applications. La représentation couramment adoptée, dite sac-de-mots, est de représenter le texte par les mots qu'il contient. Le texte peut donc être vu comme un vecteur dans un espace dont les dimensions sont tous les mots du vocabulaire. Chercher deux textes proches revient alors à chercher deux vecteurs proches dans cet espace, ce qui peut se faire efficacement. C'est aussi cette représentation et ces calculs de distance qui sont utilisés pour faire de l'apprentissage artificiel sur les textes. Cependant, la représentation vectorielle sac-de-mot a aussi ses limites. Notamment, la structure et la séquentialité du texte sont perdues, et la similarité ne repose que sur la présence des mots, et pas directement sur le sens (ainsi, deux paraphrases ne sont pas considérées comme similaires). Dans ce stage, on se propose d'étudier de nouvelles formes de calcul de similarité reposant sur des représentations plus complexes devant résoudre ces problèmes. Seront notamment examinés les similarités dites de second-ordre et les calculs de similarités multiples. Ce travail impliquera l'étude théorique des transformations d'espace de représentation induites par ces changements de représentation. Il comportera également une importante partie expérimentale dans laquelle seront testées les nouvelles similarités développées sur diverses applications (recherche d'informations, fouille de texte, segmentation thématique...).

Bibliographie :

Nom : Gouranton Valérie
Equipe : VR4i
Mail : Valerie.Gouranton@irisa.fr
Lien :
Contact : Valérie Gouranton : Valerie.Gouranton@irisa.fr et Quentin Avril : Quentin.Avril@irisa.fr

Titre : Le calcul haute performance à l'aide des algorithmes de détection de collision
Mots cles : simulation, performance, architecture

Description : Ce stage est ouvert aux étudiants des parcours P1, P2, P4 et P5. Les environnements de réalité virtuelle deviennent de plus en plus complexes (géométrie, propriétés physiques spécifiques). L’interaction en temps-réel devient de plus en plus difficile à garantir pour la simulation physique. Un des goulets d'étranglement calculatoire réside dans l'algorithme de détection de collision, la première étape pour une simulation physique. Ces dernières années, les architectures machines ont subi un profond bouleversement, ouvrant une nouvelle voie pour la réduction du goulet d’étranglement lié à la détection de collision. La multiplication du nombre de coeurs offre ainsi la possibilité d’exécuter ces algorithmes en parallèle sur un même processeur. Dans le même temps, les cartes graphiques sont passées d’un statut de simple périphérique d’affichage graphique à celui de supercalculateur. Récemment, il est apparu important d’ajouter au pipeline de détection de collision une nouvelle dimension révélant la prise en compte des architectures pour une exécution optimale sur des environnements large échelle. Afin d’être générique sur la machine d’exécution, il existe peu de modèles unifiés et adaptatifs de correspondance entre les algorithmes de détection de collision et les architectures machines de type multi-coeur et multi-GPU. D'autre part, les modèles existants couvrent plus ou moins l’intégralité du pipeline de détection de collision et se focalisant aussi bien sur des algorithmes de bas ou de haut niveau sur multi-coeur, GPU et multi-GPU. D'autre part, pour la détection de collision, la taille des clusters utilisés est très modérée. La taille des données utilisées augmente considérablement et par conséquent à l’avenir les applications devraient utiliser des machines de plus en plus larges. L’objectif de ce travail de master est de concourir à la recherche de performance pour les applications de réalité virtuelle industrielles, large échelle avec un temps d’interaction temps réel à l'aide d'architecture multi-coeur, multi GPU, clusters. Les points durs sont multiples, nous pouvons citer la cohérence des données partagées sur plusieurs machines, la migration de code ou la gestion de la mémoire. Une réflexion importante sur l'utilisation des calculs hors ligne est primordiale. Le domaine de cette étude est à la croisée des chemins entre deux disciplines : la réalité virtuelle et les clusters de calculs. Cette intersection est encore à l’heure actuelle un domaine prospectif. Ce travail se découpe en deux parties : une première théorique et une seconde expérimentale. Dans ce projet, nous focaliserons nos recherches théoriques en nous basant sur le calcul distribué sur cluster pour améliorer le temps de calcul des détecteurs de collision.

Bibliographie : [1] J. Allard, V. Gouranton, L. Lecointre, S. Limet, E. Melin, B. Raffin and S. Robert. FlowVR: a middleware for large scale virtual reality applications, in Europar 2004. [2] Q. Avril, V. Gouranton, B. Arnaldi. Synchronization-Free Parallel Collision Detection Pipeline, ICAT 2010. [3] B. Arnaldi, S. Donikian, T. Duval, OpenMask, Traité de la réalité virtuelle, troisième édition, Presses de l'Ecoles de Mines de Paris. [4] Distributed physical based simulations for large vr applications.- Jérémie Allard and Bruno Raffin - IEEE VR - 2006. [5] Real-time collision culling of a million bodies on graphics processing units - Fuchang Liu and Takahiro Harada and Youngeun Lee and Young J. Kim - ACM Trans. Graph - 2010

Nom : Isabelle Puaut and Stefan M. Petters
Equipe : ALF IRISA + ISEP Porto
Mail : puaut@irisa.fr
Lien :
Contact : Isabelle Puaut, IRISA, ALF, E309Rouge (puaut@irisa.fr), Stefan M. Petters, ISEP Porto (smp@isep.ipp.pt)

Titre : Cache-aware limited preemption scheduling
Mots cles : Scheduling, real-time systems, preemption, caches

Description :

Context

Real time systems do not only have to provide correct results, but also have to provide them under quantified time constraints, typically deadlines. Two dinstinct trends exist for scheduling task sets on unicore systems: non preemptive and preemptive scheduling. Under preemptive scheduling, for instance Earliest Deadline First (EDF) scheduling, a task may be preempted at any point in time when a higher priority task arrives (for EDF, a task with a deadline earlier than those of the task under execution). Preemptions obviously result in preemption delays. Cache related preemption delays (CRPD) are the most important ones, and are caused by the preempted tasks that modify the cache; the preempted task then suffers an indirect delay after the preemption to reload the cache with useful information. Several techniques exist to estimate upper bounds of cache-related preemption delays [1,2]. In comparison, non preemptive scheduling policies, by definition, does not suffer from any preemption delay.

Although preemptive EDF was demonstrated as optimal (always able to meet deadlines if a feasible schedule exists), optimality is guaranted only when practical factors such as preemption delays are ignored. In contrast, non preemptive scheduling, although not optimal, do not suffer from preemption delays. In between, limited preemptive scheduling [3,4,5] aim at conjugate both word's benefits, by limiting preemption points (and then preemption delays).

Internship

The objective of the internship is propose and evaluate a new limited preemptive scheduling policy having the following properties :

ability to compute cache-related preemption delays (CRPDs) and have CRPDs as low as possible
ability to demonstrate that all tasks in the system meet their deadlines

In contrast to existing work, the proposed scheduling policy will account for the practical factors that are CRPDs, and will use real CRPD values to determine the system feasibility. The proposed limited preemptive scheduling policy will be compared to fully preemptive, non preemptive scheduling, and possibly other hybrid scheduling schemes, in terms of feasibility. A first step will be to examine the floating non-preemptive region scheduling policy described in [6].

The internship will be co-supervised by Isabelle Puaut (IRISA Rennes) and Stefan M. Petters (ISEP, Porto). There will be regular contacts between IRISA and ISEP during the internship duration; part of the internship may be spent in Porto.

Bibliographie :

[1] C.-G. Lee, J. Hahn, Y.-M. Seo, S. L. Min, R. Ha, S. Hong, C. Y. Park, M. Lee, and C. S. Kim, “Analysis of cache-related preemption delay in fixed-priority preemptive scheduling,” IEEE Transactions on Computers, vol. 47, no. 6, 1998.

[2] S. Altmeyer, R. I. Davis, and C. Maiza, “Pre-emption cost aware response time analysis for fixed priority pre-emptive systems,” in 32nd RTSS, nov 2011.

[3] M. Bertogna and S. Baruah, “Limited preemption EDF scheduling of sporadic task systems,” IEEE Transactions on Industrial Informatics, vol. 6, no. 4, nov. 2010.

[4] G. Yao, G. Buttazzo, and M. Bertogna, “Feasibility analysis under fixed priority scheduling with limited preemptions,” Journal Real-Time Systems, vol. 47, no. 3, 2011.

[5] M. Bertogna, O. Xhani, M. Marinoni, F. Esposito, and G. Buttazzo, “Optimal selection of preemption points to minimize preemption overhead,” in 23th RTSS, Jun 2011.

[6] J. Marinho, V. Nelis, I. Puaut, S. M. Petters "Preemption Delay Analysis for Floating Non-Preemptive Region Scheduling" - under submission to DATE 2012

Nom : Puaut Isabelle
Equipe : ALF
Mail : puaut@irisa.fr
Lien :
Contact : Isabelle Puaut, ALF, E309R (puaut@irisa.fr)

Titre : Joint task and cache partitioning for real-time systems
Mots cles : Multicores, Real-time scheduling, Shared caches, Schedulability analysis, Task and cache partitioning

Description :

Context

Multicore processors have now become mainstream for both general-purpose and embedded computing. Many applications running on multicore platforms, for instance multimedia applications, feature (soft or hard) real-time requirements. Many scheduling policies and associated schedulability analysis methods have been devised for both uniprocessors and multiprocessors. Schedulability analysis methods take as inputs a description of the system (tasks arrival law, e.g. tasks periods, tasks worst-case execution times - WCET [3]) and determine if tasks deadlines will be met or not.

Regarding multiprocessors, scheduling techniques can be divided in two categories: global scheduling (e.g. global Earliest Deadline First) allow task migrations between cores, while partitioned scheduling assign tasks to cores statically and do not allow migrations. Global scheduling was shown to result in higher core utilization than partitioning.

Most schedulability analysis methods for multicores assume that tasks WCETs are constant, regardless of the tasks execution context, for instance tasks running on the other cores. This is not however not true in practice [2,4]. On multicores with shared caches, a task WCET depends in the cache usage of the tasks running on the other cores. When cache partitioning is used, a task WCET depends on the size of the cache partition assigned to the core.

Internship

The objective of this internship is to integrate the practical aspects stemming from shared caches in the definition of multicore scheduling algorithms. As a first step, a multicore architecture with a shared cache partitioned among the cores [1], and partitioned non-preemptive scheduling, will be assumed.

The problem will then be to define heuristics or exact methods for joint task placement and assignment of partition sizes, most efficient than the early work described in [5]. The next step will be to compare such an approach with global scheduling approaches with a dynamically shared cache.

Bibliographie :

[1] Bach D. Bui, Marco Caccamo, Lui Sha, Joseph Martinez, Impact of Cache Partitioning on Multi-Tasking Real Time Embedded Systems, RTCSA 2008.

[2] Calandrino, J.M.; Anderson, J.H., Cache-Aware Real-Time Scheduling on Multicore Platforms: Heuristics and a Case Study, ECRTS 2008

[3] Reinhard Wilhelm, Jakob Engblom, Andreas Ermedahl, Niklas Holsti, Stephan Thesing, David B. Whalley, Guillem Bernat, Christian Ferdinand, Reinhold Heckmann, Tulika Mitra, Frank Mueller, Isabelle Puaut, Peter P. Puschner, Jan Staschulat, Per Stenstrom: The worst-case execution-time problem - overview of methods and survey of tools. ACM Trans. Embedded Comput. Syst. 7(3): (2008)

[4] Damien Hardy, Thomas Piquet and Isabelle Puaut, Using Bypass to Tighten WCET Estimates for Multi-Core Processors with Shared Instruction Caches, IEEE Real-Time System Symposium (RTSS), dec 2009.

[5] Marco Paolieri, Eduardo Quiñones, Francisco J. Cazorla, Robert I. Davis, Mateo Valero:
IA3: An Interference Aware Allocation Algorithm for Multicore Hard Real-Time Systems. 280-290, RTAS 2011, Chicago, USA.

Nom : Isabelle Puaut and Erven Rohou
Equipe : ALF
Mail : puaut/rohou@irisa.fr
Lien :
Contact : Erven Rohou, Isabelle Puaut, IRISA, ALF, rohou/puaut@irisa.fr

Titre : Predictability of Just-In-Time Compilation
Mots cles : JIT compilation, Predictability, Compiler, Memory management

Description :

Context

In order to execute efficiently upcoming applications on a large spectrum of hardware platforms, the computer science community has to invent a new form of application portability that will replace the traditional binary compatibility. Processor virtualization can be used to address this portability issue [1]. Applications are no longer directly compiled in the final native code, but in a target independent bytecode format. The final native code generation is delayed till the executing target is known. It can even occur at run-time through just-in-time compilation (JIT).

Many applications running on multicore platforms, for instance multimedia applications, feature (soft or hard) real-time requirements. For such applications, predicting as precisely as possible worst-case execution time (WCET) of pieces of software is required to demonstrate that the applications meets is time constraints, in all situations including the worst case. Many WCET estimation methods have been defined [2], and operate through static code analysis, measurements or a combination of both. A static WCET analysis tool should be able to work at a high-level to determine the structure of a program's task. But it should also work at a low-level, using timing information about the real hardware that the task will execute on, with all its specific features. By combining those two kinds of analysis, the tool should give an upper bound on the time required to execute a given task on a given hardware platform.

Internship

Our overall objective is to investigate how to reconcile the benefits of virtualization and just-in-time compilation, with the real-time guarantees. A preliminary study towards this ambitious goal has been conducted last year, through the proposal of a predictable binary code cache [3]: the benefits of the proposal are to decrease the number of times a function has to be compiled at run-time, and at the same time allowing to determine how many compilations / re-compilations at worst will occur.

The goal of the internship is to go one step forward the use of JIT compilers in real-time systems, though a deeper study of the worst-case execution time of the JIT compiler itself. Due to the inherent difficulty of applying static WCET estimation methods on complex codes such as the code of a compiler, measurement based methods will be used. The internship will be decomposed in two main steps :

investigation, through automatic instrumentation of a compiler, of the reasons behind undeterministic compilation times: optimization phases, code generation, memory management, underlying hardware, etc.
for the most undeterministic features, proposal of more deterministic features (e.g. real-time memory allocation, time predictable optimization algorithms, etc)

Experiments will be conducted in a compiler platform such as LLVM, Mono or Gcc (yet to be decided).

Bibliographie :

[1] Marco Cornero, Roberto Costa, Ricardo FernÃ¡ndez Pascual, Andrea C. Ornstein, and Erven Rohou. An experimental environment validating the suitability of CLI as an effective deployment format for embedded systems. In Proceedings of the 2008 International Conference on High Performance and Embedded Architectures and Compilers (HiPEAC'08), pages 130-144, Goteborg, Sweden, January 2008. Lecture Notes in Computer Science 4917.

[2] Reinhard Wilhelm, Jakob Engblom, Andreas Ermedahl, Niklas Holsti, Stephan Thesing, David B. Whalley, Guillem Bernat, Christian Ferdinand, Reinhold Heckmann, Tulika Mitra, Frank Mueller, Isabelle Puaut, Peter P. Puschner, Jan Staschulat, Per StenstrÃ¶m: The worst-case execution-time problem - overview of methods and survey of tools. ACM Trans. Embedded Comput. Syst. 7(3): (2008)

[3] Adnan Bouakaz, Isabelle Puaut, Erven Rohou. Predictable Binary Code Cache: A First Step Towards Reconciling Predictability and Just-In-Time Compilation. In Proc. of the 17th IEEE Real-time and Embedded Technology and Applications Symposium (RTAS). Chicago, USA, April 2011.

Nom : Raymond Christian
Equipe : TexMex
Mail : christian.raymond@irisa.fr
Lien :
Contact : Christian RAYMOND
Maître de Conférences
IRISA/INSA de Rennes
Campus de Beaulieu
35042 Rennes Cedex - France
Tel: IRISA:+33 (0)2 99 84 75 79
: INSA:+33 (0)2 23 23 86 67
e-mail:christian.raymond@irisa.fr
http://www.irisa.fr/texmex/people/raymond/

Titre : Détection automatique d'erreurs d'annotation
Mots cles : apprentissage automatique, corpus, active learning

Description : Un des objectifs du traitement automatique de la parole (TAP) est de proposer des applications similaires à celles que l'on connait en traitement des langues écrites (CAD: traduction automatique, recherche d'entités nommées, résumé, etc.). La particularité en TAP est que l'analyse est effectuée sur des transcriptions automatiques de parole qui sont générées avec un système de reconnaissance automatique de la parole: la transcription, contrairement au texte écrit, ne possède, entre-autre, ni ponctuation, ni majuscule mais également des erreurs de reconnaissance. Dans ce contexte, les méthodes statistiques ou à base d'apprentissage automatique se sont montrées les plus robustes. L'avantage de ces méthodes est la simplicité, il suffit d'appliquer un algorithme d'apprentissage automatique sur un corpus d'exemples (de la tâche en question) annotés. Le défaut principal est le coût d'obtention de ces annotations qui nécessite l'intervention longue et fastidieuse d'un humain. Pour minimiser ce coût il existe au moins deux méthodes:

la première appelé "active learning", consiste à faire annoter à un humain un premier jeu de donnée tiré aléatoirement puis de s'en servir pour entrainer un système automatique (algorithme d'apprentissage automatique). Le système est ensuite utilisé pour annoter le reste des données disponibles. Le système fourni une mesure de confiance sur son annotation et les données annotés avec le minimum de confiance sont sélectionnées pour être annotées manuellement: ce sont les données sur lesquelles le système se juge inefficace et qui a priori seront les plus utiles. Cette méthode [2] permet de réduire fortement le nombre de données à étiqueter manuellement tout en maintenant un système d'une efficacité équivalente.
la seconde, consiste, lorsque l'on possède déjà des données annotées sur une tâche similaire, à utiliser un système automatique appris sur ces données pour pré-annoter les nouvelles données et ensuite les faire corriger par des humains [3,5] ce qui est en général moins couteux que d'annoter à partir de zéro.

De nombreux facteurs font que les annotations ne sont pas totalement correctes: la complexité du protocole d'annotation, l'utilisation de plusieurs annotateurs, etc. Toutefois, la qualité de ces annotations est primordiale pour obtenir des systèmes robustes, en effet les erreurs d'annotation impactent fortement les performances des systèmes à base d'apprentissage automatique [4]. Dans la littérature, plusieurs méthodes ont été proposées pour identifier de manière automatique les erreurs d'annotation [1,6,7] et ont des performances assez médiocres (~40% de précision). L'objectif de ce travail est de proposer un méta-indice de détection d'erreurs en combinant les différentes méthodes. L'utilité du ou des méta-indices retenus sera évalué suivant différentes stratégies:

du point de vue des performances des méthodes statistiques (retrait de la phase d'apprentissage des exemples détectés comme mal annotés)
du point de vue du coût en supervision humaine lors de la phase d'annotation si l'on ne demande à corriger que les exemples détectés comme erronés

Les expérimentations seront effectués de manière totalement automatique sur trois corpus différents (dialogue homme-machine, étiquetage d'entités nommées et étiquetage morpho-syntaxique) dont nous possédons pour chacun d'entre eux deux versions: une version brute et une version corrigée.

Bibliographie : [1] Eleazar Eskin (2000)
"Detecting errors within a corpus using anomaly detection"
Proceedings of the first conference on North American chapter of the Association for Computational Linguistics
Morgan Kaufmann Publishers Inc., 148-153

[2] Christian Raymond & Giuseppe Riccardi (2008)
"Learning with Noisy Supervision for Spoken Language Understanding"
Proceedings of the International Conference on Acoustic Speech and Signal Processing, 4989-4992

[3] Christian Raymond; Kepa Joseba Rodriguez & Giuseppe Riccardi (2008)
"Active Annotation in the LUNA Italian Corpus of Spontaneous Dialogues"
Proceedings of the Language Resources and Evaluation Conference

[4] Christian Raymond & Giuseppe Riccardi (2007)
"Generative and Discriminative Algorithms for Spoken Language Understanding"
International Conference on Speech Communication and Technologies

[5] Christian Raymond & Kepa Joseba Rodriguez (2008)
"Annotation dynamique dans le corpus italien de dialogues spontanés LUNA"
Journées d'Études sur la Parole

[6] T. Nakagawa and Y. Matsumoto (2002)
"Detecting errors in corpora using support vector machines"
ACL

[7] Steven Abney, Robert Schapire, and Yoram Singer (1999)
"Boosting applied to tagging and PP attachment"
EMNLP/VLC

Nom : Gros Patrick
Equipe : TEXMEX
Mail : Patrick.Gros@inria.fr
Lien : http://www.irisa.fr/texmex/sujets/sujets_stage_2011/structuration.php
Contact : Patrick Gros 02 99 84 74 28 Patrick.Gros@inria.fr

Titre : Structuration automatique non supervisée de flux de télévision
Mots cles : classification non supervisée, découverte de motifs, description audio-visuelle

Description : Analyser automatiquement les flux de télévision, c'est se donner la possibilité de réutiliser ces flux, et donc de développer de nouveaux services basés sur ces contenus : créer des résumés, des parcours ne suivant pas la stricte séquentialité temporelle des vidéos... Ce dont on a besoin, c'est de retrouver automatiquement la structure du flux : où se trouvent les programmes, les publicités... De manière plus générale, structurer un flux audiovisuel, c'est trouver les éléments structurants de ce flux et les segments qu'ils délimitent, puis caractériser ces segments, par exemple en leur associant une étiquette de genre (bande annonce, reportage, plateau, interview, publicité...). Une première manière de faire est de définir a priori la structure que l'on recherche en utilisant un modèle, puis de chercher à identifier cette structure dans le flux. Le calcul du modèle nécessite malheureusement l'annotation manuelle de très nombreuses données pour être capable de calculer les paramètres du modèle. On propose donc dans ce stage de partir à l'inverse : chercher quels sont les éléments structurants du flux, et limiter l'intervention de l'utilisateur à l'annotation de classes de tels éléments. Le stage comportera donc plusieurs aspects : - la mise au point d'une méthode rapide de détection des répétitions dans le flux, basée sur la longueur des plans, et des descripteurs audio et vidéo, - l'étude de la classification non supervisée de ces segments répétés, - la prise en compte, dans les algorithmes, du travail en flux, c'est à dire de données arrivant et devant être traitées au fur et à mesure. D'un point de vue classification, l'intérêt du sujet vient du fait que l'on a des données de longueur variable, ce que peut de méthodes savent traiter. Par ailleurs, définir une distance entre de telles données est aussi un problème ouvert. Le stage vide à proposer des algorithmes pour résoudre ces problèmes et à les tester sur des données télévisuelles de grande taille (flux continu de 6 mois).

Bibliographie : - Xavier Naturel, Patrick Gros. Detecting Repeats for Video Structuring. Multimedia Tools and Applications, 38(2):233-252, Mai 2008. - Gaël Manson, Xavier Naturel, Sid-Ahmed Berrani. Online Macro-Segmentation of Television Streams. In 15th International MultiMedia Modeling Conference, MMM'09, Sophia-Antipolis, France, Janvier 2009. - Zein Al Abidin Ibrahim, Patrick Gros. TV Stream Structuring. ISRN Signal Processing, 2011(0), 2011.

Nom : Vincent Emmanuel
Equipe : METISS
Mail : emmanuel.vincent@inria.fr
Lien : http://www.irisa.fr/metiss/
Contact : emmanuel.vincent@inria.fr

Titre : Constitution automatique d'une grande base de données musicales
Mots cles : musique, comparaison de séquences, programmation dynamique

Description : La recherche en traitement de données musicales reste limitée par le manque de modèles performants du langage musical [1]. Au même titre que les modèles du langage naturel pour le traitement de la parole, ces modèles visent à décrire les dépendances statistiques entre les différents éléments d'un morceau, tels que la structure couplet/refrain, le rythme, les accords, les notes, etc. Leur apprentissage nécessiterait une base de données contenant plusieurs élements de plusieurs millions de morceaux. Or, l'approche manuelle aujourd'hui en vigueur ne permet pas de dépasser une centaine de morceaux. Le but de ce stage est d'étudier une procédure de constitution automatique d'une telle base de données exploitant la grande richesse de contenus musicaux en ligne (partitions, fichiers MIDI, lead sheets, paroles) contribués par les usagers. Ces contenus se retrouvent sur un grand nombre de sites parmi lesquels Mutopia, MusicRobot, WikiFonia ou encore LyricWiki. L'idée consiste à retrouver automatiquement quels contenus correspondent aux mêmes morceaux à l'aide de techniques de comparaison de séquences [2,3] et de programmation dynamique [4,5]. La contribution consistera à rendre ces techniques robustes aux différentes versions d'un même morceau (changement d'unité temporelle ou de tonalité, suppression/ajout de certaines parties, etc). Ces travaux seront évalués en particulier dans le cadre de la mise en correspondance de deux bases de données de fichiers MIDI et de lead sheets déjà collectées par l'équipe METISS.

Bibliographie : [1] E. Vincent, S.A. Raczynski, N. Ono, and S. Sagayama, "A roadmap towards versatile MIR", in Proc. Int. Society for Music Information Retrieval Conf. (ISMIR), pp. 662-664, 2010. [2] J.S. Downie, and M. Nelson, "Evaluation of a simple and effective music information retrieval method", in Proc. 23rd Int. ACM SIGIR Conf., pp. 73-80, 2000. [3] S. Doraisamy, and S. Rüger, "Robust polyphonic music retrieval with n-grams", in Journal of Intelligent Information Systems, 21(1), pp. 53–70, 2004. [4] R.B. Dannenberg, and C. Raphael. Music score alignment and computer accompaniment. Communications of the ACM, 49(8), pp. 38-43, 2006. [5] A. Cont, "A coupled duration-focused architecture for realtime music to score alignment", IEEE Transaction on Pattern Analysis and Machine Intelligence, 32(6), pp. 974-987, 2010.

Nom : Schnoebelen Philippe
Equipe : INFINI (LSV)
Mail : phs@lsv.ens-cachan.fr
Lien : http://www.lsv.ens-cachan.fr/~finkel/2011-2012/MPRI/m2-11-phs-copie.pdf
Contact : S. Schmitz Tél: (+33/0) 147 407 542 Email: schmitz@lsv.ens-cachan.fr Ph. Schnoebelen Tél: (+44/0) 1865 610 590 Email: phs@lsv.ens-cachan.fr

Titre : Post Embedding Problems, Dickson's Lemma, and Master Problems for Monotonic Counter Systems
Mots cles : Vérification, complexité, systèmes à compteurs

Description : Lossy counter machines, aka LCMs, are a variant of Minsky counter machines where integer counters are unreliable and can lose any part of their contents without any warning. They are a prototypical instance of well-structured transition systems, where the underlying well-quasi-ordering (wqo) is the product ordering (N^k,\leq), cf. Dickson's Lemma [FS01, Sch10a]. It is now recognized that lossy counter machines correspond to a fundamental level in complexity: the Ackermann level in the Fast-Growing Hierarchy [Sch10b, FFSS11]. This pivotal place is acknowledged by several works showing complexity lower bounds by reduction from LCM's. However, problems on LCM's are not as abstract and versatile as one could wish. For the corresponding complexity class, we lack a simple and elegant master problem like SAT (for NP) or Post Corresponding Problem (for Σ0). The aim of this research internship is to discover and develop a new master problem equivalent to lossy counter systems reachability. The initial idea is to invent a variant of Post's Embedding Problem (see [CS07, CS08a, CS10]) that relies on Dickson's Lemma rather than Higman's Lemma. This should open new avenues for research, and the work can be continued in at least two main directions: (1) investigating the new master problem, and (2) connecting it (via two-way reductions) to problems in other areas. This research program is part of the ReacHard project (2011-2015) funded by ANR, on hard reachability problems. It should suit a theoretically-minded student with some taste for abstract algorithmic constructions like what is encountered in basic courses on recursion theory and computational complexity. The internship is an ideal opportunity for starting a PhD thesis funded by the ReacHard project.

Bibliographie : [CS07] P. Chambart and Ph. Schnoebelen. Post embedding problem is not primitive recursive, with applications to channel systems. In FST&TCS 2007, LNCS 4855, pages 265--276. Springer, 2007. [CS08a] P. Chambart and Ph. Schnoebelen. The ω-regular Post embedding problem. In FOSSACS 2008, volume 4962 of LNCS, pages 97--111. Springer, 2008. [CS08b] P. Chambart and Ph. Schnoebelen. The ordinal recursive complexity of lossy channel systems. In LICS 2008, pages 205--216. IEEE Comp. Soc. Press, 2008. [CS10] P. Chambart and Ph. Schnoebelen. Pumping and counting on the regular Post embedding problem. In ICALP 2010, volume 6199 of LNCS, pages 64--75. Springer,2010. [FFSS11] D. Figueira, S. Figueira, S. Schmitz, and Ph. Schnoebelen. Ackermannian and primitive-recursive bounds with Dickson's lemma. In LICS 2011, pages 269--278. IEEE Comp. Soc. Press, 2011. [FS01] A. Finkel and Ph. Schnoebelen. Well-structured transition systems everywhere! Theoretical Computer Science, 256(1--2):63--92, 2001. [Sch10a] Ph. Schnoebelen. Lossy counter machines decidability cheat sheet. In RP 2010, volume 6227 of LNCS, pages 51--75. Springer, 2010. [Sch10b] Ph. Schnoebelen. Revisiting Ackermann-hardness for lossy counter machines and reset Petri nets. In MFCS 2010, volume 6281 of LNCS, pages 616--628. Springer, 2010.

Nom : Pinchinat Sophie
Equipe : S4
Mail : Sophie.Pinchinat@irisa.fr
Lien : http://www.irisa.fr/prive/Sophie.Pinchinat/
Contact : Sophie Pinchinat, S4 and Sébastien Gambs, CIDre

Titre : Anonymization of social networks
Mots cles : privacy, social networks, graph transformations

Description : Social networking sites, such as Facebook or Google+, gather millions of users and offer them with a platform to share personal data at an unprecedented scale. While most of the current social networks provide users with some privacy controls enabling them to restrict the access to their personal data to a preselected set of users (usually called "friends"), the social graph itself may also leak information through the relationship links between individuals. In particular, the social graph can be used to conduct inference attacks to deduce private attributes of profile, thus leading to serious privacy breaches.

However, the social graph itself can also be analyzed to deduce new useful knowledge. For instance, by mining the structure of the graph sociologists may be able to understand better how communities organize themselves or information theorists may develop new models and algorithms about how information flows in the network. Anonymizing the graph directly by simply removing the labels (i.e. individuals' identity) of the nodes is often not sufficient to preserve the privacy of users of the network because the adversary may have some a priori knowledge that can help to "de-anonymize" part of the graph (e.g. he may know that Alice has 54 friends out of which 3 have 27 friends). Therefore, for the graph to be safely released, it is crucial to sanitize it in a clever way. Standard techniques consist in adding and/or removing edges at random, such that it becomes difficult to identify a particular node or pattern in the graph. Moreover, it is also important that this sanitization procedure does not impact too much the utility of the resulting dataset (e.g. as measured for instance by some centrality measures).

The topic of this Master internship is to explore the problem of anonymizing the graph of a social network. More precisely, the student will first study how data mining algorithms can apply to the social graph to predict private attributes of individuals in the network. Afterwards, he/she will investigate a formal framework that encompasses the anonymizing procedures principles of the literature, and use this framework to assess their effectiveness in protecting privacy, e.g. by limiting the accuracy of the inference attacks studied previously. He/she will also evaluate the best trade-off between privacy and utility that can be reached and eventually propose his/her own sanitization mechanisms for anonymizing a social graph. Possible graph transformations, based on standard notions such as simulation, refinement and bisimulation may be investigated, but also logical approaches where a kind of counting is possible, e.g. in graded modal logic [F72,G70], together with the corresponding notion of graded bisimulation.

Bibliographie : [BDK07] L. Backstrom, C. Dwork and J.M. Kleinberg, "Wherefore art thou r3579x?: anonymized social networks, hidden patterns, and structural steganography", WWW 2007.
[F72] K. Fine. In So Many Possible Wprlds. Notre Dame Journal of Formal Logic, 13:516-520, 1972.
[G70] L.F. Goble. Grades of Modalities. Logique et Analyse, 13:323-334.
[HMJWS07] M. Hay, G. Miklau, D. Jensen, P. Weis and S. Srivastava, "Anonymizing social networks", University of Massachusetts, Technical Report, 2007.
[NS09] A. Narayanan and V. Shmatikov. "De-anonymizing social networks", IEEE Security and Privacy Symposium 2009.
[PH08] A. Pfitzmann and M. Hansen, “Anonymity, unlinkability, undetectability, unobservability, pseudonymity, and identity management a consolidated proposal for terminology”, Available at http://dud.inf.tu-dresden.de/Anon Terminology.shtml, February 2008 (version 0.31).
[R00] de Rijke: A Note on Graded Modal Logic. Studia Logica 64(2): 271-283 (2000).
[ZG09] E. Zheleva and L. Getoor, "To join or not to join: the illusion of privacy in social networks with mixed public and private user profiles", WWW 2009.

Nom : Pinchinat Sophie
Equipe : S4
Mail : Sophie.Pinchinat@irisa.fr
Lien : http://www.irisa.fr/prive/Sophie.Pinchinat/
Contact : Sophie Pinchinat, S4 and Guillaume Aucher, François Schwarzentruber, Distribcom

Titre : Tableaux and game-theoretic approaches in logic
Mots cles : logic, satisfiability/synthesis, evaluation/model-checking, tableau, games, automata

Description : Logic is a field in mathematics that is tightly coupled with theoretical computer science. In particular, logical specifications are of great use to state expected properties of softwares and more generally, of interactive systems. Logical sentences can be used in a verification process: can we check if, given system and sentences, this system satisfies the property described by these sentences? This is called the "model-checking problem", or the “evaluation problem”. They can also be used in a generation process: can we automate the construction of a model for a given sentence (if any)? This is called the "synthesis problem", which incidentally also answers the ''satisfiability problem'' of a formula. The reason for automating both processes is to provide systems designers with tools.

At the moment, model-checking problems and synthesis problems are addressed using a bench of theoretical methods that range over "tableau methods", "automata-theoretic approaches", and "game-theoretic techniques". However, "tableau methods" are dedicated to satisfiability and synthesis issues, whereas games most of the time support model-checking purposes. Automata are somehow in between. Nevertheless, a few results [1,2,3] demonstrate a narrow link between tableau approaches and the theory of 2-player 0-sum games.

The present research project aims at establishing for classic decidable (modal) logics:
- a game-theoretic version of their tableau procedure, and reciprocally,
- a tableau-based procedure defined from their model-checking games.
The project may also lead the student to original proposals for logics that lack one of the two features.
This work should contribute to bridge two different communities working in logic.

Bibliographie : [1] Johan van Benthem. Logic Games are Complete for Game Logics. Studia Logica 75, pags 183-203.
[2] Olivier Friedmann, Martin Lange: The Modal μ-Calculus Caught Off Guard. TABLEAUX 2011: 149-163.
[3] Martin Lange, Colin Stirling: Model Checking Games for Branching Time Logics. J. Log. Comput. 12 (4): 623-639 (2002).

Nom : VIHO César
Equipe : Dionysos
Mail : Cesar.Viho@irisa.fr
Lien :
Contact : César Viho, IRISA bureau F411, Tel: 0299847416, E-mail: Cesar.Viho@irisa.fr

Titre : Joint consideration of admission control and on-going background traffic control in wireless multimedia networks
Mots cles : Wireless multimedia networks, IEEE 802.11, resource management, QoE, admission control, scheduling

Description : The multimedia traffic over the wireless access networks has increased dramatically over the past few years. Since the wireless link is featured with restricted bandwidth and limited resources, increasing demand of real-time applications imposes challenges on wireless networks to provide Quality of Service (QoS). Instead of using QoS as an indirect measurement of the service, our previous studies were based on QoE (Quality-of-Experience), which is a direct measurement of overall level of satisfaction on the service as is perceived by end users. These studies led to interesting results and progresses in resource management in wireless multimedia networks. Previous progresses include a QoE-based admission control scheme [1] and mechanisms to control on-going best-effort background CBR (constant-bit-rate) traffic in IEEE 802.11 DCF networks [2]. Schemes are proposed to control the traffic entrance and on-going traffic separately. It will be more efficient if we design a scheme to jointly control the traffic admission and admitted traffic, according to the requirement of media streams. Instead of CBR, the actual background traffics are VBR (variable-bit-rate). How will the scheme be designed to control background VBR traffics? If the VBR traffic has some pattern in statistics, we can still leverage the pattern to get a better tradeoff between video quality and link bandwidth. The 802.11e has done a lot to ensure QoS. It is promising if the QoE-based scheme could be implemented in the scenario of IEEE 802.11e network. Possible directions are dynamic adjustment of the protocol parameters based on the feedback QoE value, traffic prioritization, etc. The QoE-framework in NS (Network Simulator) has been developed for previously proposed schemes. This framework can be used for new schemes that will be proposed.

Bibliographie : [1] X. Sun, K. Piamrat, and C. Viho. "QoE-based Dynamic Resource Allocation for Multimedia Traffic in IEEE 802.11 Wireless Networks", in IEEE Workshop on Streaming and Media Communications (StreamComm 2011) [2] Piamrat, K. and Ksentini, A. and Viho, C. and Bonnin, J.‐M., QoE‐Aware Admission Control for Multimedia Applications in IEEE 802.11 Wireless Networks, IEEE 68th Vehicular Technology Conference, 2008. VTC 2008‐Fall, Sept. 2008, pages 1‐5.

Nom : Thierry Duval, Valérie Gouranton, Georges Dumont
Equipe : VR4i
Mail : Thierry.Duval/Valerie.Gouranton/Georges.Dumont@irisa.fr
Lien :
Contact : Thierry.Duval@irisa.fr,Valerie.Gouranton@irisa.fr, Georges.Dumont@irisa.fr

Titre : Retours tactiles vibratoires pour l'interaction 3D et la collaboration
Mots cles : collaboration, intercation, réalité virtuelle

Description : Le but de ce stage est d'étudier l'apport de retours tactiles vibratoires pour l'interaction et la collaboration en environnement immersif 3D. Dans un premier temps, pour la partie bibliographie, il s'agira d'analyser quels sont les retours multimodaux (visuels, sonores, haptiques, ...) généralement offerts à l'utilisateur dans les environnements immersifs 3D pour lui faire ressentir des problèmes lors des interactions dûs par exemple à des collisions dans l'environnement 3D ou à des mauvaises synchronisations entre utilisateurs en cours de collaboration. Il faudra essayer de recenser leurs avantages et limitations : - que permettent-ils de faire ? - sont-ils faciles à percevoir ? - sont-ils facile à déployer ? - que ne permettent-ils pas de faire ? - comment les améliorer ? - comment les combiner pour obtenir de meilleurs résultats ? On portera une attention particulière à l'usage des moyens d'interaction collaboratifs. Dans un second temps, pour la partie stage, en s'appuyant sur les résultats de l'étude bibliographique, il s'agira d'essayer de proposer de nouveaux retours d'information multimodaux pour l'interaction 3D en mode immersif, basés sur l'usage de retours vibratoires, éventuellement couplés avec l'usage d'interfaces tangibles. Moyens matériels et logiciels à mobiliser durant le stage : - Nouveau dispositif de visualisation immersive Immersia de l'équipe VR4i (bâtiment ETI : 10m * 3.5m, projection frontale et sol) - Wiimotes Niintendo (utilisées comme périphériques d'interaction offrant des retours vibratoires) - Logiciel de RV Collaviz (développé par l'équipe VR4i) basé sur Java3D et JReality.

Bibliographie : 1 : L. Aguerreche, T. Duval, A. Lécuyer : "Evaluation of a Reconfigurable Tangible Device for Collaborative Manipulation of Objects in Virtual Reality", TP.CG.2011 2 : L. Aguerreche, T. Duval, A. Lécuyer : "Reconfigurable Tangible Devices for 3D Virtual Object Manipulation by Single or Multiple Users", VRST 2010 3 : J. Sreng, A. Lécuyer, C. Andriot, B. Arnaldi, “Spatialized Haptic Rendering: Providing Impact Position Information in 6DOF Haptic Simulations Using Vibrations”, IEEE VR 2009 4 : Farahnaz Ahmed, Joseph D. Cohen, Katherine S. Binder, Claude L. Fennema : Influence of Tactile Feedback and Presence on Egocentric Distance Perception in Virtual Environments, IEEE VR 2010 5 : Bob MENELAS, Lorenzo Picinali , Brian F. G. Katz , Patrick Bourdot : Audio Haptic Feedbacks in a Task of Targets Acquisition, 3DUI 2010

Nom : Thierry Duval, Valérie Gouranton
Equipe : VR4i
Mail : Thierry.Duval@irisa.fr, Valerie.Gouranton@irisa.fr
Lien :
Contact : Thierry.Duval@irisa.fr, Valerie.Gouranton@irisa.fr

Titre : Laisse tomber ta souris et prends donc une tablette !
Mots cles : intercation, réalité virtuelle, immersion

Description : Le but de ce stage est d'étudier l'apport d'une tablette tactile pour l'interaction en environnement immersif 3D. Dans un premier temps, pour la partie bibliographie, il s'agira d'analyser quels sont les moyens d'interaction généralement utilisés pour interagir dans les environnements immersifs 3D, en faisant le recensement de leurs avantages et limitations : - que permettent-ils de faire ? - sont-ils faciles à utiliser ? - sont-ils facile à déployer ? - que ne permettent-ils pas de faire ? - comment les améliorer ? On portera une attention particulière à l'usage des moyens d'interaction basés sur l'usage de tablettes tactiles et sur leurs facilités de reconfiguration logicielle. Dans un second temps, pour la partie stage, en s'appuyant sur les résultats de l'étude bibliographique, il s'agira d'essayer de proposer de nouveaux moyens d'interaction 3D en mode immersif basés sur l'usage d'une tablette tactile. Moyens matériels et logiciels à mobiliser durant le stage : - Nouveau dispositif de visualisation immersive Immersia de l'équipe VR4i (bâtiment ETI : 10m * 3.5m, projection frontale et sol) - Tablette tactile ACER Iconia 500 sous android 3 - Logiciel de RV Collaviz (développé par l'équipe VR4i) basé sur Java3D et JReality

Bibliographie : 1 : The effect of DOF separation in 3D manipulation tasks with multi-touch displays Anthony Martinet, Géry Casiez, Laurent Grisoni, VRST 2010. 2 : Dynamic decomposition and integration of degrees of freedom for 3-D positioning Manuel Veit, Antonio Capobianco, Dominique Bechmann, VRST 2010. 3 : User-defined motion gestures for mobile interaction Jaime Ruiz, Yang Li, Edward Lank, CHI 2011. 4 : Rock & rails: extending multi-touch interactions with shape gestures to enable precise spatial manipulations Daniel Wigdor, Hrvoje Benko, John Pella, Jarrod Lombardo, Sarah Williams, CHI 2010.

Nom : Seznec Andre
Equipe : ALF
Mail : seznec@irisa.fr
Lien : http://www.irisa.fr/alf/dal
Contact : André Seznec

Titre : Exploiting value prediction with quasi unlimited resource
Mots cles : microarchitecture

Description : Value prediction was first introduced in 1996 and studied for 5 years by many research groups. Till now, value prediction has never been exploited in processors due to the need of very large prediction tables and significant complexity overhead to verify predictions. The performance impact of value prediction increases with the issue width and pipeline depth, since it allows to break data dependencies in the dataflow graph. We intend to revisit value prediction in the context of the future multi-cores when very large resources can be available. In particular, we intend to explore the use of geometric history length predictors derived from our previous work in branch prediction to predict values. Since this kind of predictors can require huge amount of storage resources, we will also focus on determining which values are critical to predict.

Bibliographie : Mikko H. Lipasti and John Paul Shen. Exceeding the dataflow limit via value prediction. In International Symposium on Microarchitecture, pages 226–237, 1996.
A. Seznec. Analysis of the O-GEHL branch predictor. In Proceedings of the 32nd Annual International Symposium on Computer Architecture, june 2005.
A. Seznec. The l-tage predictor. Journal of Instruction Level Parallelism, May 2007.

Nom : Fayolle Julien
Equipe : TexMex
Mail : julien.fayolle@inria.fr
Lien :
Contact : Julien FAYOLLE julien.fayolle@inria.fr http://www.irisa.fr/texmex/people/fayolle/index_fr.php Fabienne MOREAU fmoreau@irisa.fr http://www.irisa.fr/texmex/people/moreau/index_fr.htm

Titre : Estimation de mesures de confiance phonétiques pour la recherche d'information
Mots cles : recherche d'information multimédia, reconnaissance de la parole, phonétique, données bruitées, mesure de confiance, apprentissage supervisée

Description : Contexte : Recherche d'information multimédia basée sur la parole Dans le cadre de nos travaux en recherche d'information multimédia, nous cherchons à élaborer des moteurs de recherche capables de retrouver, à partir de données issues de la télévision, des informations intéressantes pour l'utilisateur. Cette tâche nécessite de parvenir à la compréhension des contenus audiovisuels par l'extraction de descripteurs sémantiques. Dans ce but, on considère que la parole véhicule en effet des informations fortement sémantiques que l'on peut extraire grâce à des outils de reconnaissance de la parole. Problématique : Fiabilité des représentations lexicales et phonétiques L'approche classique de recherche d'information mutlimédia basée sur la parole consiste à cascader un système de reconnaissance de la parole (RAP) utilisé pour retranscrire automatiquement la parole issue des flux audiovisuels, et un moteur de recherche de type « textuel » qui va permettre de rechercher des informations directement dans ces transcriptions. L'une des limites de cette méthode est liée à la variabilité de la qualité des transcriptions fournies par les systèmes de reconnaissance automatique de la parole. Même si les progrès dans le domaine de la RAP sont conséquents depuis plusieurs années, la sortie d'un système de transcription automatique se distingue nettement d'un texte écrit notamment parce qu'elle est non structurée (texte brut sans ponctuation) et qu'elle contient des mots mal reconnus (taux d'erreur mot compris entre 10% et 50%). Parmi les différentes raisons pouvant expliquer ces erreurs de transcription, l'une d'elle est due aux techniques utilisées par les systèmes de RAP pour passer du signal acoustique au texte. Leur principale faiblesse est qu'ils s'appuient sur des ressources prédéfinies (lexique, modèle de langue) qui sont non exhaustives. Tous les mots initialement prononcés par le locuteur dans le document (audio) original qui ne figurent pas dans le lexique du système de RAP seront donc remplacés automatiquement dans la transcription par des mots connus par le système qui sont acoustiquement proches mais erronés. Ce phénomène est particulièrement problématique puisque ces mots non reconnus (dits mots hors vocabulaire) correspondent souvent à des mots fortement représentatifs du contenu sémantique tels que des noms propres (noms de personnes, de lieux, etc.). Une des solutions souvent envisagée pour contourner ce problème des mots erronés est de recourir à des approches à vocabulaire ouvert (par opposition aux approches à vocabulaire fermé) qui consistent à retranscrire le signal sonore de la parole associé aux mots mal reconnus par une séquence de phonèmes (unités élémentaires de la prononciation). Si cette approche permet de retrouver par la suite des mots hors vocabulaire, elle est aussi dépendante de la qualité variable des transcriptions phonétiques. La recherche d'information multimédia basée sur la parole repose donc sur des transcriptions lexicales et phonétiques potentiellement erronées qu'il faut indexer avec prudence. Heureusement, certains indicateurs peuvent nous aider à apprécier la fiabilité des décisions prises par le système de RAP pour éviter, par exemple, de donner trop d'importance à l'information qui serait mal reconnue. Pour chaque mot et phonème reconnus dans les transcriptions, on associe donc une « mesure de confiance » estimant son degré de fiabilité. Objectif du stage : Estimation de mesures de confiance phonétiques Pour le niveau lexical (i.e. le niveau des mots), nos travaux de recherche [1] nous ont amené à mettre au point de nouvelles mesures de confiance robustes qui permettent d'estimer la fiabilité des mots retranscrits. Chaque mot contenu dans la transcription est en effet associé à un score de confiance qui permet de distinguer les mots bien reconnus des mots erronés. Les mots détectés par nos mesures de confiance comme de possibles erreurs sont alors phonétisés afin de pouvoir être tout de même exploités dans une optique de recherche d'information. Néanmoins, contrairement au niveau lexical, nous ne disposons pas de scores de confiance nous permettant de nous assurer de la qualité de nos représentations phonétiques. L'objectif de ce stage consiste donc à mettre au point de nouvelles mesures de confiance qui soient applicables au niveau phonétique. Le stage pourra se décomposer en trois étapes : 1) Recherche de descripteurs phonétiques pertinents permettant de prédire la fiabilité des phonèmes reconnus. 2) Estimation de la mesure de confiance par combinaison des descripteurs grâce à des méthodes d'apprentissage supervisées (tel que les CRFs, cf. [1]). 3) Application des mesures de confiance estimées pour une tâche de recherche d'information.

Bibliographie : [1] J. Fayolle, F. Moreau, C. Raymond, G. Gravier, P. Gros, « CRF-based Combination of Contextual Features to Improve A Posteriori Word-level Confidence Measures », Interspeech 2010. [2] T. Chen, B. Chen, H. Wang, « On using entropy information to improve posterior probability-based confidence measures », ISCSLP 2006. [3] H. Jiang, « Confidence measures for speech recognition: A sur- vey », Speech communication, vol. 45, no. 4, pp. 455–470, 2005. [4] F. Wessel, R. Schluter, K. Macherey, and H. Ney, « Confidence measures for large vocabulary continuous speech recognition », IEEE Transactions on Speech and Audio Processing, vol. 9, no. 3, pp. 288–298, 2001.

Nom : Bertrand Coüasnon, Yann Ricquebourg
Equipe : Intuidoc
Mail : couasnon@irisa.fr, yann.ricquebourg@irisa.fr
Lien :
Contact : Bertrand Coüasnon, couasnon@irisa.fr Yann Ricquebourg, yann.ricquebourg@irisa.fr

Titre : Étude et évaluation d’un système (de type neuronal récursif) pour la reconnaissance d’écriture manuscrite
Mots cles : Analyse d’images de documents, apprentissage, réseaux de neurones (NN), modèles de Markov cachés (HMM), séparateurs à vaste marge (SVM).

Description :
Cadre applicatif : Reconnaissance de texte manuscrit dans des documents variés

L'équipe de recherche Imadoc de l'Irisa ( http://www.irisa.fr/imadoc ) travaille notamment sur la reconnaissance du contenu et de la structure de documents anciens, manuscrits ou dégradés (partitions musicales, registres d'archives, journaux, courriers manuscrits, schémas électriques...). Dans ce contexte, les travaux de l'équipe ont abouti à des chaînes de traitement complètes, reposant sur une reconnaissance de la structure des documents [décrite par l’introduction de grammaires bidimensionnelles permettant d'exprimer la connaissance sous forme d'une description visuelle] reposant sur des modules de reconnaissance d’éléments de base (un filtrage de Kalman pour reconnaître les lignes, et classifieurs par apprentissage d’écriture pour le texte actuellement hybrides HMM+SVM avec des possibilités de rejet [Guichard2010]).

D’autres travaux mènent à une nouvelle piste d’intérêt pour l’équipe, d’un principe différent et très performant concernant le module de classification de texte manuscrit [Graves2009]. Il propose une amélioration notoire des réseaux de neurones reposant sur un fonctionnement récursif. L’objectif de l’étude serait d’étudier en profondeur cette approche pour la mettre en compétition avec le savoir-faire d’équipe et le cas échéant hybrider notre système avec les apports de ce type de classifieur. De plus, actuellement cette approche alternative est incapable de rejet (c-à-d de refuser de reconnaître une forme jamais apprise plutôt que de répondre une erreur). La suite de l’étude se pencherait sur l’adjonction d’une méthode de rejet dans ce système concurrent en s’inspirant des méthodes existant dans nos systèmes.

Bibliographie :

L. Guichard, A. Toselli et B. Coüasnon, Handwritten word verification by SVM-based hypotheses rescoring and multiple thresholds rejection, IFCHR, 2010

Nom : BUCHE Cédric
Equipe : ENIB/CERV
Mail : buche@enib.fr
Lien : https://info.enstb.org/enseignement/mri/2011_2012/Sujets_de_stages_proposes_sur_Brest/sujet_master_buche_2011.pdf
Contact : Cédric Buche (buche@enib.fr)

Titre : Modélisation de scénarios pédagogiques pour les environnements de réalité virtuelle d'apprentissage humain
Mots cles :

Description : Ces travaux ont pour contexte la conception d'activités pédagogiques se déroulant en environnement de réalité virtuelle pour l'apprentissage humain (EVAH).
Description détaillée sur le lien.

Bibliographie : Marion N. 2010
Modélisation de scénarios pédagogiques pour les environnements de réalité virtuelle d'apprentissage humain. Thèse de doctorat de l'Université Européenne de Bretagne .

Marion N, Querrec R et Chevaillier P. 2009
Integrating knowledge from virtual reality environments to learning scenario models. A meta-modeling approach. International conference of Computer Supported Education. Lisboa. pp. 254-259.

Chevaillier, P., Querrec, R., et Septseault, C. 2009
VEHA : un méta-modèle d’environnement virtuel informé et structuré. Revue des Sciences et Technologies de l’Information, série Techniques et Sciences Informatiques (RTSI – TSI) 28(6-7) :715-740.

Chou, C-Y., Chan, T-W., et Lin, C-J. 2003.
Redefining the learning companion: the past, present, and future of educational agents. Computers & Education 40(3):255- 269. Guéraud, V., et Cagnat, J-M. 2006.
Automatic semantic activity monitoring of distance learners guided by pedagogical scenarios. Dans Innovative approaches for Learning and Knowledge Sharing 476-481. Springer.

Henri, F., Compte, C., et Charlier, B. 2007.
La scénarisation pédagogique dans tous ses débats. Revue internationale des technologies en pédagogie universitaire 4(2) :14-24.

Koper, R. 2001.
Modeling units of study from a pedagogical perspective. Educational Technology Expertise Centre, Open University of the Netherlands,First Draft.

Koper, R., Olivier, B., et Anderson, T. 2003.
IMS Learning Design Information Model. IMS Global Learning Consortium.

Murray, T. 2003.
An overview of intelligent tutoring system authoring tools. Authoring Tools for advanced technology learning environments 491-544. Springer

Payr, S. 2003.
The virtual university’s faculty : An overview of educational agents. Applied Artificial Intelligence 17(1):1-19

Pernin, J-P. 1996.
Un modèle opérationnel de conception de simulations pédagogiques. Thèse de Doctorat, Université Joseph Fourier-Grenoble 1

Nom : Chevaillier Pierre
Equipe : Lab-Sticc - IHSEV (CERV)
Mail : pierre.chevaillier@enib.fr
Lien : http://www.enib.fr/~chevaill/doc/sujetMasterInfo_11-12_chevaillier.pdf
Contact : Pierre Chevaillier CERV - Centre Européen de Réalité VIrtuelle 20280 Plouzané Tel.: 02 98 05 89 39 chevaillier@enib.fr

Titre : Gestion de la prise de parole dans un collectif mixte d’humains réels et virtuels
Mots cles : collaborative virtual environment, Human behavior Simulation, embodied conversational agent, dialogue management, turn-taking

Description : = Contexte = Ce travail s’inscrit dans le cadre du projet ANR « Corvette » dont l’objectif général est le développement d’Environnements de réalité Virtuelle pour l’Apprentissage Humain (EVAH) pour l’apprentissage du travail collaboratif. L’enjeu est donc de permettre à des « humains réels » (les apprenants) de réaliser, dans un environnement virtuel, une tâche en collaboration avec des humains virtuels. L’objet d’étude est donc un collectif mixte d’humains (agents « naturels ») et d’agents artificiels qui doivent réaliser collectivement une tâche, au moins partiellement prescrite. Pour cela ces agents doivent coordonner leur activité et donc échanger verbalement des informations. D ‘un point de vue scientifique, l’enjeu général est de concevoir une architecture d’agent artificiel capable de supporter une interaction naturelle avec des utilisateurs. Cela suppose, entre autres, de s’intéresser aux comportements conversationnels, verbaux et non verbaux, de ces agents humanoïdes. Ces travaux s’inscrivent au croisement de l’intelligence artificielle et de la réalité virtuelle. = Sujet = La simulation du comportement des agents conversationnels (ici les « humains virtuels ») soulève la question du contrôle de la prise de parole. On attend d’un agent conversationnel qu’il respecte les règles suivantes : - il ne parle que s’il a quelque chose d’intéressant à dire (pour les autres agents) ; - il parle lorsqu’on lui demande de le faire ; - il ne parle pas en même temps qu’un autre ; - il évite les trop longs silences ; - il ne garde pas la parole pour toujours. La naturalité de cette gestion de la prise de parole est un élément important de la qualité de l’interaction avec un utilisateur (ter Maat et al. 2010 ; Yuasa & Mukawa 2011) L’agent doit prendre une décision en fonction de ses propres buts, mais aussi de son environnement social. Il est confronté au choix de dire quelque chose, de se taire, ou de demander à un autre de parler. L’agent prend cette décision alors qu’il n’est pas sûr que le locuteur actuel a fini, ou va finir, de parler. Pour cela, l’agent peut utiliser un certain nombre d’indices, verbaux et non verbaux. Il peut aussi utiliser ses connaissances sur le contexte social et sur l’activité en cours. Différents auteurs ont modélisé la gestion du tour de parole (turn-taking) dans des interactions entre deux personnes ou entre un agent artificiel et un utilisateur, c’est-à-dire en face à face. Bon nombre d’approches reposent sur la modélisation du tour de parole sous la forme de machines à états non déterministes, ou de modèles de Markov partiellement observables (POMDP). La situation est plus complexe lorsque le nombre d’agent est supérieur, ce qui se traduit par une augmentation du nombre d’états et de fonctions d’utilité. Notamment l’agent auquel s’adresse l’utilisateur peut être désigné de manière ambiguë. Cependant, le contexte social dans lequel la conversation a lieu enrichit les connaissances mobilisables par l’agent pour prendre sa décision (cf. Sierhuis et al., 2009, pour la question de la prise en compte de l’environnement social). L’objectif du stage est d’étendre les modèles existants au contexte multi-partis en tenant compte des informations provenant du contexte social et des relations spatiales entre les agents. Le modèle proposé sera testé en l’implémentant dans la plate-forme Mascaret (Chevaillier et al. 2011). Ce prototype devra montrer en quoi le modèle proposé améliore la naturalité de l’interaction avec les personnages dans l’environnement virtuel « Brest Coz », (Barange et al. 2011) et mettre en évidence l’intérêt de la solution pour le projet Corvette. = Etude bibliographique = Elle portera sur la modélisation de la dynamique de la prise de parole (turn-taking) pour les agents conversationnels animés. L’étude partira des travaux suivants. - Les théories sur le comportement de gestion du tour de parole chez les humains, notamment le modèle SSJ, Sachs et al. (1974). - Les modèles de contrôle du tour de parole utilisant des machines à états, notamment ceux de Kronlig (2006), Yuasa et al. (2009) et Raux & Eskenazi (2009). La synthèse devra mettre en évidence les propriétés de ces modèles. Elle permettra d’identifier les verrous à leur application au contrôle du comportement d’humains virtuels dans un contexte collaboratif, tel que celui du projet Corvette.

Bibliographie : Kronlid, F. (2006) Turn Taking for Artificial Conversational Agents, Proceedings of the Tenth International Workshop Cooperative Information Agents, CIA'06, Lecture Notes in Computer Science, 4149, 81-95 ter Maat M., Truong K. & Heylen D., (2010) How Turn-Taking Strategies Influence Users' Impressions of an Agent Intelligent Virtual Agents, Lecture Notes in Computer Sciences, 6356, 441-453 Raux A. & Eskenazi M. (2009) A Finite-State Turn-Taking Model for Spoken Dialog Systems Human Language Technologies, Proceedings of the 2009 Annual Conference of the North American Chapter of the ACL, Association for Computational Linguistics, 629-637. Sacks H., Schegloff E.A.,& Jefferson G. (1974) A simplest systematics for the organization of turn-taking for conversation, Language, 50, 696-735. Yuasa M., & Mukawa N. (2011) Building of Turn-Taking Avatars that Express Utterance Attitudes Universal Access in Human-Computer Interaction. Applications and Services, Lecture Notes in Computer Science, 6768, 101-107 Yuasa, M.; Tokunaga, H. & Mukawa, (2009) Autonomous Turn-Taking Agent System Based on Behavior Model, Human-Computer Interaction. Ambient, Ubiquitous and Intelligent Interaction, 5612, 368-373

Nom : Gaubert Laurent
Equipe : CERV - Labsticc
Mail : gaubert@enib.fr
Lien : http://www.enib.fr/~Gaubert/sujet_master_ISTIB.odt
Contact :

Titre : ISTIB
Mots cles : Biologie à haut débit, Algèbre linéaire, Algorihmes de Clustering, Algorithmes distribués.

Description : Le sujet de stage repose sur l'analyse de données issues de la biologie à haut débit (des séries temporelles issues de puces à ADN). Ce type de séries temporelles peut porter sur plusieurs millions de gènes, c'est pourquoi il est vital, afin de mener une étude exhaustive, de considérer des solutions distribuées (grid computing). Une technique (appelée rétroprojection, basée sur la notion de solution au sens des moindres carrés et mise en œuvre à travers le pseudo-inverse d'une application liénaire) élaborée au CERV permet de détecter, d'une expérience à une autre (i.e. d'une série temporelle à une autre) les groupes de gènes issus de mêmes profils de référence (ou, pour le moins, de classer ces groupes de gènes entre eux). Ce qui permet par exemple de détecter les gènes en interaction forte. Techniquement, il s'agit de calculer un indice de cohérence sur chaque groupe de gène possible, puis de classer ces groupes pour en déduire des clusters de gènes fortement liés. Naturellement, la taille des données empêche de mettre brutalement en œuvre cette stratégie. Il faudra donc élaborer une stratégie de recherche distribuée et en profondeur dans le treillis des sous-ensembles de gènes. La contrainte la plus délicate provient du fait que les indices de cohérences de ces groupes de gènes n'ont, à priori, aucune valeur intrinsèque, ce n'est qu'en les comparant à ceux d'autres groupes de gènes que l'on peut déterminer la force des interactions entre ces gènes, et donc décider de les conserver comme clusters. Cela suppose donc un minimum de communication entre les les clients chargés de mener les calculs, ainsi qu'une extrapolation des statistiques des indices de cohérences à partir de ceux déjà calculés. L'étudiant devra donc manipuler les outils de base de l'algèbre linéaire, éventuellement s'attaquer à quelques preuves formelles concernant la pertinence de certaines heuristiques. Il lui faudra aussi être capable d'imaginer et coder cet algorithme de clustering distribué (en langage C, sachant qu'un prototype de calcul des indices, distribué, est déjà écrit).

Bibliographie : Afin de cerner les enjeux de notre problématique au sein du CERV, on commencera par étudier le manifeste du CERV : 1) http://www.cerv.fr/fr/docs/cerv_fr.pdf En introduction à la problématique spécifique, le chapitre III de la thèse suivante sera utile : 2) Auto-organisation et émergence dans les systèmes couplés, individuation de données issues de systèmes biologiques couplés. Thèse de doctorat Laurent Gaubert. Université de Bretagne Occidentale, 2007. Le document détaillant le projet ISTIB permettra d'en comprendre les enjeux 3) ISTIB (Individuation de Séries Temporelles Issues de Biopuces) Puis, afin de se familliariser avec les techniques classiques employées dans l'analyse des séries temporelles issues de puces à ADN : 4) Gene clustering methods for time series microarray data Laney Kuenzel , Biochemistry (218) 2010 5) A Survey of Computational Methods Used in Microarray Data Interpretation Brian Tjaden and Jacques Cohen Applied Mycology and Biotechnology Volume 6. Bioinformatics 2006 6) Microarray cluster analysis and applications (review) Abraham B. Korol En ce qui concerne les heuristiques de calculs et méthodes de clustering, on devra s'intéresser aux articles suivants : 7) A Comprehensive Overview of Basic Clustering Algorithms , Glenn Fung , 2001 8) Introduction to partitioning-based clustering methods with a robust example Sami Ayramo, Tommi Karkkainen 9) Bi-clustering des données de biopuces par les arbres pondérés de plus long préﬁxe. Tran Trang, Nguyen Cam Chi, Hoang Ngoc Minh Et enfin, pour guider la démarche de distribution des calculs, le livre suivant sera plus qu'utile : 10) Introduction to High-Performance Scientific Computing Victor Eijkhout , Edmond Chow, Robert van de Geijn

Nom : Anceaume Emmanuelle
Equipe : Cider (+ Cidre)
Mail : emmanuelle.anceaume@irisa.fr
Lien :
Contact : Emmanuelle Anceaume IRISA, Campus de Beaulieu 35042 Rennes Cedex RENNES France phone: +33 02 99 84 75 96 fax: +33 02 99 84 71 71 email:emmanuelle.anceaume@irisa.fr ou Nicolas Prigent / Valérie Viet Triem Tong Supelec prénom.nom@supelec.fr avenue de la Boulaie Cesson Sévigné

Titre : Supporting Anonymity in Reputation Systems
Mots cles : reputation mechanism, anonymity

Description : In recent years, reputation systems have emerged as a way to reduce the risk entailed in interactions among strangers in applications over Internet. Such systems collect and aggregate feedback about the past behavior of participants in electronic transactions, so as to derive reputation scores that should help in predicting future transaction behavior. Clearly, without such mechanisms the temptation to act abusively for immediate gain can be stronger than the one of cooperating. The efficiency and accuracy of a reputation system depends on nodes willingness to participate. However there is a trade-off between collecting feedback and the privacy of these feedback. Nodes providing feedback would like to be sure that the opinion they provide cannot be abused by malicious nodes (collectively or not) in a way that can affect them in the future (e.g., through retaliation). Anonymous feedback should encourage truthfulness by guaranteeing secrecy and freedom. Note however that this freedom might also be exploited by malicious nodes to either discredit the reputation of a target node to lately benefit from it (bad mouthing) or to advertise the quality of service of a target node more than its real value to increase its reputation (ballot stuffing). In this context, the main objective of this internship is to extend reputation mechanisms so that users anonymity is guaranteed. In particular, the combination of anonymity and complementary mechanisms promoting truthful feedback (e.g., tit-for-tat mechanisms) should be studied as they should make reputation mechanisms more robust than ever.

Bibliographie : Supporting privacy in Decentralized additive reputation systems, E. Pavlov, J. Rosenschein, and Z. Topol, iTrust 2004 M. Feldman, K. Laio and J. Chuang. Robust incentive techniques for peer-to-peer networks. 5th ACM Conference on Electronic Commerce, 2004. E. Anceaume and A. Ravoaja. Incentive-based robust reputation mechanism for Peer-to-peer services. International Conference on Principles of Distributed Systems, 2006.

Nom : Tronel Frédéric
Equipe : CIDRe (équipe commune INRIA/Supélec)
Mail : frederic.tronel@supelec.fr
Lien : http://www.rennes.supelec.fr/blare
Contact : Pour de plus amples informations, vous pouvez contacter: Frédéric Tronel ou Valérie Viet Triem Tong

Titre : Expérimentations en détection d'intrusion par suivi de flux d'information.
Mots cles : Détection d'intrusion, suivi de flux d'information, politiques de sécurité,

Description : L'équipe CIDRe (équipe commune INRIA/SUPELEC) s'attache depuis plusieurs années à définir une méthode de détection d'intrusion par suivi de flux d'information. Dans cet optique un outil de détection d'intrusion nommé BLARE (http://www.rennes.supelec.fr/blare) a été développé. Celui-ci observe les flux d'information élémentaires qui surviennent au sein d'un système d'exploitation (Linux) et détecte (en temps réel) ceux parmi ces flux qui ne sont pas autorisés selon une politique de sécurité donnée. Plus concrètement, Blare se présente sous la forme d'une série de patches pour le noyau Linux reposant sur l'utilisation d'un framework de sécurité appelé LSM (Linux Security Modules). Ce framework sert à développer des extensions de sécurité pour le noyau et est principalement utilisé pour implémenter du contrôle d'accès obligatoire (MAC, Mandatory Access Control). L'avantage de ce framework est qu'il introduit un ensemble de hooks dans le code du noyau à des endroits stratégiques en terme de contrôle d'accès. Ceci nous permet de le détourner de sa fonction première en l'utilisant pour suivre les flux d'information engendrés par les divers appels systèmes qu'un processus peut invoquer (par exemple read/write/fork/execve ...). Par ailleurs, Blare utilise les attributs étendus offerts par les principaux systèmes de fichiers afin de stocker de manière persistante les informations contenus dans certains fichiers clés identifiés par la politique de sécurité. Le sujet du stage proposé consiste à comparer l'approche (et l'outil) Blare avec d'autres outils principalement axés sur le contrôle d'accès obligatoire tels que AppArmor ou encore SELinux qui eux aussi reposent sur le framework LSM. Pour cela le stagiaire devra: - définir des règles de transformation entre politiques (SELinux vers Blare, AppArmor vers Blare) - prouver (si possible) la correction des traduction proposés - les implémenter, - et développer une plate-forme d'expérimentation permettant de comparer la pertinence de la détection des différents approches pour un ou plusieurs scénarios d'attaques convenablement choisis.

Bibliographie : - Information Flow Control for Intrusion Detection derived from MAC Policy. Stephane Geller; Christophe Hauser; Frédéric Tronel; Valérie Viet Triem Tong. ICC 2011, IEEE International Conference on Communications ICC2011

Nom : Gambs Sébastien
Equipe : CIDre
Mail : sgambs@irisa.fr
Lien :
Contact : Superviseurs : Sébastien Gambs (Université de Rennes 1 - INRIA), Olivier Heen (Technicolor Rennes).

Titre : Privacy and security analysis of geosocial networks
Mots cles : Privacy, geolocated applications, social networks.

Description : The recent development of social networks built around (or integrating) the concept of geolocation (such as Foursquare, Gowalla or more recently Facebook Places) has lead to an ever-growing collection and production of geolocated data, which are often of public or semi-public nature and thus are easily accessible. When this geolocated data is combined with free geographical tools, such as YahooMaps or Google Earth, it can lead to important privacy breaches for the individuals whose movements are recorded in these geolocated datasets. For instance, the spatiotemporal data of an individual can be used to infer the location of his home and workplace, to trace his movements and habits, to learn information about his center of interests or even to detect a change from his usual behaviour. The goal of this master internship will be to: 1. Examine existing geosocial networks by conducting an in-depth analysis of the privacy and security risks incurred by users of these networks. For instance, the student will study the actual mechanisms implemented in these networks in the light of fundamental privacy principles (minimization, sovereignty, transparency, right to oblivion, …) but also with respect to the criteria such as the privacy policy, the personalization of the access control, the terms of use, … 2. Propose new protection mechanisms to enhance the privacy of users of geosocial networks. For instance, this can be done by adapting existing techniques from ``standard'' social networks to the geolocated context or by developing novel techniques, such as sanitization mechanisms for spatio-temporal data.

Bibliographie : [BS03] A. R. Beresford and F. Stajano, “Location privacy in pervasive computing”, IEEE Pervasive Computing 3(1): 46-55, 2003. [GHP11] S. Gambs, M.O. Killijian and M. Nunez del Prado, “A comparative privacy analysis of geosocial networks", to appear in SPRINGL 2011. [GKN11] S. Gambs, M.O. Killijian and M. Nunez del Prado, “Show me how you move and I will tell you who you are", Transactions on Data Privacy 4(2): 103-126, 2011. [PH08] A. Pfitzmann and M. Hansen, “Anonymity, unlinkability, undetectability, unobservability, pseudonymity, and identity management a consolidated proposal for terminology”, Available at http://dud.inf.tu-dresden.de/Anon Terminology.shtml, February 2008 (version 0.31).

Nom : Bouabdallah Ahmed
Equipe : Département RSM, Telecom Bretagne (site de Rennes)
Mail : ahmed.bouabdallah@telecom-bretagne.eu
Lien :
Contact : Ahmed Bouabdallah : ahmed.bouabdallah@telecom-bretagne.eu

Titre : Analyse des attaques par dépendances temporelles, sur les algorithmes de chiffrement
Mots cles : sécurité, chiffrement, attaques par timing, approche expérimentale

Description : Problématique : Dans le domaine de l’implémentation de la cryptographie, la principale menace réside dans l’analyse par canaux auxiliaires. En effet, même si un algorithme est prouvé comme sûr contre l’analyse logique, son implémentation sur un support physique peut laisser filtrer des empreintes de son activité liées aux données qu’il manipule, les dites-données étant dépendantes de données confidentielles.
Ainsi, dans le domaine de la cryptologie logicielle, l’analyse des dépendances temporelles au cours d’un calcul, est un chemin d’attaque pertinent. Elle est basée sur le simple principe que le temps d’un calcul dépend des données intermédiaires manipulées. La faisabilité de ce type d’attaque a été imaginée par Kocher en 1996 via des attaques sur le RSA [1]. Depuis, ces attaques ont été mise en œuvre dans différent contextes opérationnels:
- Locaux (oracle de chiffrement pour du chiffrement logiciel) [2]
- Réseaux (étude du temps de réponse à un challenge : remote attacks) [3]
La principale restriction pour réaliser concrètement ce type d’attaque est liée à l’obtention d’une mesure de temps suffisamment précise. Celle-ci est étroitement liée aux caractéristiques matérielles et logicielles de la plate-forme d’exécution.
Actuellement, il est possible de coder un algorithme s’exécutant en temps constant. Ce type d’implémentions est censé être nativement protégé contre l’analyse du temps de calcul. Cependant, les techniques d’optimisation matérielle comme le branchement conditionnel ou les accès aux caches continuent de perturber l’exécution de l’algorithme. L’information temps de calcul qui en découle, est plus difficile à analyser mais potentiellement plus riche. Elle est par ailleurs très difficile à contrôler par le concepteur.

Objectifs : Il s'agira de sélectionner une famille d'attaques et de les reproduire expérimentalement. Puis d'évaluer le seuil de résistance des algorithmes sélectionnés.

Étapes principales : Le projet est structuré en 3 étapes principales :
- Faire le point sur les attaques en dépendances temporelles publiées dans la littérature et en proposer une classification prenant en compte les aspects identifiés comme essentiels (algorithmes de chiffrement ciblés, optimisations algorithmiques, librairies logicielles utilisées, environnements logiciel et matériel utilisés, optimisations logicielles et matérielles, contre-mesures connues, hypothèses spécifiques …).
- Identifier les plateformes matérielles offrant nativement des primitives permettant à un utilisateur ou à un administrateur d’accéder aux informations concernant les temps de calcul. Evaluer la fiabilité et la précision de ces commandes ainsi que les droits d’accès et l’impact dû aux optimisations matérielles dans la sensibilité et la stabilité des informations recueillies.
- mettre au point un environnement matériel et logiciel permettant de reproduire les attaques connues, et d’évaluer ainsi en environnement totalement maîtrisé, le seuil de résistance des différents algorithmes de chiffrement. L’objectif serait ainsi de disposer d’une méthode fiable permettant de qualifier la dépendance statistique d’une opération sensible, mais également le bruit de mesure cryptographique dû aux autres opérations.

Bibliographie : [1] P. C. Kocher, “Timing attacks on implementations of diffie-hellman, rsa, dss, and other systems,” in Proceedings of the 16th Annual International Cryptology Conference on Advances in Cryptology, CRYPTO ’96, London, UK - Springer-Verlag, 1996, pp. 104–113.

[2] W. Schindler, “A timing attack against rsa with the chinese remainder theorem,” in Proceedings of the Second International Workshop on Cryptographic Hardware and Embedded Systems, CHES ’00. London, UK - Springer-Verlag, 2000, pp. 109–124.

[3] D. Brumley and D. Boneh, “Remote timing attacks are practical,” in Proceedings of the 12th USENIX Security Symposium, Washington, D.C., USA, aug 2004, pp. 1–14.

Titre : Analyse des attaques par dépendances temporelles, sur les algorithmes de chiffrement
Mots cles : sécurité, chiffrement, attaques par timing, approche expérimentale

Nom : Raulet Mickaël
Equipe : IETR image / INSA Rennes
Mail : mickael.raulet@insa-rennes.fr
Lien : http://orcc.sf.net
Contact : Mickaël Raulet, (+33)2 23 23 82 83, Mickael.raulet@insa-rennes.fr

Titre : Network analysis of dataflow programs
Mots cles : Model Checking, Satisfiability Modulo Theories, Abstract interpretation

Description : The lab is currently involved in the standardization process of MPEG Reconfigurable Video Coding. MPEG RVC has been chosen to describe new decoders standardized within MPEG with a new paradigm. The main idea is to describe new decoders as block diagrams where dataflow programing is used with CAL as the domain specific language. The dataflow paradigm for parallel computing has a long history from the early 1970s (Dennis and Kahn). A dataflow program is conceptually represented as a directed graph where nodes (called actors) represent computational units, while edges represent communication channels. These channels are used to send packets of data, called tokens. A major benefit of the dataflow model is that it a system specified using this model can easily be distributed over different processing elements, a feature that is particularly interesting in the context of multi-core platforms. The CAL language standardized within MPEG supports the dataflow process network model (DPN), the most general class of dataflow-models of computations, and is therefore expressive enough to specify a wide range of programs that follow a variety of dataflow models (from DPN to HSDF), trading between expressiveness (the set of programs that can be modeled) and analyzability. CAL does not overspecified the scheduling so program analysis can be done on the language to extract information for better scheduling techniques. The goal of the training period is to improve at the network level techniques described in [1,2] which operates at the actor level. Different techniques are currently explored to analyse the dataflow programs from Model Checking, SMT solvers, Abstract interpretation. It has been currently done at the actor level, no work has been done at the network level. Once the analysis done, the work will be next integrated in the reconfigurable video decoder [3] based on LLVM.

Bibliographie : [1] Wipliez M., Raulet M., "Classification and transformation of dynamic dataflow programs" in Design and Architectures for Signal and Image Processing (DASIP), 2010 Conference on - Design and Architectures for Signal and Image Processing (DASIP), 2010 Conference on, Royaume-Uni (2010) - http://hal.archives-ouvertes.fr/hal-00565290/fr/ [2] Matthieu Wipliez, Mickaël Raulet, "Classification of Dataflow Actors with Satisfiability and Abstract Interpretation", in International Journal of Embedded and Real-Time Communication Systems (IJERTCS), to be published [3] Gorin J., Wipliez M., Préteux F., Raulet M., "LLVM-based and scalable MPEG-RVC decoder" in Journal of Real Time Image Processing 6, 1 (2011) 59-70 - http://hal.archives-ouvertes.fr/hal-00560026/fr/

Nom : Cousin Bernard
Equipe : AtNet
Mail : Bernard.Cousin@irisa.fr
Lien : www.irisa.fr/atnet
Contact : Bernard Cousin, 02.99.84.73.33 à l'Irisa Emmanuel Mory, Orange Labs

Titre : Méthodes d’adaptation de contenus vidéo pour leur distribution
Mots cles : Distribution video, CDN, encodage, transcodage, codage hiérarchique, protocole de diffusion de contenu multimedia

Description : Obtenir un média adapté au service de distribution de la vidéo a toujours été un challenge, autant pour les fournisseurs de contenu que pour les opérateurs de services de distribution de contenu. En effet les services de stockage de contenu et les services de diffusion de ces contenus présentent des caractéristiques spécifiques qui peuvent avoir une influence contradictoire sur la qualité du service globale de distribution. Par exemple un encodage avec un très fort taux de compression, s'il peut fortement diminuer le volume de stockage, peut tout autant amplifier les défauts perceptibles par le téléspectateur, lorsque ces défauts sont induits par les corruptions générées par le réseau de transport.
Ces dernières années, différentes solutions ont été étudiées, que ce soit d'une part la technique CDN ("Content Delivery Network"), d'autre part la mise à disposition du contenu vidéo suivant plusieurs encodages présentant différents niveaux de qualité, le développement de codages hiérarchiques ou les techniques de transcodage.
L’évolution actuelle, en termes de volume de stockage, de puissance de calcul ou de débit d’accès aux réseaux rend difficile le choix de la meilleure méthode d’adaptation du contenus vidéo. C'est ce que nous vous proposons d'étudier.
La recherche s’effectuera en deux phases :
- La compréhension des différentes méthodes d’adaptation de contenu, et leurs comparaisons argumentées en termes d’avantages et de contraintes d’utilisation.
- La comparaison objective de ces méthodes permettant de définir un cadre d’utilisation pour chacune d'entre elles.

Bibliographie : [1 Hui Liu; Ye-kui Wang; Houqiang Li. A comparison between SVC and transcoding. IEEE Transactions on Consumer Electronics, August 2008.
[2] Seong Hwan Jang. An adaptive non-linear motion vector resampling algorithm for down-scaling video transcoding. International Conference on Multimedia and Expo, 2003.
[3] Xiaobo Zhou; Cheng-Zhong Xu. Optimal video replication and placement on a cluster of video-on-demand servers. International Conference on Parallel Processing, 2002.
[4] Lefol, D.; Bull, D.; Canagarajah, N.; Performance evaluation of transcoding algorithms for H.264. IEEE Transactions on Consumer Electronics, Feb. 2006.

Nom : Valérie Gouranton, Bruno Arnaldi
Equipe : VR4i
Mail : Valerie.Gouranton@irisa.fr
Lien :
Contact : Valerie.Gouranton@irisa.fr

Titre : Comportements et contrôle d'un humain virtuel multi-modèle en situation de maintenance dans un environnement industriel
Mots cles : collaboration, intercation, réalité virtuelle

Description : Le projet ANR CORVETTE a pour objectif de proposer un ensemble d’innovations scientifiques dans le domaine de la formation industrielle collaborative (maintenance, procédures complexes, sécurité, diagnostic, geste technique, …) exploitant les technologies de réalité virtuelle. Ce projet est aussi fortement ancré vers les préoccupations industrielles et applicatives. En particulier nous nous appuyons sur : une plate-forme industrielle d’intégration proposée par un des partenaires (GVT : Generic Virtual Training) ; des scénarios industriels dimensionnants, complètement spécifiés ; des utilisateurs externes (club d’utilisateurs industriels) qui, en proposant des scénarios et des contraintes, nous permettent de garantir la pertinence de nos solutions. Notre équipe de recherche est coordinatrice du projet et s'attache à la partie travail en équipe entre humain réel et humain virtuel pour du travail collaboratif dans un environnement virtuel possiblement physicalisé. Le projet prend en compte deux modèles d'humain virtuel très complémentaires. Le sujet de stage consiste à faire le lien entre une couche bas niveau de contrôle d'actions de l'humain virtuel et une couche de plus haut niveau représentant le processus de décision de l'humain virtuel. Cette couche intermédiaire contrôlera le comportement de l'humain virtuel à partir d'ordres reçus de la couche supérieure, via une interface unifiant les deux modèles de contrôle de l'humain virtuel pour arriver jusqu'aux contrôles de ses actions. Il sera nécessaire en fonction des situations et de divers paramètres de passer dynamiquement d'un modèle de contrôle cinétique à un modèle cinématique.

Bibliographie : [1] S. Gerbaud and B. Arnaldi. Scenario sharing in a collaborative virtual environment for training. In VRST '08 : Proceedings of the 2008 ACM symposium on Virtual reality software and technology, pages 109-112, Bordeaux, France, 2008. ACM. [2] S. Gerbaud, V. Gouranton, and B. Arnaldi. Adaptation in collaborative virtual environments for training. In Edutainment '09 : Proceedings of the 4th International Conference on E-Learning and Games, pages 316-327, Banff, Alberta, Canada, 2009. Springer-Verlag. [3] R. Kulpa, F. Multon, and B. Arnaldi. Morphology-independent representation of motions for interactive human-like animation. Computer Graphics Forum, Eurographics 2005 special issue, 24(3) (2005). [4] N. Mollet. De l'Objet-Relation au Construire en Faisant : Application à la spécification de scénarios de formation à la maintenance en Réalité Virtuelle. PhD thesis, INSA de Rennes, 2005. [5] Antoine Rennuit, Alain Micaelli, Claude Andriot, François Guillaume, Nicolas Chevassus, Damien Chablat, and Patrick Chedmail. Designing a virtual manikin animation framework aimed at virtual prototyping. CoRR, abs/0709.0680, 2007.

Nom : Bertrand Nathalie
Equipe : VerTeCs
Mail : nathalie.bertrand@inria.fr
Lien :
Contact :

Titre : Vérification paramétrée de protocoles sur des réseaux de capteurs sans fil.
Mots cles :

Description : Contexte : Les réseaux de capteurs sans fils sont un type de réseaux ad hoc possédant un grand nombre de noeuds chargés de mesurer puis transmettre des données. Ils peuvent par exemple être utilisés pour permettre l’arrosage automatisé d’un vignoble, ou détecter au plus tôt des incendies. Le déploiement de ces réseaux, c’est-à-dire le positionnement des noeuds ainsi que le réglage de paramètres dans les protocoles de communication des données sont cruciaux pour améliorer la performance globale du système. Le nombre de noeuds du réseau est un facteur déterminant puisqu’il affecte sensiblement les performances en augmentant les risques de collisions de messages.

Objectifs du stage : Dans ce stage, on s’intéressera à l’impact du nombre de noeuds sur les performances du réseau. Plus précisément, on se concentrera sur des protocoles simples utilisés dans les réseaux de capteurs sans fil au niveau de la couche MAC. Ces derniers incorporent à la fois des probabilités (par exemple le choix aléatoire d’un backoff lors d’une retransmission) et du temps (typiquement pour refléter un time-out après une émission). On peut donc naturellement modéliser le comportement de chaque noeud du réseau par un automate temporisé avec des probabilités. Au delà de la modélisation du réseau et du protocole, les objectifs du stage seront se mettre au point des techniques de vérification pour ces réseaux d’automates sans fixer a priori le nombre de noeuds. Ces algorithmes permettront de répondre à des questions du type : quel est le nombre maximal de noeuds pour que la latence moyenne soit inférieure à une valeur donnée ? quel est le taux de collision moyen en fonction du nombre de noeuds ? Le but sera donc de synthétiser des relations entre les différents paramètres du déploiement (nombre de noeuds, taille des slots, nombre maximal de retransmissions) et des métriques de performance (latence, taux de collision).

Bibliographie : Me contacter pour une bibliographie sur le sujet.

Nom : Derrien Steven
Equipe : Cairn
Mail : steven.derrien@irisa.fr
Lien :
Contact : Steven.Derrien@irisa.fr David.Cachera@irisa.fr

Titre : Analyse statique pour la compilation de programmes Mallab
Mots cles : compilation, modèle polyédrique, analyse statique

Description : Matlab est un langages orienté vers la manipulation de tableaux qui connaît un très grand succès pour la pour la mise en œuvre d'algorithmes de calcul numérique, mais aussi pour la spécification et le prototypage de chaînes de traitement de signal pour les télécommunications (4G/ LTE/etc.) et le traitement d'image numériques.

Si ce langage est très facile à appréhender, ses performances laissent à désirer, notamment parce que son exécution se fait au travers d'un interpréteur. De nombreux travaux de recherche se sont donc intéressés au problème de la compilation (et de la parallélisation automatique) de Matlab vers des langages plus efficaces tels C ou Fortran [5]. Ce problème s'avère très difficile à traiter en pratique, notamment à cause de l'absence de typage statique dans le langage. Or l'obtention de bonnes performance nécessite justement de connaître le type exact et la taille des objets manipulés (scalaire, vecteur, matrices) en tout point d'exécution du programme, en se basant sur des analyses statiques.

Il est possible d'inférer des informations de typage avec des techniques plus ou moins simples [4] lorsque ces types n'évoluent pas pendant des itérations de boucle. En revanche, lorsque par exemple la taille d'un tableau évolue de façon non linéaire à chaque itération, il est nécessaire de développer des analyses plus fines, pour d'une part connaître le nombre précis d'itérations dans un contexte où celles-ci peuvent être imbriquées, et d'autre part déterminer précisément l'évolution de cette taille. En combinant ces deux informations, il est alors possible d'obtenir des bornes suffisamment précises pour pouvoir être exploitées par un compilateur optimisant.

Le but de ce stage est donc de développer une technique d'analyse statique en combinant et étendant des approches existantes en parallélisation automatique [1] et en analyse de consommation de ressources [2], afin de fournir statiquement une prédiction fiable de la taille des objets Matlab.

Bibliographie : [1] C. Alias, A. Darte, P. Feautrier, L. Gonnord. Multi-dimensional Rankings, Program Termination, and Complexity Bounds of Flowchart Programs. In Proc. SAS'10, Sep 2010.

[2] E. Albert, P. Arenas, S. Genaim, G. Puebla. Closed-Form Upper Bounds in Static Cost Analysis. Journal of Automated Reasoning, Vol. 46, Num. 2, pages 161-203, 2011.

[3] Sumit Gulwani, Krishna Mehra, and Trishul Chilimbi. SPEED: Precise and Efficient Static Estimation of Program Computational Complexity . In Proc. POPL 2009.

[4] Pramod G. Joisha and Prithviraj Banerjee. An algebraic array shape inference system for MATLAB\®. ACM Trans. Program. Lang. Syst. 28, 5, September 2006

[5] Ashwin Prasad Jayvant Anantpur R. Govindarajan, Automatic Compilation of MATLAB Programs for Synergistic Execution on Heterogeneous Processors, In Proc. PLDI 2011

Nom : Duhaut Dominique
Equipe : Valoria -UBS
Mail : dominique.duhaut@univ-ubs.fr
Lien :
Contact : dominique.duhaut@univ-ubs.fr

Titre : Gestionnaire du monde pour un compagnon virtuel
Mots cles :

Description : Dans le cadre du projet ANR Robadom nous organisons une architecture logicielle permettant une programmation des capteurs et actionneurs (robot, pda, TV …) de l’environnement par un ensemble de personne afin d’accompagner des personne âgées dans leur vie quotidienne Les « interlocuteurs » : programmeurs des applications du système, médecine, famille, utilisateur … implémentent des scénarios pour réaliser un certain nombre d’actions dans l’environnement. Or en fonction du contexte, les services réclamés peuvent être : - non disponibles - contradictoires - non prioritaire … L’objectif de ce stage est d’étudier comment on peut construire un « gestionnaire du monde » qui ayant une connaissance de : l’état de l’environnement, du contexte, des candidats à l’exécution d’un service, arbitrera et ordonnera l’exécution des services.

Bibliographie :

Nom : David Mentré, Benoit Combemale, Benoit Baudry
Equipe : Mitsubishi Electric R&D + IRISA Triskell
Mail : d.mentre@fr.merce.mee.com
Lien :
Contact : David MENTRÉ (d.mentre@fr.merce.mee.com)

Titre : Gestion des exigences dirigée par la vérification formelle
Mots cles :

Description :
La construction de systèmes technologiques complexes comme les systèmes ferroviaires nécessitent la transformation d’une spécification informelle importante, plusieurs centaines de pages, en un système concret. Cette spécification regroupe des exigences réparties sur plusieurs domaines : sureté, performance, fonctionnalités, compatibilité avec les systèmes existants, etc. Afin de s’assurer que le système réalisé correspond bien au système attendu décrit par la spécification, un système de suivi des exigences, de la spécification initiale au système logiciel et matériel final est nécessaire. Ce système de suivi met en relation les exigences initiales avec les éléments du système qui concrétisent ces exigences, aux différents niveaux de conception du système (architecture, fonctionnalités, analyses préalables, code, analyses de performance…).

Par ailleurs, la correction du système réalisé est essentielle, non seulement du point de vu commercial (éviter les changements tardifs dans le cycle de vie du système qui ont un coût important) mais aussi et surtout du point de vu de la sureté de fonctionnement (tout accident ferroviaire peut entrainer des pertes humaines). À cet égard, les techniques de vérification formelle apportent une nette amélioration de la qualité en garantissant la vérification exhaustive de certaines propriétés, dans toutes les configurations possibles du système. Ces descriptions formelles peuvent toutefois être difficiles d’accès, en particulier pour les experts d’un domaine particulier (signalisation ferroviaire par exemple). Pour améliorer la lisibilité de ces descriptions, l’utilisation de formalismes semi-formels répandus comme SysML semblent offrir un compromis intéressant.

L’objectif de ce stage est d’explorer la mise en place d’un lien automatique et bi-directionnel entre des spécifications informelles (par définition non structurées, p.ex., décrites dans un document MS Word avec texte et graphiques) et leur structuration dans une ou plusieurs vues d’un modèle SysML. La structuration des exigences au sein de modèles devra être réalisée en vue d’être utilisée dans la suite du processus de développement, et en particulier pour les phases de validation et de vérification à l’aide de techniques tel que la Méthode B, le Model checking, etc. Les modèles SysML devront prendre en compte un maximum d’informations issues des exigences, et pourront être complété par des descriptions logiques (OCL), voire temporelles (LTL ou TOCL). Par ailleurs, le lien devra permettre de revenir à la spécification informelle des exigences à partir de leurs élicitations dans un modèle pour suivre les impacts des modifications ultérieures, pour établir des matrices de traçabilité en vue d’une certification, etc.

Ce stage devra aboutir à une approche innovante pour l’élicitation d’exigences au sein de modèles SysML et leurs traçabilités vis-à-vis des spécifications informelles initiales. Pour cela le candidat devra tout d’abord 2 /2 étudier SysML et proposer une utilisation du langage la plus adéquate en vue de traduire ensuite les modèles vers un outil de vérification formelle. Le candidat devra ensuite proposer une gestion de la traçabilité entre la spécification informelle et les modèles afin de pouvoir naviguer entre les deux. Ce stage fera l’objet d’une validation en concrétisant l’approche proposée dans un prototype montrant l’utilisation possible par un ingénieur.

Deux cas d’étude, un système jouet simple mais représentatif (système de contrôle centralisé de passage à niveau) et un système réel (spécification du système ETCS, European Train Control System), seront utilisés pour guider le travail et évaluer les capacités de l’approche et de l’outil.

Bibliographie :
• www.omgsysml.org/
• OCL : http://www.omg.org/spec/OCL/
• Adoption of SysML by a Railway Signaling Manufacturer, Alessio Ferrari, Alessandro Fantechi, Stefania Gnesi, Gianluca Magnani, Alessandro Felleca, RE 2011
• Régine Laleau, Farida Semmak, Abderrahman Matoussi, Dorian Petit, Ahmed Hammad, and Bruno Tatibouet. A first attempt to combine SysML requirements diagrams and B. Innovations in Systems and Software Engineering, 1-2(6):47-54, 2010.
• Farida Semmak, Christophe Gnaho, and Regine Laleau. Extended KAOS Method to Model Variability in Requirements. Communications in Computer and Information Science, 69:193-205, 2010.
• Rajwinder Kaur Panesar-Walawege, Mehrdad Sabetzadeh, Lionel Briand. “A Model-Driven Engineering Approach to Support the Verification of Compliance to Safety Standards”. 22nd IEEE International Symposium on Software Reliability Engineering (ISSRE'11), Hiroshima, Japan, Dec. 2011 (to appear)
• Nadzeya Kiyavitskaya, Nicola Zeni, Travis D. Breaux, Annie I. Antón, James R. Cordy, Luisa Mich, John Mylopoulos. Automating the Extraction of Rights and Obligations for Regulatory Compliance. In Proc.27th International Conference on Conceptual Modelling (ER'08), Barcelona, Spain, pp. 154-168, Oct. 2008
• Rauf, R., M. Antkiewicz, and K. Czarnecki, "Logical Structure Extraction from Software Requirements Documents", International Requirements Engineering Conference: IEEE, 09/2011.
• UML-B : http://wiki.event-b.org/index.php/UML-B
• ProR : http://pror.org/
• Résultats du projet IMOFIS : http://www.imofis.org
• Outil Topcased : http://www.topcased.org/
• Méthode B : Jean-François Monin, Introduction aux méthodes formelles, Chap. 6.3 « La méthode B »
• Event B : http://www.event-b.org/

Nom : Gibaud Bernard
Equipe : IRISA/VISAGES INSERM U746
Mail : bernard.gibaud@irisa.fr
Lien : https://www.irisa.fr/visages/_media/positions/stagemasterdbs2012bgi.pdf?id=positions%3Aindex&cache=cache
Contact : Bernard Gibaud, 02 23 23 45 90

Titre : Ontologie d’application pour l’annotation de données anatomiques et physiologiques dans la stimulation cérébrale profonde
Mots cles : modélisation conceptuelle, ontologies, bases de données

Description : Contexte et objectifs généraux : La stimulation cérébrale profonde (SCP) est une technique chirurgicale utilisée dans des pathologies comme la maladie de Parkinson. La stimulation de cibles comme le Noyau Sous-Thalamique a conduit à des succès spectaculaires, pouvant aller jusqu’à l’arrêt immédiat et complet des tremblements. Néanmoins, l’optimisation du choix du site précis de stimulation, la compréhension des mécanismes neuronaux de l’action de la SCP, et la compréhension de ses effets secondaires au niveau cognitif restent des objectifs importants au niveau scientifique et clinique. Dans ce contexte, le recueil précis et la thésaurisation dans une base de données des informations liées à la SCP est un outil important. Ceci concerne à la fois le geste chirurgical correspondant au placement des électrodes (localisation anatomique du site de stimulation, trajectoire d’accès à la cible), la stimulation elle-même (caractéristiques des signaux utilisés etc.) et les réponses du sujet sous la formes de scores obtenus au moyen de différents instruments (UPDRS III, scores neuropsychologiques). Un travail important a été réalisé sur ce sujet par le groupe de Pierre Jannin [1], en collaboration étroite avec le groupe du Pr Marc Vérin au CHU de Rennes. Le travail proposé dans le cadre de ce stage consiste à réaliser une modélisation ontologique de ces informations. La motivation est double : (1) fournir une représentation formelle d’une partie de la sémantique des informations recueillies pour faciliter le raisonnement sur ces données dans le cadre bien formalisé des logiques de description ; (2) permettre de faire en sorte que les données recueillies puissent être – le cas échéant - plus facilement partagées avec des données similaires issues de sites différents, grâce à des systèmes de médiation du type de celui développé dans le cadre de l’ANR NeuroLOG [2,3]. Le travail à réaliser est le suivant : - Délimiter le domaine à couvrir dans cette ontologie d’application, en partant des réalisations actuelles du groupe de Pierre Jannin, et le cas échéant en le complétant pour couvrir de nouveaux besoins ; - Faire un bilan précis des travaux de la littérature, notamment sur la représentation de plans de traitement, avec le souci de s’inscrire, lorsque c’est possible, dans une démarche réaliste [4] ; - Proposer une modélisation ontologique, s’inscrivant dans le cadre méthodologique mis en place dans le projet NeuroLOG, à savoir (1) une modélisation conceptuelle semi-formelle reposant sur la méthodologie OntoSpec [5] et l’ontologie fondationnelle DOLCE [6], complétée (2) par une implémentation en langage OWL ; dans toute la mesure du possible s’inscrire dans la réutilisation d’ontologies existantes, issues du projet NeuroLOG [7,8] (ontologie des Datasets, ontologie des Instruments) ou d’autres projets [9] (ontologie FMA) ; - Mettre en place des mappings permettant de constituer de façon automatisée des entrepôts sémantiques sur lesquels pourront être appliquées des requêtes sémantiques utilisant les connaissances représentées dans l’ontologie.

Bibliographie : 1. Lalys F, Haegelen C, Abadie A, Jannin P. Correlating Clinical Scores with Anatomical Electrodes Locations for Assessing Deep Brain Stimulation. Lecture Notes in Computer Science. IPCAI 2011, Jun 2011, Berlin, Germany. 6689, pp. 113-121 DOI : 10.1007/978-3-642-21504-9_11 2. Michel F, Gaignard A, Ahmad F, Barillot C, Batrancourt B, Dojat M, Gibaud B, Girard P, Godard D, Kassel G, Lingrand D, Malandain G, Montagnat J, Pélégrini-Issac M, Pennec X, Rojas Balderrama J, Wali B. Grid-wide neuroimaging data federation in the context of the NeuroLOG project, HealthGrid’10 (HG’10), Paris (France). Stud Health Technol Inform ; 159 :112-123, 2010. 3. Gibaud B, Kassel G, Dojat M, Batrancourt B, Michel F, Gaignard A, Montagnat J. NeuroLOG : Sharing neuroimaging data using an ontology-based federated approach. AMIA 2011 (accepted). 4. Smith B, Ceusters W. Ontological realism : a methodology for coordinated evolution of scientific ontologies. Applied ontology 20105(3-4) :139-188. 5. Kassel G. (2005). Integration of the DOLCE top-level ontology into the OntoSpec methodology. LaRIA Research Report 2005-08, 2005. Disponible à : http://hal.ccsd.cnrs.fr/ccsd-00012203. 6. Masolo C., Borgo S., Gangemi A., Guarino N., Oltramari A. and Schneider L. The WonderWeb Library of Foundational Ontologies and the DOLCE ontology. WonderWeb Deliverable D18, Final Report (vr. 1.0, 31-12-2003) 7. Temal L, Dojat M, Kassel G, Gibaud B. Towards an ontology for sharing medical images and regions of interest in neuroimaging. J Biomed Inform. 2008 Oct;41(5):766-78. Epub 2008 Mar 17. 8. Batrancourt B, Dojat M, Gibaud B, and Kassel G. A core ontology of instruments used for neurological, behavioral and cognitive assessments. In: A. Galton and R. Mizoguchi, eds., Proceedings of the Sixth International Conference on formal Ontology in Information Systems (FOIS 2010), IOS Press, Toronton (Ca), May 2010, 185-198, 2010. 9. Turner JA, Mejino JLV, Brinkley JF, Detwiler LT, Lee HJ, Martone ME, Rubin DL. Application of neuroanatomical ontologies for neuroimaging data annotation. Front. Neuroinformatics 2010 ; 4 :10.

Nom :
Equipe :
Mail :
Lien :
Contact :

Titre :
Mots cles :

Description :

Bibliographie :

Nom : PIQUET Laurence
Equipe : Responsable des stages
Mail : laurence.piquet@technicolor.com
Lien : http://www.technicolor.com
Contact : Merci d'adresser votre candidature à stage.rennes@technicolor.com en rappelant la référence du stage.

Titre : TRDF-R&I-CGI/ 3D Computer Graphics Imaging
Mots cles :

Description : •We offer several research internship opportunities in the field of 3D Computer Graphics & Imaging (CGI)targeting a variety of applications for 3D user interfaces, augmented reality, immersive communicationsand special effects(VFX) for movie productions such as: •Procedural building of 3D models, •Advanced rendering algorithms, •3D computer graphics adaptive streaming mechanisms, •Realistic animation techniques for virtual avatars, •Real-time rendering of 3D content, •Virtual reality system and interaction. •Internships aim at helping researchers identify new approaches, implement new algorithms, perform tests and benchmarks and contribute to the implementation of demos and prototypes. Profile: •Student in Master2and/or engineering school. •Inquiring mind, inventive, passionate about 3D Graphics. •Skills in building and rendering of 3D CGI. •Skills in prototypingapplications on PCor embeddedplatforms. •Fluent English.

Bibliographie :

Titre : TRDF-R&I-CVI/ Computer Vision
Mots cles :

Description : •We offer several research internship opportunities in the field of Computer Vision targeting a variety of applications for content analysis, metadata generation and image enhancements such as: •Object and face recognition, •Video content indexation (chaptering, ….) and metadata extraction, •Event detection in video sequences (violent scenes, …), •Event recognition in video sequences (same scene from different view points), •Large scale video database search and navigation. •Internships aim at helping researchers identify new approaches, implement new algorithms, perform tests and benchmarks and contribute to the implementation of demos and prototypes. Profile: •Student in master2and/or engineering school. •Inquiring mind, inventive, passionate about image technologies. •Skills in image processing, applied mathematics, computer vision. •Development skills: Matlab, C++. •Fluent English.

Bibliographie :

Titre : TRDF-R&I-DMK/ Data Mining & Knowledge Engineering
Mots cles :

Description : •We offer several research internship opportunities in the field of Data Mining & Knowledge Engineering targeting content analysis for metadata generation, new tools for navigationand social media analysisrelated to multimedia content. For instance: •Text classification, alignment, keywords extraction (movies scripts, news transcripts, mood/sentiment extraction from posts), •Multimodal segmentation (using visual, acoustic and text metadata for automatic TV Show structuring), •Knowledge representation and content discovery, •Model training from noisy sources (web pages and image repositories), •Interactive exploration of large content collection (metric embedding, clustering), •Data Mining on huge and poorly structured data, as being extracted from social web crawling, e.g. for unsupervised tagging/characterization of AV content. •Internships aim at helping researchers identify new approaches, implement new algorithms, perform tests and benchmarks and contribute to the implementation of demos and prototypes. Profile: •Student in Master2and/or engineering school. •Inquiring mind, inventive, passionate by algorithms and data mining. •Skills in at least one of the following fields: data analysis, machine learning, statistics. •Development skills: Matlab, C++ or scripting(e.g. Python). •Fluent English.

Bibliographie :

Titre : TRDF-R&I-HFA/ Human Factors
Mots cles :

Description : •We offer several research internship opportunities in the field of Human Factorstargeting applications about human perception understanding and modelingsuch as: •3D depth perception and visual fatigue understanding, •Human Visual System (HVS) modeling, •Saliency detection on video (visual and emotional), •User tests and analysis. •Internships aim at helping researchers identify new approaches, implement new algorithms, perform tests and benchmarks and contribute to the implementation of demos and prototypes. Profile: •Student in Master2and/or engineering school. •Inquiring mind, inventive, passionate about human factors and/or image processing technologies. •Skills in either Human Sciences, image/video processing, computer science or applied mathematics. •Development skills: Matlab, C++ maybe required depending on the topic. •Fluent English.

Bibliographie :

Titre : TRDF-R&I-IPR/ Image/Video Processing & Color Management
Mots cles :

Description : •We offer several internship opportunities in the field of Image/Video Processing & Color Management targeting applications for content creation, distribution and renderingsuch as: •3DTV stereo and multi-view capture technologies including depth sensing , •2D to 3D conversion with emphasis on segmentation and disparity estimation, •3DTV rendering solutions running on different platforms, •3D mesh-based modeling from multi-view video, •Future video coding formats (HDTV, 3DTV, HDR, Ultra-HD), •Color and tone mapping of wide gamut and high dynamic range images, •Color measurement, modeling and calibration of cameras and displays, •Color processing in cinematographic post-processing and visual effects. •Internships aim at helping researchers identify new approaches, implement new algorithms, perform tests and benchmarks and contribute to the implementation of demos and prototypes. Profile: •Student in Master2 and/orengineering school. •Inquiring mind, inventive, passionate about image processing technologies. •Expertise in at least one of the following fields:image/video processing, computer vision, signal processing, applied mathematics, color science, computer science. •Development skills: Matlab, C++ or GPU programming. •Fluent English.

Bibliographie :

Titre : TRDF-R&I-NWT/ Network & Web Technologies
Mots cles :

Description : •We offer several research internship opportunities in the field of Network & Web Technologiestargeting applications for content production and distribution. The following themes are addressed: •Combined broadband-broadcast networking techniques, •Multipath and gateway centric adaptive home video delivery, •Hybrid home network and radio resource management, •Distributed media storage, •3D computer graphics adaptive streaming mechanisms. •Internships aim at helping researchers identify new approaches, implement new algorithms, perform tests and benchmarks and contribute to the implementation of demos and prototypes. Profile: •Student in Master2and/or engineering school. •Inquiring mind, inventive, passionate about network and web technologies. •Skills in modeling and simulation. •Skills in prototypingapplications on PCor embedded platforms. •Fluent English.

Bibliographie :

Nom : Christie Marc
Equipe : MIMETIC
Mail : marc.christie@irisa.fr
Lien :
Contact : marc.christie@irisa.fr

Titre : An Efficient Visibility Model for Real-time Camera Control
Mots cles : Visibility Computation, Virtual Cinematography, Virtual Camera Control

Description : Camera control is a basic requirement for 3D computer graphics applications and in recent years a variety of techniques have been developed to automate camera control for tasks ranging from object inspection to assisted navigation [2]. In most applications the aim of a camera control system is to maintain informational and aesthetic views of scene elements, whilst at the same time freeing the user from having to exercise low-level control of the camera parameters. In theory, an intrinsic property of any camera control system is the ability to compute and reason about the visibility of target objects in dynamic environments. However, in contrast to shadow computation and occlusion culling, the issue of visibility in camera control has received relatively little attention [4]. Current real-time approaches to the computation of occlusion-free views of target objects (e.g. in computer games) rely almost exclusively on simple ray casting techniques. A few contributions report the use of hardware rendering possibilities to estimate target visibility [1,5] but suprisingly, no detailed comparison studies the impact of these techniques in terms of precision, computational cost and stability of the camera motion. Visibility computation in camera control actually encompasses two distinct components: (i) the ability to estimate the degree of visibility of a target for a given camera, and (ii) the ability to characterize areas of visibility so as to reason on the best move to avoid occlusion. The aim of this master internship is to first perform a detailed comparison of visibility computation techniques. After analysing both classical and critical key situations for camera control, the student will design a set of discriminant characteristics to compare techniques and implement both raycasting and hardware rendering-based techniques. From the detailed study, the student will then design new visibility estimation and visibility reasoning techniques for camera control. In particular the student will focus on: (i) improving the ways to better anticipate occlusion of key targets from a detailed study of the relative velocities of cameras, targets and occluders; (ii) improving the handling of sparse and temporal occlusions with complex-shaped targets; (iii) overall improving performances of visibility computation. The internship will take place in IRISA/INRIA Rennes research facilities. The student will build his contributions on existing tools and libraries developped in the MIMETIC research team [3] (http://www.irisa.fr/bunraku/GENS/mchristi/)

Bibliographie : [1] N. Halper, R. Helbing and T. Strothotte : A camera engine for computer games: Managing the trade-off between constraint satisfaction and frame coherence. In Proceedings of the Eurographics Conference (2001), vol. 20, Computer Graphics Forum. [2] M. Christie, P. Olivier, J.-M. Normand. Camera control in computer graphics. Computer Graphics Forum 27, 8, 2008. [3] M. Christie, J-M. Normand and P. Olivier, Occlusion-free Camera Control. Technical Report 6640, INRIA, Number 6640 - Feb 2008. [4] C. Lino, M. Christie, F. Lamarche, G. Schofield and P. Olivier. A Real-time Cinematography System for Virtual 3D Environments, In Proceedings of the 2010 ACM SIGGRAPH / Eurographics Symposium on Computer Animation, Madrid, Spain 2010. [5] T. Oskam, R. W. Sumner, N. Thuery and M. Gross. Visibility transition planning for dynamic camera control. In Proceedings of Symposium on Computer animation (SCA) (2009).

Nom : Cuppens Nora
Equipe : SFIIS du LabSTICC
Mail : nora.cuppens@telecom-bretagne.eu
Lien :
Contact : Abdullatif Shikfa, Bell Labs Research Security Research Department ; et Nora Cuppens-Boulahia, équipe SFIIS LabSTICC ; et Frédéric Cuppens, équipe SFIIS LabSTICC

Titre : Searchable Encryption
Mots cles : chiffrement "cherchable", chiffrement homomorphique

Description : Les résultats de Craig Gentry ont fait la une de l'actualité dans le monde de la cryptographie en 2009-2010, ces travaux prouvaient enfin l'existence de mécanismes de chiffrement complètement homomorphes. En pratique, cela signifie qu'il est possible de chiffrer des informations avec cette méthode, de les confier à une partie tierce pour qu'elle effectue une ou plusieurs opérations dessus, puis de déchiffrer le résultat final. Cette méthode offre des perspectives attrayantes, notamment pour le cloud computing. Elle permettrait en effet de réaliser n'importe quelle opération sur un contenu chiffré de façon sûre (qui n'affecte par la confidentialité du contenu), mais elle reste inapplicable en pratique car bien trop coûteuse. D'autres méthodes moins coûteuses existent avec un champ d'application plus restreint ; elles peuvent être basées sur du chiffrement asymétrique ou symétrique dans le cas où une clef partagée est envisageable. Elles peuvent être regroupées sous l'appellation générique de chiffrement "cherchable" ou "searchable encryption" bien que leurs champs d'application soient assez différents. La littérature dans ce domaine est plus riche car ce sujet d'étude a démarré il y a une dizaine d'années environ. L'objet de cette étude bibliographique est donc de se familiariser avec ce concept de chiffrement "cherchable", de bien comprendre les différences entre les cadres d'applications et de voir les développements les plus récents dans le domaine ainsi que les variantes du concept. Le travail consiste donc à analyser et comparer les différentes approches afin de permettre une classification et des éventuelles réorientations et combinaisons avec d'autres approches.

Bibliographie : D. Song, D. Wagner, and A. Perrig. Practical techniques for searching on encrypted data. In Proceedings of 2000 IEEE Symposium on Security and Privacy, pages 44–55, May 2000. D. Boneh, G. Di Crescenzo, R. Ostrovsky, and G. Persiano. Public key encryption with keyword search. In proceedings of Eurocrypt 2004, LNCS 3027, pp. 506-522, 2004

Nom : Gribonval Rémi
Equipe : METISS
Mail : remi.gribonval@inria.fr
Lien : http://www.irisa.fr/metiss/
Contact : Rémi Gribonval, remi.gribonval@inria.fr Nancy Bertin, nancy.bertin@irisa.fr

Titre : Inpainting audio pour l'amélioration de qualité
Mots cles : audio, super-résolution, optimisation parcimonieuse, apprentissage de dictionnaire

Description : L'objectif de ce stage est d'étudier le potentiel de techniques de traitement du signal basées sur des représentations parcimonieuses pour l'amélioration de qualité audio notamment à partir de formats compressés tels que le MP3. Les techniques de modélisation parcimonieuse de données de grande dimension ont en effet permis de résoudre de nombreux problème de restauration de signaux tels que la séparation aveugle de signaux sonores (pour extraire le son d'un instrument à partir des pistes d'un mélange), le débruitage, …. Leur principe [1] consiste à exploiter le fait que les données à traiter, bien que de grande dimension, peuvent être décrites de façon concise à l'aide d'un petit jeu de paramètres. Concrètement, les données sont bien approchées par des combinaisons linéaires de quelques vecteurs de base appelés atomes et choisis dans une famille très redondante appelée dictionnaire. On parle d'approximation parcimonieuse. Le succès de ces techniques dépend fortement dans la pratique de la bonne adaptation du dictionnaire aux données à traiter. Un certain nombre d'algorithmes heuristiques ont été proposés depuis une dizaine d'années pour apprendre un dictionnaire à partir d'un ensemble de données d'apprentissage [2] . Récemment, des techniques d'inpainting développées initialement pour compléter des bouts manquants d'image ont été adaptées avec succès à l'audio pour la dé-saturation [3,4]. Elles permettent d'extrapoler le signal audio aux instants saturés en exploitant les paramètres d'un modèle parcimonieux estimés sur les zones non saturées. L'objectif de ce stage, qui pourra déboucher sur une thèse, est d'explorer le potentiel des dictionnaires appris pour la restauration de signaux sonores. Dans un premier temps, après une phase de mise en oeuvre des techniques existantes d'audio inpainting [3,4], il s'agira d'expérimenter des techniques d'apprentissage existantes et d'en mesurer l'impact sur la qualité de reconstruction obtenue. Dans un second temps, deux pistes complémentaires pourront être explorées: la modification de l'apprentissage pour l'adapter explicitement à la tâche de restauration visée [5,6]; l'élargissement du scénario de dégradation pour prendre en compte l'effet de fortes compressions du type MP3.

Bibliographie : [1] S. Mallat, "Wavelet Tour of Signal Processing", 3ème édition: The Sparse Way. Academic Press, 2008. [2] R. Rubinstein, A.M. Bruckstein, and M. Elad, " Dictionaries for Sparse Representation Modeling", IEEE Proceedings - Special Issue on Applications of Sparse Representation & Compressive Sensing, Vol. 98, No. 6, pages 1045-1057, April 2010. [2] Adler Amir; Emiya Valentin; Jafari Maria; Elad Michael; Gribonval Rémi; Plumbley Mark D., A Constrained Matching Pursuit Approach to Audio Declipping, Acoustics, Speech and Signal Processing, IEEE International Conference on (ICASSP 2011) , May 2011, Prague, Czech Republic. IEEE [3] Adler Amir; Emiya Valentin; Jafari Maria; Elad Michael; Gribonval Rémi; Plumbley Mark D. Audio Inpainting [Research Report], 2011, pp. 27. RR-7571 [5] R. Zeyde, M. Elad, and M. Protter, "On Single Image Scale-Up using Sparse-Representations", Curves & Surfaces, Avignon-France, June 24-30, 2010 (submitted to Lecture-Notes-on-Computer-Science - LNCS). [6] J. Mairal, F. Bach, J. Ponce. Task-Driven Dictionary Learning . Technical report, HAL : inria-00521534, 2010. [pdf ]

Nom : ZHANG Xu
Equipe : CAMA-IDEAL
Mail : xu.zhang@telecom-bretagne.eu
Lien : http://recherche.telecom-bretagne.eu/dpan/
Contact : Fabien DAGNAT Enseignant-chercheur Dépt. Informatique Téléphone : 02 29 00 14 09 Télécopie : 02 29 00 12 82 Courriel : fabien.dagnat@telecom-bretagne.eu Gwendal SIMON Enseignant-chercheur Dépt. Informatique Téléphone : 02 29 00 15 73 Télécopie : 02 29 00 12 82 Courriel : gwendal.simon@telecom-bretagne.eu Xu ZHANG Doctorant 1ère année Dépt. Informatique Téléphone : 02 29 00 15 61 Courriel : xu.zhang@telecom-bretagne.eu

Titre : Exploring the Popularity and Reputation of User-Generated Software
Mots cles : software package management, peer-to-peer network, content popularity, reputation system

Description : User-Generated Content has reshaped the landscape of the Information Marketplace during the last years. From multimedia sharing to social-based content aggregators, including blogs, wikis and collaborative portals, services that harness customer participation and crowdsourced intelligence has become dominating on the Web. there is a less popular but very impacting class of content which is also massively produced by users: software. Today, the community of Free and Open Source Software(FOSS) contains typically several millions of software producers, and the increasing popularity of application stores (e.g. more than 300, 000 applications in the Apple Store) confirms a major trend in the software industry. In comparison to conventional software, the distribution of user-generated software appears to be a challenging task. The current approach is to rely on a central distributor who collects software packages from upstream developers, approves them and releases them through a single channel, called repository. This architecture exhibits some major drawbacks such as poor scalability, high management cost, censorship in selecting software and additional time-to-market. The productivity and high degree of customization offered by crowdsourcing are actually limited by the way software is distributed. Therefore, a research project aiming to find a scalable solution for future software deployment has been initiated in the Department of Computer Science since 2010. Our goal is to construct a decentralized network atop which packages and updates can be released asynchronously by decoupled entities that we call peers. Once a package is released, it is immediately available for others to download and install. Without a central repository, the discovery and delivery of new releases are achieved through the communication among peers. For more information about the project, please refer to [1]. During this internship, the candidate student will contribute to the dpan project. The main focus of his/her research consists of two parts: 1• study the distribution and evolution of package popularity: the popularity of a package is a factor that reflects users’ interest on it. An accurate estimation of package popularity is important in determining many design issues such as the data placement, the caching mechanism and the content distribution algorithms. Many works have addressed the problem of computing object popularity in a distributed environment [2] [3] . In [4], a framework for studying the popularity dynamics of user-generated videos is presented. However, software packages are constantly evolving. They have interdependent relationships which make them different from other kinds of content. The Debian popularity contest 1 provides some statistics of the usage of Debian packages, but the dependency and version information are not taken into account. So the first objective of this internship is to develop a efficient popularity estimation algorithm based on a hybrid overlay structure defined in our previous work. Then the student is also expected to propose approaches for analyzing the relation between package dependencies and package popularity. 2• investigation on distributed reputation systems: we promote policy free release management and decentralized software evolution. The idea is to offer higher degree of liberty to developers, and gain diversity and availability of software for users. However, due to the explosion of uncertified third-party packages, a distributed reputation system is crucial as it allows users to evaluate the quality of packages circulating on the Web. Therefore, the second objective of the internship is to let the student explore the state-of-the-art of distributed trust and reputation systems, and propose some preliminary ideas on the architectures and algorithms that can be used for trust management in the distribution of user-generated packages. A survey of current reputation systems is provided in [5]. And the major challenges of implementing reliable distributed reputation systems are identified in [6].

Bibliographie : [1] X.ZHANG and F.Dagnat and G.Simon. Toward Decentralized Package Management. Lococo 2011. Workshop on Logics for Component Configuration. [2] M.M. Kamran and S. Khorsandi. Popularity estimation in a popularity-based hybrid peer-to-peer network. In Advanced Communication Technology (ICACT),2011 13th International Conference on, pages 399 â404, feb. 2011. [3] Tsuyoshi Itokawa, Teruaki Kitasuka, and Masayoshi Aritsugi. Estimation algorithms of popular objects on distributed hash table using local lookup logs. In Computer Science and its Applications, 2009. CSA â09. 2nd International Conference on, pages 1 â6, dec. 2009. [4] Borghol, Youmna and Mitra, Siddharth and Ardon, Sebastien and Carlsson, Niklas and Eager, Derek and Mahanti, Anirban. Characterizing and modeling popularity of user-generated videos. In Performance Evaluation, aug. 2011. [5] Audun JÃžsang, Roslan Ismail, Colin Boyd. A Survey of Trust and Reputation Systems for Online Service Provision. In Decision Support Systems, 2005. [6] Gayatri Swamynathan and Kevin C. Almeroth and Ben Y. Zhao. The design of a reliable reputation system. In Electronic Commerce Research, 2010, pages 239-270.

Nom : Dhaussy Philippe
Equipe : LISyC-IDM ENSTA Bretagne
Mail : philippe.dhaussy@ensta-bretagne.fr
Lien :
Contact :

Titre : Transformation de modèles UML en programmes Fiacre
Mots cles : UML, Fiacre, transformation, sémantique

Description : Contexte de travail Le domaine de la modélisation et de la validation formelle de logiciels est un enjeu majeur du génie logiciel et de nombreux travaux universitaires ont exploré différents formalismes de modélisation, langages et outils pour concevoir des composants logiciels. Plus spécifiquement, les architectures logicielles des systèmes embarqués doivent être conçues pour assurer des fonctions critiques soumises à des contraintes très fortes en termes de fiabilité et de performances temps réel. Malgré les progrès techniques, la grande taille de ces systèmes facilite l’introduction d’une plus grande gamme d’erreurs. Actuellement, les industries engagent tous leurs efforts dans le processus de tests et de simulations à des fins de certification. Néanmoins, ces techniques deviennent rapidement inexploitables pour mettre en évidence des erreurs. La couverture des jeux de tests s’amincie au fur et à mesure de la complexification des systèmes et il devient nécessaire d’utiliser de nouvelles méthodes pour garantir la fiabilité des logiciels. Parmi celles-ci, les méthodes formelles ont contribué, depuis plusieurs années, à l’apport de solutions rigoureuses et puissantes pour aider les concepteurs à produire des systèmes non défaillants. Dans ce domaine, les techniques de model-checking (Queille et al., 1982, Clarke et al., 1986) ont été fortement popularisées grâce à leur faculté d’exécuter automatiquement des preuves de propriétés sur des modèles logiciels. De nombreux outils (model-checkers) ont été développés dans ce but (Holzmann, 1997, Larsen et al., 1997, Berthomieu et al., 2004; Fernandez et al., 1996, Cimatti et al., 2000). Pour accroître la pénétration des formalismes, comme par exemple de type UML, dans les processus industriels d'ingénierie système et logicielle, il est encore nécessaire de pouvoir proposer aux utilisateurs des techniques opérationnels d’analyses de ses modèles. Ceci implique de disposer de transformation de modèles adéquats, paramétrables ou configurables permettant de générer, à partir des modèles de conception UML des code formels pour différents outils selon le type d’analyse que l’on veut mener. Par exemple, pour la vérification d’exigences fonctionnelles, il est nécessaire de traduire les modèles dans des codes exploitables par un model-checker. Mais il est bien connu que la sémantique des modèles peut varier selon l’interprétation donné par l’utilisateur. Il est donc pertinent de concevoir des règles de transformation qui soient paramétrées par des choix sémantiques à définir. S’inspirant de travaux effectués sur les techniques de transformation de modèle UML, l’objectif du stage proposé est de concevoir des transformations qui ciblent le langage formel Fiacre. Ce langage est exploitable par deux model-checkers : TINA [Berthomieu et al., 2004] développé au LAAS et OBP-Explorer [Dhaussy et al., 2011] développé à l’ENSTA Bretagne. Travail théorique à accomplir Le travail théorique à entreprendre est d’étudier, à partir de la sémantique d’UML et des points de variations sémantique, des règles de transformation vers Fiacre. On réduira bien sûr, dans l’étude, le périmètre du formalisme UML à un sous-ensemble de celui-ci et à un profil spécifique. On cherchera à formaliser les règles avant de les implanter. Une étude préalable conduira à un choix du langage de transformation à mettre en œuvre. On pourra s’inspirer des travaux similaires qui ont été menés dans de nombreux projets traitant de la transformation de modèles UML (http ://www.topcased.org, http ://www-Omega.imag.fr) et on les adaptera à la sémantique du langage Fiacre. Une expérimentation pourra être conduite sur un cas d’étude industriel et mettra en œuvre les outils de vérification disponibles au laboratoire. L’étudiant aura accès, en début de projet, à toute la documentation nécessaire pour son travail et aux outils de modélisation UML et de validation Fiacre.

Bibliographie : Berthomieu B., Ribet P.-O., Verdanat F., « The tool TINA - Construction of Abstract State Spaces for Petri Nets and Time Petri Nets », International Journal of Production Research, 2004. Cimatti A., Clarke E., Giunchiglia F., Roveri M., « NuSMV : a new symbolic model checker », Int. J. on Software Tools for Technology Transfer, vol. 2, n° 4, p. 410425, 2000. Clarke E., Emerson E., Sistla A., « Automatic verification of finite-state concurrent systems using temporal logic specifications », ACM Trans. Program. Lang. Syst., vol. 8, n° 2, p. 244- 263, 1986. Philippe Dhaussy, Frédéric Boniol, Jean-Charles Roger, Reducing State Explosion with Context Modeling for Model-Checking. Hase’11, oct. 2011. Farail P., Gaufillet P., Peres F., Bodeveix J.-P., Filali M., Berthomieu B., Rodrigo S., Vernadat F., Garavel H., Lang F., « FIACRE : an intermediate language for model verification in the TOPCASED environment », European Congress on Embedded Real-Time Software (ERTS), Toulouse, 29/01/2008-01/02/2008, SEE, janvier, 2008. Fernandez J.-C., Garavel H., Kerbrat A., Mounier L., Mateescu R., Sighireanu M., « CADP : A Protocol Validation and Verification Toolbox », CAV ’96 : Proceedings of the 8th International Conference on Computer Aided Verification, Springer-Verlag, London, UK, p. 437-440, 1996. Holzmann G., « The Model Checker SPIN », Software Engineering, vol. 23, n° 5, p. 279-295, 1997. Larsen K. G., Pettersson P., Yi W., « UPPAAL in a Nutshell », International Journal on Software Tools for Technology Transfer, vol. 1, n° 1-2, p. 134-152, 1997. Queille J.-P., Sifakis J., « Specification and verification of concurrent systems in CESAR », Proceedings of the 5th Colloquium on International Symposium on Programming, Springer- Verlag, London, UK, p. 337-351, 1982.

Nom : Desmeulles Gireg
Equipe : LabSTICC-IHSEV
Mail : desmeulles@enib.fr
Lien :
Contact : desmeulles@enib.fr

Titre : Modélisation centrée interaction pour la simulation participative de modèles thermodynamiques. Application l’optimisation de dépense d'energie pour la mise à température de bâtiments.
Mots cles : systèmes multi interactions, simulation participative, réalité virtuelle

Description : Le paradigme multi interactions [1] a permis de mettre en oeuvre la co-construc- tion de maquettes num ́eriques de ph ́enom`enes chimiques et biologiques, offrant ainsi de nouvelles possibilit ́es d’interaction temps r ́eel avec les mod ́elisateurs- th ́ematiciens. Il s’agit en premier lieu, d’ ́etudier la possibilit ́e d’utiliser cette m ́ethode informatique incarn ́ee par le meta mod`ele R ́eISCOP, dans un nouveau domaine applicatif : la thermodynamique. Ce projet initie une collaboration entre le CERV et la soci ́et ́e KEOLYA. Pour cela, il faut ́etudier la compati- bilit ́e de la nature des mod`eles envisag ́es avec le point de vue interaction centr ́e pour une modlisation informatique [2] collaborative [3]. D’autre part, il s’agit d’exploiter les possibilit ́es d’interaction offertes par la m ́ethode, pour avancer dans la d ́efinition et la mise en oeuvre de nouvelles m ́etaphores d’interaction pour la r ́ealit ́e virtuelle[4, 5] et la simulation participative [6, 7, 8]. On envis- agera l’utilisation d’une paillasse virtuelle ou d’une table tactile. La r ́ealisation de ce projet passe par le d ́eveloppement d’un prototype de simulateur qui permettra de montrer les perspectives offertes par l’approche et la possibilit ́e d’envisager un projet scientifique plus pouss ́e (th`ese). Il est important de noter que ce sujet poss`ede une forte composante interdisciplinaire. Ainsi, le candidat devra mener la collaboration avec les experts de la soci ́et ́e KEOLYA et ˆetre prˆet `a recueillir et manipuler des connaissances qui ne font pas partie a priori de son domaine.

Bibliographie : [1] Gireg Desmeulles, St ́ephane Bonneaud, Pascal Redou, Vincent Rodin, and Jacques Tis- seau. In virtuo experiments based on the multi-interaction system framework: the r ́eiscop meta-model. CMES, Computer Modeling in Engineering Sciences, October 2009. [2] F. Varenne. Du mod`ele la simulation informatique. Librairie Phylosophique J. VRIN, 2007. [3] 2nd International Track on Collaborative Modeling Simulation - CoMetS’11, 2011. [4] Philippe Fuchs, Guillaume Moreau, and Jacques Tisseau. Introduction la ralit virtuelle, volume 3: Outils et modles informatiques des environnements virtuels of Le Trait de la Ralit Virtuelle, chapter 1, pages 3–32. 3e edition, 2006. [5] Jacques Tisseau and Fabrice Harrouet. Autonomie des entit ́es virtuelles, volume 2 of Le Trait ́e de la R ́ealit ́e Virtuelle, chapter 4. Presses de l’Ecole des Mines de Paris, 2e edition, 2003. [6] V. Colella. Participatory simulations : Building collaborative understanding through immersive dynamic modeling. Journal of the Learning Sciences, 9(4), 2000. [7] T. Ishida, Y. Nakajima, Y. Murakami, and H. Nakanishi. Augmented experiment: Partici- patory design with multiagent simulation. In International Joint Conference on Artificial Intelligence, 2007. [8] P. Guyot and S. Honiden. Agent-based participatory simulations : Merging multi-agent systems and role-playing games. Journal of Artificial Societies and Social Simulation, 9(4), 2007.

Nom :
Equipe :
Mail :
Lien :
Contact :

Titre :
Mots cles :

Description :

Bibliographie :

Nom : Heen Olivier
Equipe : Technicolor security labs
Mail : olivier.heen@technicolor.com
Lien :
Contact : Olivier Heen (olivier.heen@technicolor.com)

Titre : Improvement of 802.11 fingerprinting diversity
Mots cles : Wireless Fingerprinting, home network security

Description : 802.11 fingerprinting is the process of collecting some measurable characteristics of 802.11 devices in order to identify or differentiate different 802.11 devices. Such characteristics may depend on the running application, the driver, the chipset or the Operating System of the target device. In some cases, these characteristics are distinctive enough to recognize precisely one device. In other cases, only the type or the manufacturer of the device can be recognized. Technicolor uses 802.11 fingerprinting to improve the security of home networks. In this context, fingerprinting thwarts MAC spoofing attacks and helps detecting rogue access points.

The internship will investigate a method that increases the accuracy of existing fingerprinting methods. It involves installing dedicated software on fingerprinting targets. The method ensures that, without using a shared secret between the fingerprinter and the target, the accuracy of the fingerprinting method increases. The internship contains three main stages
1. Experimenting of state-of-art 802.11 fingerprinting methods, including a method patented by Technicolor.
2. Prototyping of generic software module increasing the fingerprint diversity.
3. Experiment of the accuracy gain and choice of optimal parameter range. Prototyping and experimenting will focus on 802.11 stations as target platform. A version for 802.11 access points may also be implemented but is not the initial target. According to the result, this work may result in a scientific publication.

Bibliographie :
* 802.11 User Fingerprinting, Jeffrey Pang et al., Mobicom 2007.
* Identifying Unique Devices through Wireless Fingerprinting, Desmond C. C. Loh et al., Wisec 2008.
* Passive Data Link Layer 802.11 Wireless Device Driver Fingerprinting Jason Franklin et al., Usenix 2006.

Nom : Davide Frey, Anne-Marie Kermarrec
Equipe : ASAP
Mail : Davide.Frey@inria.fr, Anne-Marie.Kermarrec@inria.fr
Lien :
Contact :

Titre : Interest and network aware content distribution using P2P
Mots cles :

Description : Protocols based on the gossip paradigm achieve information dissemination through random exchanges that mimic real-world processes like rumor mongering or the dissemination of a disease in a population. Recent work has highlighted the effectiveness of gossip in a variety of applications ranging from video streaming and overlay maintenance, to the management of social networks. In this internship, we plan to continue this work and investigate the application of gossip in the context of content distribution. This scenario is particularly challenging as it combines the need to address user interests while protecting privacy, with stringent network requirements resulting from limited resources such as bandwidth or computation power. To meet these challenges, the internship will involve significant experimental work in the form of simulation and/or in realistic testbeds such as the Grid5000 and PlanetLab platforms.

Bibliographie :

Nom : De Loor Pierre
Equipe : IHSEV - LABSTICC
Mail : deloor@enib.fr
Lien : www.enib.fr/~deloor
Contact : deloor@enib.fr

Titre : Analyse et incrémentalité pour la configuration d’agents virtuels capables d’apprendre à apprendre un comportement.
Mots cles :

Description : Ce sujet s’inscrit dans le cadre de l’autonomisation d’entités autonomes interactives dans les environnements virtuels. Une des thématiques du CERV s’articule autour de l’autonomisation d’entités artificielles en interaction avec un ou des utilisateurs. Dans ce contexte, différents modèles de comportements autonomes interactifs sont développés (Thèse de Matthieu Aubry, Ronan Billon, Kristen Manac’h, Fabien Tencé, Master recherche de Benjamin Cogrel). En résumé, ces travaux s’articulent autour de la notion d’autonomisation de systèmes dynamiques, la modélisation de comportements d’humanoïdes, la notion de crédibilité comportementale ou la capture de mouvement et l’identification de gestes. Le sujet précis de ce master concerne la possibilité de passer par une approche incrémentale pour faire apprendre à apprendre un agent artificiel modélisé à l’aide de réseaux de neurones récurrents par le biais d’un guidage interactif. Des cherches préliminaires nous ont montré la possibilité d’obtenir des agents capables d’apprendre à apprendre (une fois qu’ils savent apprendre à apprendre, un simple guidage interactif permet de leur apprendre à adopter un comportement sensorimoteur quelconque), sur des problèmes simples. Pour cela, des algorithmes génétiques sont utilisés, ils ne servent pas à configurer l’agent pour qu’il adopte un comportement donné mais pour qu’il apprenne à apprendre. La complexité de la tâche rend toutefois cette technique inexploitable pour des problèmes à visées applicatives. Une piste a toutefois été creusé et a donnée des résultats préliminaires intéressants : l’incrémentalité. A l’aide de cette approche, non seulement les algorithmes génétiques ne sont pas « lançés » une fois pour toute mais plusieurs algorithmes génétiques successifs s’attachent à trouver les bons paramètres du réseau pour une tâche qui se complexifie au fur et à mesure de l’avancé des résultats. De plus, le réseaux n’est pas calculé « d’un coup », des artefacts permettent de ne s’intéresser qu’à certaines parties du réseaux à certains moments. Ceci permet d’obtenir beaucoup plus rapidement des agents capables d’apprendre à apprendre. Durant le stage, le candidat devra s’approprier les travaux précédents afin de valider sur de nombreux exemples le bienfondé de la méthode. Il pourra également y apporter des améliorations. Il devra également mettre en oeuvre de techniques d’analyses de comportement du système. En effet, un des gros problème des réseaux récurrents est que « l’on n’y comprend rien ». De nombreux chercheurs tentent de mettre en oeuvre des techniques graphiques en particuliers permettant de montrer des caractéristiques dynamiques (cycle limite, régularité, fréquences …). L’objectif est de voir si ces techniques peuvent nous aider à comprendre le fonctionnement interne de l’agent et à le paramétrer. L’autre tâche consistera à étendre l’approche pour aller vers des comportements plus complexes que ceux adressés jusqu’à présent. La bibliographie portera sur les méthodes d’analyse des systèmes dynamiques et sur l’approche que nous préconisons.

Bibliographie : Bibliographie Générale sur l’approche Manac'h, K. & De Loor, P. Guiding for Associative Learning: How to Shape Artificial Dynamic Cognition To appear in the proceedings of the 10th European Conference on Artificial Life, 2009 Froese, T. & Di Paolo, E. A. (forthcoming), “Modeling social interaction as perceptual crossing: An investigation into the dynamics of the interaction process”, Connection Science (PDF) De Loor, P.; Mana'h, K. & Tisseau, J. Enaction-Based Artificial Intelligence : Toward co-evolution with humans in the loop to appear in Minds and Machines Journal for Artificial Intelligence, Philosophy and Cognitive Science., 2010 Rohde, M. & Di Paolo, E. An Evolutionary Robotics Simulation of Human Minimal Social Interaction (long abstract) SAB'06 Workshop on Behaviour and Mind as a Complex Adaptive System, 2006 Harvey I. Di Paolo, E.A. Tuci, E. Wood, R. Quinn, M. Evolutionnary robotics: A new scientific tool for studying cognition [Article] // Artificial Life (11). - 2005. - pp. 79-98. Iizuka H. Di Paolo, E.A. Toward Spinozist robotics: Exploring the minimal dynamics of behavioural preference [Article] // Adaptive Behavior. - 2008. - p. in press. Bibliographie sur l’analyse des systèmes dynamiques Bordeianu, C.; Besliu, C.; Jipa, A.; Felea, D. & Grossu, I. (2008), 'Scilab software package for the study of dynamical systems', Computer Physics Communications 178, 788-793. Broomhead, D. & King, G. P. (1985), 'Extracting qualitative dynamics from experimental data', Physica D 20, 217-236. Han, M.; Shi, Z. & Wang, W. (2004), 'Modeling Dynamic System by Recurrent Neural Network with state Variables', LNCS 3174, 200-205. Shockley, K. (2005), Tutorials in contemporary nonlinear methods for the behavioral sciences, M.A. Riley and G.C. Van Orden, chapter Cross Recurrence Quantification of Interpersonal Postural Activity, pp. 143-176. Stephen, D. G.; Boncoddo, R. A.; Magnuson, J. S. & Dixon, J. A. (2009), 'The dynamics of insight: Mathematical discovery as a phase transition', Memory and Cognition 37(8), 1132-1149. Vautard, R. & Ghil, M. (1989), 'Singular Spectrum Analysis in Nonlinear Dynamics, With Applications to PaleoClimatic Time Series', Physica D 35, 395-424.

Nom : JESSEL Jean-Pierre
Equipe : VORTEX (Institut de Recherche en Informatique de Toulouse)
Mail : jessel@irit.fr
Lien :
Contact : Jean-Pierre Jessel jessel@irit.fr 05 61 55 63 11 Cédric Sanza sanza@irit.fr 05 61 55 81 24

Titre : Simulation comportementale dans les environnements virtuels
Mots cles : scénarisation , adaptation, autonomie, interaction, simulation comportementale, environnements virtuels

Description : Le cadre de l’étude est la génération d’environnements virtuels interactifs scénarisés adaptatifs, et plus particulièrement de la génération de la scénarisation et de la simulation et de l’interaction. La génération de scénarii, de scripts ou de comportements autonomes de personnages, et la scénarisation de l’interaction des utilisateurs et de l’environnement (par exemple, les règles dans un jeu vidéo, la scénarisation d’une simulation) permettent de définir le contenu actif d’un environnement virtuel. L’interaction sera effective avec des objets de la scène mais aussi avec des entités scriptées ou autonomes. Tant les scénarii des personnages que ceux de l’interaction devront être dotées de capacité d’adaptation. Les mécanismes utilisés pour l’adaptation seront des systèmes de classeurs, des techniques de Vie Artificielle, des systèmes multi-agents. Dans le cadre du master, le sujet se focalisera sur la génération de la scénarisation des entités scriptées ou autonomes.

Bibliographie : Humains virtuels N Magnenat-Thalmann, D Thalmann, "Handbook of Virtual Humans", WYLEY, 2004 P. Fuchs & Co. Traité de la réalité virtuelle - Volume 5. Presse de l'Ecole des Mines de Paris, 2009 Jeux vidéo C. Crawford, On game design, New Riders, 2003 S. Natkin. Jeux vidéo et média du XXIe siècle. Vuibert, 2004

Nom : Lolive Damien
Equipe : Cordial
Mail : damien.lolive@irisa.fr
Lien :
Contact : Damien Lolive ou Olivier Boeffard {damien.lolive,olivier.Boeffard}@irisa.fr

Titre : Performance des unités sandwich en synthèse de la parole à partir du texte
Mots cles : synthèse de parole, sélection d'unités, unités sandwich, corpus, tests d'écoute

Description : Au cours des dix dernières années, le domaine de la synthèse de la parole à partir du texte a vu l'émergence d'une approche, actuellement dominante pour une grande part des travaux de recherche de ce domaine, fondée sur l'usage de modèles statistiques pour la génération d'un signal de parole. L'un des bénéfices important de cette méthode est de pouvoir générer un continuum sonore sans trop de discontinuités segmentales. Cette méthodologie relativement récente s'oppose à une approche historique fondée sur la juxtaposition d'unités acoustiques pré-enregistrées. Qu'il s'agisse de l'une ou l'autre de ces deux méthodes, il est nécessaire de disposer de corpus de parole de durée conséquente (au moins quelques dizaines d'heures). Une question qui revient régulièrement comme préoccupation importante concerne le contenu phonologique et acoustique de ces corpus. Il est possible de collecter des données au hasard [LAMBERT:2007] ou de définir un contenu en respectant à la fois des critères sur la structure des éléments phonologiques et sur la couverture de ces éléments. Récemment, les travaux de D. Cadic [CADIC:2011] ont mis en avant la proposition d'une structure d'unités phonologique propre à la synthèse de la parole. Ces unités nommées 'sandwich' [CADIC:2009] sont définies pour protéger certaines classes de sons, notamment les consonnes liquides, semi-voyelles et certains sons instables. Appliqués à une méthode de synthèse par juxtaposition d'unités acoustiques, des tests d'écoute ont permis de conclure à la pertinence de ces choix. Cependant, la définition des unités 'sandwich' ne s'est appliquée que lors de la phase de collecte des données du corpus de parole. Pour la phase de synthèse proprement dite, les hypothèses standard de recherche d'une meilleure séquence d'unités ont été appliquées. Pour restreindre a priori la combinatoire de l'espace de recherche, des fonctions de coût récurrentes à l'ordre 1 (sur la séquence des phonèmes) sont posées. Ce protocole n'a donc pas prévu une recherche explicite d'unités 'sandwich' au moment précis du séquencement des unités à juxtaposer. Nous proposons de nous intéresser à la question de la pertinence des unités 'sandwich' pour un système de synthèse de parole par juxtaposition d'unités acoustiques en intégrant ce type d'unités lors du choix du meilleur chemin. Les travaux de D. Cadic montrent que déjà, a priori, un corpus comprenant des unités sandwich peut fournir une parole de synthèse de meilleure qualité. Nous cherchons à montrer si cette qualité peut encore être améliorée en intégrant cette information dans l'algorithme de séquencement. Le travail consiste dans un premier temps à valider le protocole expérimental proposé par D. Cadic sur une base de parole continue disponible dans l'équipe. Pour cette première opération, il sera nécessaire : - de définir un contenu linguistique intégrant les définitions des unités 'sandwich', - d'effectuer l'enregistrement de cette base de données, - d'accomplir la phase d'annotation du corpus au format ROOTS [BARBOT:2011], - de produire un ensemble de phrases de synthèse. Dans un deuxième temps, l'objectif consistera à faire évoluer l'algorithme de recherche d'une meilleure séquence d'unités pour intégrer la notion d'unités 'sandwich' lors du séquencement des unités candidates. Pour cela, il sera nécessaire : - de proposer une solution algorithmique compatible avec la notion d'unités sandwich (passage d'une solution treillis type viterbi à une solution A*), - de mesurer l'impact combinatoire de cette nouvelle solution algorithmique (impact de l'heuristique A*), - de produire un ensemble de phrases de synthèse, - de conclure par un test d'écoute.

Bibliographie : [CADIC:2011] Cadic, D., "Optimisation du procédé de création de voix en synthèse par sélection", These de doctorat, Université de Rennes 1, 2011. [CADIC:2009] Cadic, D., Boidin, C., d’Alesandro, C., "Vocalic sandwich, a unit designed for unit selection TTS", Proceedings of the Interspeech Conference, pp. 2079–2082, 2009. [LAMBERT:1997] Lambert, T., Baunschweiler, N., Buchholz, S., "How (not) to select your voice corpus : random selection vs. phonologically balanced" in 6th ISCA Workshop on Speech Synthesis, 2007. 553--556, 1997. [BARBOT:2011] Barbot, B., Barreaud, V., Boeffard, O., Charonnat, L., Delhay, A., Le Maguer, S., Lolive, D., "Towards A Versatile Multi-Layered Description of Speech Corpora Using Algebraic Relations", Proceedings of the Interspeech Conference, 2011.

Nom : Benoit Bertholon and Sébastien Varrette
Equipe : Université du Luxembourg
Mail :
Lien :
Contact :

Titre : Developing Obfuscation Techniques to ensure Confidentiality of execution
Mots cles :

Description : The purpose of the master thesis is to develop and implement transformations to perform source to source obfuscation. The student will have to first get familiar with the current state of the art concerning the obfuscation techniques, i.e. the existing transformation, and the existing metrics to evaluate the difficulty to understand and read a source code by human as well as automatic reorganization. The student will then have to select the best transformations and to implement them in a source to source compiler such as PIPS [16]. These transformations will then be applied to some common source code such as bzip2, gcc, gzip, and others to evaluate the overhead of the method as well as the level of obfuscation using existing or new metrics, The student will perform experimentations, and record the result to select the best transformations according to the selected metrics. Some extra work, after this evaluation, would be to try to develop the best counter-measures. This might lead to a change in the selection of the transformation.

Bibliographie :

[1] Appel, A. W. Deobfuscation is in np, 2002.

[2] Barak, B., Goldreich, O., Impagliazzo, R., Rudich, S., Sahai, A., Vadhan, S., and Yang, K. On the (im)possibility of obfuscating programs. In Advances in Cryptology CRYPTO 2001, J. Kilian, Ed., vol. 2139 of Lecture Notes in Computer Science. Springer Berlin / Heidelberg, 2001, pp. 1{18. 10.1007/3-540-44647-8 1.

[3] Biondi, P., and Desclaux, F. Silver needle in the skype.

[4] Borello, J.-M., and M~ Al', L. Code obfuscation techniques for metamorphic viruses. Journal in Computer Virology 4 (2008), 211{220. 10.1007/s11416-008-0084-2.

[5] Chidamber, S., and Kemerer, C. A metrics suite for object oriented design. IEEE Transactions on Software Engineering 20 (1994), 476{493.

Nom : Nunes Jean-Claude
Equipe : Laboratoire LTSI/INSERM, équipe Impact
Mail : jean-claude.nunes@univ-rennes1.fr
Lien :
Contact : christine.toumoulin@univ-rennes1.fr, jean-claude.nunes@univ-rennes1.fr

Titre : Détermination de l'angle de vue optimal en angiographie rotationnelle RX des coronaires
Mots cles :

Description : Selon l'Organisation Mondiale de Santé, l'OMS, les maladies cardio-vasculaires sont la première cause de mortalité dans le monde. La cardiopathie coronarienne est responsable d'une grande partie de ces décès. L'angiographie coronaire à rayon X est actuellement la méthode standard d'imagerie dans les domaines de diagnostic et de traitement des maladies coronariennes. Elle consiste en des projections 2D des vaisseaux sanguins sélectionnés et enrichis d'agent de contraste radio opaque. Cependant, les informations spatiales, dynamiques et morphologiques, des artères peuvent être perdus lors d'un examen, du fait de la représentation en 2D. Durant les procédures de diagnostique ou d'intervention, les médecins radiologues essayent d'imaginer la morphologie spatiale d'une manière subjective en se basant sur l'angiogramme 2D et leur connaissances anatomiques et professionnelles. Aujourd'hui, avec une seule injection de produit de contraste, l'angiographie rotationnelle permet d'obtenir 180 projections de l'arbre coronaire gauche ou droit et ce sous différents angles. Nous disposons ainsi d'une gamme complète de projections, permettant une reconstruction 3D de l'arbre coronaire et de surmonter les limites de représentation en 2D. Cependant la mise à jour d'une méthode en temps réelle reste toujours une question d'actualité : les mouvements cardiaques inconnus, non-linéaires, voir irréguliers, posent problème. Pour la reconstruction d'une seule phase cardiaque, seules les projections correspondant à cette phase sont utilisées. Ce nombre réduit de projections engendre un sous-échantillonnage angulaire sévère et rend la reconstruction compliquée. Nous proposons ici de nous d'étudier les approches permettant de sélectionner de manière semi-automatique ou automatique des angles de projections optimaux d'acquisition d'angiographie coronarienne. Ces angles d'incidences optimaux, correspondant à une région vasculaire pathologique particulière, vont permettre de mieux l'observer et donc d'établir un meilleur diagnostic ainsi que d'envisager un geste thérapeutique interventionnel plus précis.

Bibliographie :

Nom :
Equipe :
Mail :
Lien :
Contact :

Titre :
Mots cles :

Description :

Bibliographie :

Nom : Bourdon Pascal
Equipe : Technicolor R&I, laboratoire Imaging & Network Experience (Rennes).
Mail : Pascal.Bourdon@technicolor.com
Lien :
Contact : Pascal Bourdon, Pascal.Bourdon@technicolor.com

Titre : Analyse faciale par modèles déformables pour le cinéma numérique
Mots cles : Analyse d’images de documents, apprentissage, réseaux de neurones (NN), modèles de Markov cachés (HMM), séparateurs à vaste marge (SVM).

Description : Ce stage s’intègre dans les travaux de Technicolor R&I et du projet Mixed Reality sur l’analyse de sujets humains pour l’animation d’avatars dans un monde 3D. L’objectif du stage est de contribuer à l’élaboration d’un outil d’analyse faciale sans marqueurs pour le cinéma numérique. Plus précisément, le stagiaire aura pour tâche d’étudier une méthode de détection par modèles déformables pour identifier des points d’intérêt sur un visage humain. La réalisation technique d’un environnement virtuel interactif interfacé avec le sujet se fait par l’analyse de ses faits et gestes à partir d’une caméra: mouvement des bras, des mains, de la tête, du visage, etc. L’objectif du stage est de contribuer à l’élaboration d’un outil d’analyse faciale sans marqueurs pour le cinéma numérique. Plus précisément, le stagiaire aura pour tâche d’étudier une méthode de détection par modèles déformables pour identifier des points d’intérêt sur un visage humain, et de contribuer au développement algorithmique de cette méthode afin de faciliter son intégration dans une plateforme de post-production cinématographique.

Bibliographie :

Nom : Commowick Olivier
Equipe : Visages
Mail : olivier.commowick@inria.fr
Lien : https://www.irisa.fr/visages/_media/positions/sujetstagedysphasie2012.pdf
Contact : Christian Barillot, Unité/Projet VisAGeS, IRISA (Christian.Barillot@irisa.fr) Olivier Commowick, Unité/Projet VisAGeS, IRISA (Olivier.Commowick@inria.fr) Camille Maumet, Unité/Projet VisAGeS, IRISA (Camille.Maumet@irisa.fr) Aymeric Stamm, Unité/Projet VisAGeS, IRISA (Aymeric.Stamm@irisa.fr)

Titre : Analyse statistique des fibres de matière blanche pour l'étude clinique des troubles du langage chez l'enfant
Mots cles : IRM de diffusion, Tractographie de la matière blanche, Cerveau, IRM, Traitements d'images

Description : L'objectif de ce stage sera d’utiliser conjointement des IRM cérébrales multimodales (IRM anatomiques, fonctionnelles et de diffusion) au sein desquelles des régions d’intérêt ont été contourées. Ces régions d’intérêt serviront de base pour la constitution des faisceaux de fibres connectant les parties du cortex potentiellement impliquées dans le déficit du langage. Sur cette base, un modèle de cerveau « normal » et un modèle de cerveau « pathologique » seront construits afin d’en déduire des marqueurs spécifiques à la maladie. Le travail méthodologique consistera à construire un espace de paramètres quantitatifs adapté et de relier les différents sujets de l’étude à un atlas adapté à la population. Le travail consistera ensuite à étudier les variations entre les deux populations afin d’en déduire des régions ou des caractéristiques de diffusion permettant de différencier les patients dysphasiques des sujets contrôle et ainsi mieux comprendre ce trouble de développement. Plus de precisions sont disponibles sur la fiche complete : https://www.irisa.fr/visages/_media/positions/sujetstagedysphasie2012.pdf

Bibliographie :

Nom : Corouge Isabelle
Equipe : VisAGeS U746
Mail : isabelle.corouge@irisa.fr
Lien : http://www.neurinfo.org
Contact : Encadrement : Isabelle Corouge (isabelle.corouge@irisa.fr) Alexandre Abadie (alexandre.abadie@inria.fr)

Titre : Analyse d’images pour le suivi qualité en IRM
Mots cles : IRM, fantôme ACR, traitement d'images

Description : Contexte La plateforme Neurinfo de l’Université Rennes 1 est une plateforme commune avec l’INSERM, le CHU de Rennes, le CRLCC et l'INRIA. Elle est adossée à l'Unité VisAGeS U746 (INSERM/INRIA), composante de l'IRISA. Neurinfo offre des ressources d’acquisition, de gestion et de traitement d’images pour le développement et la valorisation d’activités de recherche clinique, méthodologique et technologique. Cette plateforme réalise principalement des études de neuroimagerie et neuroinformatique dans le contexte des maladies du système nerveux, mais aussi des projets d'imagerie sur d'autres organes ou pathologies (rachis, coeur, système digestif ou vasculaire). Neurinfo s’efforce d’intégrer les projets de recherche clinique de l’image au patient et d’assurer un transfert technologique des méthodes de traitement d’images vers la clinique. L’équipement actuel est constitué d’un Imageur par Résonance Magnétique (IRM) 3Tesla situé au CHU de Rennes. Il est exploité par une équipe technique dédiée et experte dans le domaine de la physique de l’IRM et du traitement d’images, en collaboration avec le personnel du service de radiologie du CHU. La plateforme Neurinfo est ouverte à une large communauté d’utilisateurs médicaux et scientifiques, au niveau régional, national et international. Objet du stage Dans le cadre du suivi qualité d'un IRM, il est nécessaire de réaliser régulièrement des acquisitions sur objet test permettant de contrôler la qualité des images générées. Ce contrôle qualité est réalisé sur un fantôme de type ACR (American College of Radiology). Il comprend plusieurs étapes de mesure parmi lesquelles l’uniformité de l’intensité de l’image, la précision des mesures géométriques, la détection d’objets à contraste faible, la résolution spatiale, le rapport signal à bruit, les artéfacts de ghosting selon les recommandations de l'American College of Radiology. Ces mesures sont actuellement réalisées manuellement et un travail de développement a été entrepris dans les environnements C++/Qt pour les automatiser. L'objectif du stage sera de terminer le développement entrepris en y intégrant les fonctionnalités de traitement d'images nécessaires pour satisfaire les recommandations de l'ACR. Compétences requises : C++/Qt. La connaissance d'ITK (Insight Toolkit), de Git et un intérêt prononcé pour l'imagerie médicale seront un plus. Durée : 4 à 6 mois

Bibliographie :

Nom : PIQUET Laurence
Equipe : DDG
Mail : laurence.piquet@technicolor.com
Lien :
Contact : stage.rennes@technicolor.com

Titre : Ref. DDG/007: Qualité : migration du référentiel de développement de produit sur plate-forme web en mode wiki
Mots cles :

Description : Ref. DDG/007: Qualité : migration du référentiel de développement de produit sur plate-forme web en mode wiki Contexte L'équipe Software Transformation est responsable de la maintenance et de l'évolution du référentiel de développement de produits "Early-To-Market" (ETM) au niveau groupe. Ce référentiel couvre d'une part les cycles de vie pour les technologies, les produits commerciaux et les logiciels et d'autre part les méthodes des développements et les bonnes pratiques à suivre. Une refonte complète de l'ETM est en cours, sur le contenu (simplification, extension, abandon de documents obsolètes) et sur la forme (passage du support papier au format pdf à un support web) But Assurer le passage à un support web en mode wiki (commentaires + hyperliens pertinents) de l'existant ; celui ci devant être préalablement nettoyé et mis à jour. Garantir la satisfaction des exigences de la certification ISO 9000 Communiquer le changement Sujet de stage Qualité : migration du référentiel de développement de produit sur plate-forme web en mode wiki  nettoyer-mettre à jour les documents à migrer, marquer ceux à abandonner  définir la structure du support web et aligner les documents avec celle-ci  proposer le processus de gestion et de mise à jour  migrer les documents sous Confluence  mettre en place les hyperliens internes/intranet/internet  mettre en place les fonctionnalités wiki ainsi que la gestions et la mise à jour  créer les documents afférents de formation  communiquer les changements de pratiques pour les utilisateur Compétences requises Anglais obligatoire lu écrit parlé Manipulation des outils bureautique : MS-Office (Outlook, Word, Excel), Adobe Acrobat HTML Apprécié : connaissance de Confluence et MS SharePoint

Bibliographie :

Nom : Bourbeillon Julie
Equipe : UMR GRANEM (UMR-MA n°49)
Mail : julie.bourbeillon@agrocampus-ouest.fr
Lien :
Contact : Julie Bourbeillon - Maître de Conférences Informatique AGROCAMPUS OUEST, Centre d'Angers/INHP 2 rue André le Nôtre 49045 ANGERS Cedex 1 (France) E-mail : julie.bourbeillon@agrocampus-ouest.fr Tél : +33 (0) 2 41 22 54 15 Fax : +33 (0) 2 41 22 54 13

Titre : Extraction automatique de connaissances sur les paysages
Mots cles : Traitement Automatique de la Langue Naturelle, Représentation de connaissances, Paysages

Description : Contexte Dans le cadre de l'appel à propositions de recherche « Paysages et Développement Durable » financé par le Ministère de l'Agriculture, le projet PAYTAL vise à étudier les liens entre l’étalement urbain et l’évolution des paysages. Il cherche en particulier à décrire finement les formes de l’étalement urbain et les dynamiques du paysage. Il s’inscrit dans une démarche pluridisciplinaire qui couple des méthodes d’analyse économique (économie urbaine), d'analyse spatiale (géomatique et télédétection) et d'analyse de la perception paysagère (fouille de texte et représentation de connaissances). Au sein de ce projet, la Tâche 1 a pour objectif de fournir un outil pour l'interprétation fine et généralisable des paysages, relié à l'étalement urbain. Cet outil prendra la forme d'une ontologie des paysages. Cette ontologie devra dépasser la simple description des objets topographiques en intégrant des dimensions culturelles, identitaires, etc. Cette ontologie servira à annoter une base de données géographique (cartes). Objectifs Dans ce contexte, le stage vise à proposer des méthodes automatiques pour extraire des descriptions d'un paysage (à l'échelle d'un département) à partir de documents officiels : atlas de paysages, documents d’urbanisme, chartes de paysage des Parc Naturel Régionaux, descriptifs des Pays, etc. Ces documents sont principalement textuels. Il s'agit alors : - D'analyser les méthodes et les outils existants d'extraction automatique d'information à partir de documents numériques au regard des documents effectivement à disposition, - De choisir et mettre en place les outils pertinents pour analyser les textes sélectionnés, - D'appliquer ces outils sur les agglomérations concernées par le projet pour décrire de manière riche la perception des paysages associés. Résultats attendus Théoriques : analyse des méthodes et outils liés à l'extraction de connaissances à partir de textes pour choisir les plus adaptés au problème. Pratiques : - Mise en place d'une chaîne de traitement des documents, - Description d'un ou plusieurs paysages par l'analyse automatique de documents. Cette description sera fournie sous une forme structurée et facilement utilisable (e.g. base de données).

Bibliographie :

Nom : Barillot Christian
Equipe : VisAGeS U746
Mail : christian.barillot@irisa.fr
Lien : https://www.irisa.fr/visages
Contact : Christian Barillot, Unité/Projet VisAGeS, IRISA (Christian.Barillot@irisa.fr)
Isabelle Corouge, Unité/Projet VisAGeS, IRISA (Isabelle.Corouge@irisa.fr)
Elise Bannier, Unité/Projet VisAGeS, IRISA (Elise.Bannier@irisa.fr)
Jan Warnking, GIN, Grenoble (Jan.Warnking@ujf-grenoble.fr)

Titre : Joint estimation of primary brain functional territories from BOLD functional MRI and Arterial Spin Labelling
Mots cles : Functional MRI, Arterial Spin Labelling, Brain perfusion, Image processing, Statistical detection, Brain imaging , Cerveau, IRM, Traitements d'images

Description : Duration: 4 to 6 months

Context
This project gathers three partners INRIA, CEA NeuroSpin and Inserm/GIN (Grenoble Institute of Neuroscience) with complementary and multidisciplinary expertise. The project focus is the combination of two brain MRI modalities. The goal is to provide a joint determination of neural activity and brain vascularization by combining BOLD contrast images obtained from functional MRI and quantitative parametric images obtained from Arterial Spin Labelling (ASL). Based on this combined information for a small group of healthy subjects, the ultimate goal will be to use these derived functional and vascular information in order to characterize the different brain territories addressed by either both MRI sequences. Ultimately, these results will be used as a reference to quantify vascular deviance for patients with abnormal hemodynamics (e.g. stroke) or perfusion characteristic (e.g. dementia, tumors, epilepsy).

Internship focus
The internship work will make use of an already existing paradigm, which is a fast event-related design comprising sixty auditory, visual and motor stimuli, defined in ten experimental conditions (auditory and visual sentences, auditory and visual calculations, left/right auditory and visual clicks, horizontal and vertical checkerboards) [1]. This original sequence will be translated in order to allow replication to functional ASL. The internship work will be dedicated to adapt different image processing workflows, provided by the different partners of this project, and to i) provide the detection of functional patterns from both BOLD fMRI and fASL, ii) compare the different brain territories exhibiting signal changes in both functional sequences and iii) compare the impact of different processing workflows on the results.

Requirements
Matlab, C/C++, good knowledge in statistics. Prior experience with medical imaging data will be of advantage.

Bibliographie : [1] Pinel, P., Thirion, B., M{'e}riaux, S., Jobert, A., Serres, J., {Le Bihan} D., Poline, J.B., Dehaene, S.: Fast reproducible identification and large-scale databasing of individual functional cognitive networks. BMC Neurosci. 8(1), ~91 (2007)

Nom : Clémence Magnien et Fabien Tarissan .
Equipe : Equipe Complex Networks - LIP6 - CNRS, UPMC.
Mail : clemence.magnien@lip6.fr et fabien.tarissan@lip6.fr
Lien :
Contact :

Titre : Analyse de la dynamique de réseaux de contacts.
Mots cles :

Description : Il est possible de mesurer à quels moments deux personnes sont physiquement proches l'une de l'autre en les munissant de capteurs. Ces capteurs envoient des messages périodiques et stockent les messages qu'ils reçoivent d'autres capteurs. Lorsque ces personnes sont proches, leurs capteurs vont recevoir les paquets qu'ils s'envoient et donc enregistrer ce contact. Lorsqu'elles s'éloignent au-delà de la (courte) portée radio des capteurs, les paquets se perdent et aucun contact n'est enregistré. Ce type de méthode a suscité beaucoup d'intérêt ces dernières années afin de mesurer les contacts à l'intérieur d'un groupe de personnes. L'application principale vise à définir des protocoles de communication dits ad-hoc, c'est-à-dire permettant de transmettre un message d'un individu à un autre en utilisant les capteurs/émetteurs radio d'autres personnes du groupe plutôt que de passer par une infrastructure extérieure. Ces contacts peuvent également être considérés comme un graphe dynamique, où les sommets sont les personnes du groupe, et où des liens apparaissent et disparaissent au fil du temps. On manque aujourd'hui d'outils et de notions permettant de décrire la dynamique de tels graphes. Ceci est cependant crucial non seulement pour l'application de communication ad-hoc, car comprendre les différences de comportement des différents noeuds permettrait certainement de définir des protocoles plus adaptés, mais également dans un contexte plus large car il y a un net besoin d'outils permettant de décrire la dynamique de graphes comme la topologie de l'internet, les graphes du web, certains réseaux sociaux... Le but de ce stage est d'introduire des notions permettant de décrire la dynamique de réseaux de contacts. Des travaux préliminaires ont déjà montré qu'il était possible de distinguer plusieurs phases de dynamiques différentes dans un même graphe, ainsi que d'isoler des noeuds ayant un comportement différent de celui des autres noeuds. Le but est de continuer dans cette direction. En particulier, il s'agira de valider les résultats obtenus en essayant de quantifier l'importance des noeuds identifiés comme différents dans la dynamique du réseau : leur absence change-t-elle fortement la dynamique observée ? jouent-ils un rôle prépondérant dans la transmission d'informations de proche en proche ? ... Dans un deuxième temps, il s'agira de proposer de nouvelles notions permettant de décrire le graphe et sa dynamique. On s'intéressera notamment à l'extension de notions classiques comme la connexité ou la distance au cas dynamique, ainsi qu'à des notions intrinsèquement dynamiques comme la caractérisation de la vitesse de l'évolution du graphe, ou encore détecter si la dynamique est principalement confinée à une zone précise du graphe ou alors est touche tous les sommets uniformément.

Bibliographie : R. Calegari, M. Musolesi, F. Raimondi, and C. Mascolo. CTG: A connectivity trace generator for testing the performance of opportunistic mobile systems. In European Software Engineering Conference and the International ACM SIGSOFT Symposium on the Foundations of Software Engineering (ESEC/FSE07), Dubrovnik, Croatia, 2007. A. Chaintreau, J. Crowcroft, C. Diot, R. Gass, P. Hui, and J. Scott. Pocket switched networks and the consequences of human mobility in conference environments. In WDTN, pages 244251, 2005. A. Clauset and N. Eagle. Persistence and periodicity in a dynamic proximity network. In DIMACS Workshop, 2007. A. Scherrer, P. Borgnat, E. Fleury, J.-L. Guillaume, and C. Robardet. Description and simulation of dynamic mobility networks. Computer Network, 52:28422858, 2008. Pierre Ugo Tournoux, Jérémie Leguay, Marcelo Dias de Amorim, Farid Benbadis, Vania Conan, and John Whitbeck. The Accordion Phenomenon: Analysis, Characterization, and Impact on DTN Routing. In Proceedings of the 28rd Annual Joint Conference of the IEEE Computer and Communications Societies (INFOCOM), pages 11161124. IEEE, 2009.

RETOUR