François HU

François HU

Lead AI research scientist @Milliman

Paris, Île-de-France, France
1 k abonnés + de 500 relations

À propos

- Data Scientist (PhD at ENSAE) with a demonstrated history of working in the insurance industry
- Award for the best thesis in actuarial science in France (SCOR2022)
- Lecturer in statistics and computer science (ML/DL/NLP)
- Good IT knowledge : Git, MLflow, ETL, Model orchestration (+2 years Kedro) and Model deployment
- Notions of Lean & Agile methodologies.

Activité

S’inscrire pour voir toute l’activité

Expérience

  • Graphique Milliman France

    Lead AI Research Scientist

    Milliman France

    - aujourd’hui 6 mois

    Ville de Paris, Île-de-France, France

    ========== FR ==========
    - Consultant, co-responsable du pôle IA dans le département R&D.
    - En charge des projets IA dont l'IA de confiance (équité algorithmique, interprétabilité des modèles prédictifs, robustesse, calibration), l'IA générative (NLP, LLM et leur transparence) et la validation des modèles en assurance.
    - En charge du développement et de la maintenance MLops

    Milliman est un cabinet indépendant leader mondial du conseil en actuariat avec plus de 4500 actuaires et…

    ========== FR ==========
    - Consultant, co-responsable du pôle IA dans le département R&D.
    - En charge des projets IA dont l'IA de confiance (équité algorithmique, interprétabilité des modèles prédictifs, robustesse, calibration), l'IA générative (NLP, LLM et leur transparence) et la validation des modèles en assurance.
    - En charge du développement et de la maintenance MLops

    Milliman est un cabinet indépendant leader mondial du conseil en actuariat avec plus de 4500 actuaires et consultants répartis sur plus de 70 bureaux à travers le monde (Europe, US, Amérique Latine, Asie Pacifique, Afrique, Moyen-Orient). Nos équipes conseillent plus de 90% des plus grands acteurs de l’assurance et nous travaillons ainsi régulièrement avec la quasi-totalité des compagnies d’assurance du top 50 mondial.

    ========== EN ==========
    - Co-responsible of the AI Lab. Lead data scienist R&D.
    - Lead AI projects including trustworthy AI (algorithmic fairness, interpretability of predictive models, robustness, calibration), generative AI (NLP, LLM and their transparency) and model validation in insurance.
    - In charge of MLops development and maintenance.

  • Graphique Université de Montréal

    Chercheur postdoctoral en apprentissage statistique

    Université de Montréal

    - 1 an 5 mois

    Montréal, Québec, Canada

    ========== FR ==========
    - Chercheur postdoctoral au Département de mathématiques et de statistique de l'Université de Montréal avec Arthur Charpentier (UQAM) et Manuel Morales (UdeM)
    - Domaines : apprentissage automatique, apprentissage profond, NLP, vision par ordinateur, statistiques (fréquentistes et bayésiennes).

    ========== EN ==========
    - Postdoctoral Researcher in the Department of Mathematics and Statistics at Université de Montréal with Arthur Charpentier (UQAM) and…

    ========== FR ==========
    - Chercheur postdoctoral au Département de mathématiques et de statistique de l'Université de Montréal avec Arthur Charpentier (UQAM) et Manuel Morales (UdeM)
    - Domaines : apprentissage automatique, apprentissage profond, NLP, vision par ordinateur, statistiques (fréquentistes et bayésiennes).

    ========== EN ==========
    - Postdoctoral Researcher in the Department of Mathematics and Statistics at Université de Montréal with Arthur Charpentier (UQAM) and Manuel Morales (UdeM)
    - Keywords : machine learning, deep learning, NLP, computer vision, statistics (frequentist and Bayesian)

    I am currently engaged in collaborative research within diverse domains, with notable expertise in the following areas:
    - Statistics: I specialize in algorithmic fairness, specifically in the realms of statistical (machine/deep) learning and mathematical modeling. My expertise is underscored by the publication of multiple papers in top journals and conferences within this domain.
    - Epidemiology / Biostatistics: Within the field of biostatistics, my focus revolves around the application of spatiotemporal and NLP techniques. Specifically, I am actively involved in the development and implementation of an 'Early Warning System for Infectious Diseases'. This project is part of the Mathematics for Public Health (Mfph) initiative.
    - Finance: My active participation in collaborative research extends to the finance domain, where our efforts are concentrated on algorithmic fairness and NLP techniques. The objective is to identify Environmental, Social, and Governance (ESG) concepts within Canadian companies. This joint initiative, conducted in partnership with Algora Lab (affiliated with UdeM and Mila), strives to advance sustainable finance and instill ethical considerations within the realms of AI and ML.

    See:
    http://www.fields.utoronto.ca/activities/public-health
    https://algoralab.ca/fr/lalgora-lab/
    https://mila.quebec/mila/

  • Société Générale Assurances

    Société Générale Assurances

    4 ans 3 mois

    • Graphique Société Générale Assurances

      Data Scientist

      Société Générale Assurances

      - 3 ans 2 mois

      Paris La Défense

      ========== FR ==========
      Mes responsabilités comprennent la supervision de divers projets statistiques, tels que l'apprentissage en ligne, l'apprentissage semi-supervisé, la transparence dans les modèles d'apprentissage profond et la vision par ordinateur. J'ai joué un rôle dans le déploiement de modèles d'apprentissage automatique pour l'évaluation des assurances, couvrant les domaines de l'habitation (MRH) et de l'automobile (Auto). De plus, j'ai contribué à l'implémentation d'outils ETL…

      ========== FR ==========
      Mes responsabilités comprennent la supervision de divers projets statistiques, tels que l'apprentissage en ligne, l'apprentissage semi-supervisé, la transparence dans les modèles d'apprentissage profond et la vision par ordinateur. J'ai joué un rôle dans le déploiement de modèles d'apprentissage automatique pour l'évaluation des assurances, couvrant les domaines de l'habitation (MRH) et de l'automobile (Auto). De plus, j'ai contribué à l'implémentation d'outils ETL tout en restant impliqué dans la construction d'un pipeline d'orchestration ML de bout en bout, en utilisant des outils MLOps comme Git (Github/Gitlab), MLflow, Kedro, CICD/tests automatisés...

      ========== EN ==========
      I specialize in textual data analysis, emphasizing fairness and transparency in machine learning models. My responsibilities include overseeing various statistical projects, such as online learning, semi-supervised learning, transparency in deep learning models, and computer vision. I played a role in deploying machine learning models for insurance scoring, covering habitation (MRH) and automotive (Auto) domains. Furthermore, I actively contributed to implementing ETL tools and remain involved in constructing a streamlined End-to-End ML orchestration pipeline, utilizing MLOps tools like Git (Github/Gitlab), MLflow, Kedro, CICD / automated tests ...

    • Graphique Société Générale Assurances

      Data Scientist junior

      Société Générale Assurances

      - 9 mois

      Paris La Défense, Île-de-France, France

      ========== FR ==========
      Chargé d'études et modélisation au sein du datalab.
      - Détection des données textuelles non conformes au RGPD
      - Scoring basé sur les données télématiques
      - Études basées sur les modèles ML pour la tarification automobile / MRH

      ========== EN ==========
      In charge of experimental studies and modeling within the datalab.
      - Detection of GDPR non-compliant text data
      - Scoring based on telematics data
      - Studies based on ML models for automobile /…

      ========== FR ==========
      Chargé d'études et modélisation au sein du datalab.
      - Détection des données textuelles non conformes au RGPD
      - Scoring basé sur les données télématiques
      - Études basées sur les modèles ML pour la tarification automobile / MRH

      ========== EN ==========
      In charge of experimental studies and modeling within the datalab.
      - Detection of GDPR non-compliant text data
      - Scoring based on telematics data
      - Studies based on ML models for automobile / MRH pricing

    • Graphique Société Générale Insurance

      Data Scientist stagiaire

      Société Générale Insurance

      - 6 mois

      Paris La Défense, Île-de-France, France

      ========== FR ==========
      - Étude des données télématiques : DataViz, Scoring, Signature et clusting des individus, ...
      - DataViz et Data Storytelling des données textuelles.

      ========== EN ==========
      - Study of telematic data: DataViz, Scoring, Signature and clusting of individuals, ...
      - DataViz and Data Storytelling of textual data.

  • Graphique EPITA: Ecole d'Ingénieurs en Informatique

    Enseignant en machine learning

    EPITA: Ecole d'Ingénieurs en Informatique

    - 1 an 9 mois

    Ville de Paris, Île-de-France, France

    ========== FR ==========
    Chargé des cours magistraux du Master Artificial Intelligence Systems :
    - Apprentissage machine bayésien
    - Python
    - Algorithme numérique et optimisation
    - Initiation à la programmation

    ========== EN ==========
    Lecturer in the Master Artificial Intelligence Systems:
    - Bayesian Machine Learning
    - Python
    - Numerical algorithm and optimization
    - Initiation to programming

  • Graphique ENSAE Paris

    Enseignant (vacataire) en statistiques et informatique

    ENSAE Paris

    - 2 ans 9 mois

    ========== FR ==========
    Chargé de TD/TP pour les cours suivants

    1A - Algorithmes et programmation (2019).
    2A - Theoretical foundations of Machine Learning (2019).
    2A - Simulation et Monte Carlo (2019 - 2022).
    2A - Projet de statistique appliquée (ou d’économétrie) (2019 - 2022) :
    Cet enseignement complète les cours théoriques de sondages, d’analyse des données, de statistique, d’économétrie, de séries temporelles et d’introduction au machine learning de deuxième…

    ========== FR ==========
    Chargé de TD/TP pour les cours suivants

    1A - Algorithmes et programmation (2019).
    2A - Theoretical foundations of Machine Learning (2019).
    2A - Simulation et Monte Carlo (2019 - 2022).
    2A - Projet de statistique appliquée (ou d’économétrie) (2019 - 2022) :
    Cet enseignement complète les cours théoriques de sondages, d’analyse des données, de statistique, d’économétrie, de séries temporelles et d’introduction au machine learning de deuxième année des élèves de l'ENSAE. Il permet aux élèves de se familiariser avec les différentes étapes de la modélisation statistique (élaboration d’un modèle, estimation et test) et les appliquer sur des données réelles.

    3A Advanced Machine Learning (2020 - 2021).

  • Graphique Institut des Actuaires

    Enseignant en NLP et Deep Learning

    Institut des Actuaires

    - 3 ans 1 mois

    ========== FR ==========
    Intervenant pour la formation "Data Science pour l'Actuariat" (DSA)
    Cours : "Text-Mining"
    - Préprocessing des données textuelles
    techniques explorées : tokenisation, lemmatisation, racinisation, stop-words, ...
    - NLP dans un contexte non-supervisé : topic modeling, word embedding, doc embedding
    techniques explorées : techniques bag-of-words, TF-IDF, word2vec, doc2vec, lsa, plsa, lda, lda2vec, ...
    - NLP dans un contexte supervisé : Named Entity…

    ========== FR ==========
    Intervenant pour la formation "Data Science pour l'Actuariat" (DSA)
    Cours : "Text-Mining"
    - Préprocessing des données textuelles
    techniques explorées : tokenisation, lemmatisation, racinisation, stop-words, ...
    - NLP dans un contexte non-supervisé : topic modeling, word embedding, doc embedding
    techniques explorées : techniques bag-of-words, TF-IDF, word2vec, doc2vec, lsa, plsa, lda, lda2vec, ...
    - NLP dans un contexte supervisé : Named Entity recognition, classification de textes, traduction automatique, génération de textes.
    techniques explorées : RNN, BRNN, DRNN, LSTM, GRU, ...
    - NLP dans un contexte semi-supervisé : problème d'annotations, apprentissage actif pour des données textuelles
    techniques explorées : échantillonnage incertain, échantillonnage basée sur le désaccord des modèles

    pour plus d'informations : https://curiousml.github.io/ (page perso)

Formation

  • Graphique ENSAE Paris

    ENSAE Paris

    Doctorat Mathematics Obtention du prix de la meilleure thèse en actuariat (prix SCOR 2022)

    -

    ========== FR ==========
    Thèse de doctorat de l'Institut Polytechnique de Paris intitulée 'apprentissage semi-supervisé: étiquetage et équité' préparée à l'ENSAE avec Caroline Hillairet et Romuald Elie.

    ========== EN ==========
    - PhD thesis entitled 'Semi-supervised learning in insurance: Fairness and Labeling'.
    Insurance and financial institutions amass large volumes of unstructured data on a daily basis. However, effectively managing this extensive data presents numerous…

    ========== FR ==========
    Thèse de doctorat de l'Institut Polytechnique de Paris intitulée 'apprentissage semi-supervisé: étiquetage et équité' préparée à l'ENSAE avec Caroline Hillairet et Romuald Elie.

    ========== EN ==========
    - PhD thesis entitled 'Semi-supervised learning in insurance: Fairness and Labeling'.
    Insurance and financial institutions amass large volumes of unstructured data on a daily basis. However, effectively managing this extensive data presents numerous challenges within the field of ML: the existing manual tagging approach by experts is inefficient for handling large volumes and real-time information; the data may contain biased information, raising ethical concerns and making it unsuitable for use. To address these issues, there is a need for the implementation of a precise (in terms of prediction), cost-effective (labeling), and ethical (fairness) learning system. We solve these issues by offering a solution to improve data management and compliance.

  • Graphique UC Berkeley College of Engineering

    UC Berkeley College of Engineering

    Research Visit Statistique, Machine Learning

    -

    Rare category analysis and active learning
    Département : Berkeley IEOR (Industrial Engineering & Operations Research)
    Etude supervisée par : Romuald ELIE

  • Graphique Université Pierre et Marie Curie

    Université Pierre et Marie Curie

    Master MATHEMATICS AND STATISTICS with high honors

    -

    La spécialité Statistique du Master vise à former des statisticien(ne)s et des data-scientists. Elle s’appuie sur le Laboratoire de Probabilité, Statistique et Modélisation (LPSM) de Sorbonne Université, qui constitue son laboratoire d’accueil.

  • Graphique Brown University

    Brown University

    Summer School Mathematics and Computer Science

    - aujourd’hui

    Parallélisation dans le temps pour la simulation de systèmes d'équations différentielles ordinaires et d'équations aux dérivées partielles

  • Graphique Université Pierre et Marie Curie

    Université Pierre et Marie Curie

    Licence Mathematics with honors

    -

    Obtention du double-diplôme Mathématiques-Informatique dans le cadre du :
    *Parcours Bi-Disciplinaire Intensif Informatique et Mathématiques (PIMA)

  • Graphique Université Pierre et Marie Curie

    Université Pierre et Marie Curie

    Licence Informatique with honors

    -

    Obtention du double-diplôme Mathématiques-Informatique dans le cadre du
    *Parcours Bi-Disciplinaire Intensif Informatique et Mathématiques (PIMA)

Licences et certifications

Projets

  • Analyse des séquences biologiques par modèle de Markov

    -

    Langage de programmation : R

  • Analyse et simulation de l'intéraction Proies-Prédateurs

    -

    Langage de programmation : MATLAB

  • Classement des résultats de recherche : PageRank

    -

    Langage de programmation : Python

  • Analyse statistique d’une famille de protéines

    -

    Langage de programmation : Python

  • Détecteur de langue dans un texte

    -

    Langage de programmation : Python

  • Suivre un objet dans une séquence d’images

    -

    Langages de programmation : C et C++

Langues

  • Français

    Bilingue ou langue natale

  • Italien

    Capacité professionnelle complète

  • Chinois

    Bilingue ou langue natale

  • Anglais

    Capacité professionnelle générale

Plus d’activités de François

Voir le profil complet de François

  • Découvrir vos relations en commun
  • Être mis en relation
  • Contacter François directement
Devenir membre pour voir le profil complet

Autres profils similaires

Autres personnes nommées François HU (France)

Ajoutez de nouvelles compétences en suivant ces cours