🤖🧠 Jeśli ktoś chciałby dołączyć do projektu PLLuM (Polish Large Language Universal Model) w jakiejkolwiek formie np. udostępniając dane, dzieląc się wiedzą czy też wsparciem promocyjnym NASK przygotowało formularz zgłoszeniowy.
Na Politechnice Wrocławskiej liczymy, że uda się już zainstalować nowe, bardzo duże moce obliczeniowe pod koniec I kwartału. Od ponad pół roku zbieramy też tworzone manualnie instrukcje oraz prompty do chata poprzez nasze okienko: https://lnkd.in/ddTMvwJg. Prowadzimy badania przede wszystkim nad tym gdzie występują luki w przypadku języka polskiego i braki informacyjne na temat naszej kultury. Mamy już też zebranych wiele wysokiej jakości zbiorów danych (w tym korpusy od CLARIN), które zasilą model. Liczymy, że wspólnie uda się nam stworzyć model otwarty oraz bezpieczny - odpowiadający na problemy polskiego użytkownika.
Zachęcamy do zgłoszeń. Link: https://lnkd.in/d4awnhaa
Head & Co-Founder of hAI Magazine @CampusAI | AI (NLP) Senior Research Engineer @Wroclaw University of Tech | Top100 Women in AI and Top100 in Data Science in PL | invited public speaker
💝 Droga Społeczności!
Ze wzruszeniem oglądam i przyjmuję płynące wszelkimi kanałami - tu na Linked, w mailach, telefonicznie, osobiście - składane przez wielu z Was wyrazy zainteresowania i chęć współuczestnictwa w projekcie odpowiedzialnego rozwoju pierwszego, otwartego polskojęzycznego dużego modelu językowego - PLLuM 💜 . I ponieważ ta skala zainteresowania zaczyna się już wymykać spod kontroli, przygotowaliśmy dla Was prosty formularz zgłoszenia, żeby w jednym miejscu i formacie zebrać wstępne deklaracje wsparcia projektu.
Dotyczy to zarówno chęci podzielenia się wiedzą, danymi, jak i wsparcia na poziomie promocji, patronatu czy jakiejkolwiek innej, której jeszcze nie przewidzieliśmy.
Wszystkich zainteresowanych bardzo gorąco zachęcam do wypełnienia tego formularza (a wypełnienie to zajmie pewnie z 10 sekund 😎), bo do osób z tak powstałej listy będziemy się (najprawdopodobniej już w styczniu) odzywać ze szczegółami w pierwszej kolejności.
PLLuM to ważna inicjatywa, łącząca potrzeby tak wielu grup zawodowych i społecznych, że powinna powstawać szeroko i wspólnie.
Emilia WiśniosAgnieszka KarlińskaMaciej PiaseckiMaciej OgrodniczukMarek Kozłowski, PhDPiotr PezikMichał KarpowiczSebastian KondrackiMinisterstwo Cyfryzacji
⬇⬇ LINK w komentarzu ⬇⬇
#wywiad#lingwistykakorpusa#wordnet#humanistykacyfrowa
👉 Jak wyglądała praca przy początkach powstawania Słowosieci? Z jakimi wyzwaniami musiał się zmierzyć ówczesny zespół i jakie są najważniejsze zastosowania i możliwe kierunki rozwoju Słowosieci na przyszłość?
Na te i inne pytania odpowiedziała dr hab. Magdaleną Derwojedowa, jedna z koordynatorek projektu Słowosieci w latach 2005-2009.
👉 Zapraszamy do lektury na naszym blogu! https://lnkd.in/dQXj3Xxg
Wywiad jest dwuczęściowy. Druga część ukaże się w poniedziałek 18 grudnia
Tam, gdzie polskie NLP tam też nie może zabraknąć ekipy CLARIN-PL/Politechnika Wrocławska 📚
Z przyjemnością informujemy, że udało się nam zawiązać konsorcjum aż sześciu instytucji (PWr - lider konsorcjum, NASK-PIB, OPI-PIB, IPI PAN, UŁ, IS PAN) zainteresowanych polskim generatywnym modelem językowym. Celem jest powstanie LLMa, który będzie uwzględniał specyfikę języka polskiego oraz kulturę i historię Polski 🇵🇱. Będzie to ogólnodostępny model w większości wytrenowany na treściach polskojęzycznych zbudowany z myślą o nauce, biznesie, ale przede wszystkim o społeczeństwie! Całość projektu ma być przeprowadzona zgodnie z dobrymi praktykami etycznej i odpowiedzialnej sztucznej inteligencji 🤖🤝👩 przy zachowaniu reprezentatywności, przejrzystości i sprawiedliwości danych.
Ważnymi partnerami w projekcie są również przedstawiciele biznesu, administracji publicznej oraz organizacje społeczne wspierające otwartą naukę (special thanks to SpeakLeash.org). Za niedługo będziemy, więc informowali jak można dołączyć do inicjatywy 😁
No to PLLuM (Polish Large Language Universal Model) 🗣️
Polacy nie gęsi, swój polskojęzyczny model AI mają. A dokładniej to zaraz będą mieli, bo oto właśnie nadchodzi... PLLuM! 🗣️
29 listopada 2023 r., w przeddzień pierwszych urodzin #ChatGPT, sześć spośród wiodących w Polsce jednostek naukowych z obszaru sztucznej inteligencji i językoznawstwa: Politechnika Wrocławska (lider konsorcjum), NASK Państwowy Instytut Badawczy, National Information Processing Institute
(OPI-PIB), Instytut Podstaw Informatyki Polskiej Akademii Nauk, Uniwersytet Łódzki oraz Instytut Slawistyki PAN utworzyło konsorcjum PLLuM (Polish Large Language Universal Model).
💡 Celem współpracy jest stworzenie pierwszego polskojęzycznego otwartego dużego modelu językowego (#PLLuM) oraz opracowanie na jego podstawie inteligentnego asystenta.
Projekt będzie prowadzony zgodnie z dobrymi praktykami etycznej i odpowiedzialnej sztucznej inteligencji, w tym przy zachowaniu reprezentatywności, przejrzystości i sprawiedliwości danych.
Szczegóły ➡️ https://lnkd.in/dG8u4nQj#ML#AI#SztucznaInteligencja#NASKScience
MODEL GENERATYWNY DLA JĘZYKA POLSKIEGO
Mamy przyjemność oficjalnie poinformować o naszych pracach nad modelem generatywnym dla języka polskiego 💬. Od początku zeszłego roku prowadzimy badania nad różnymi modelami i niestety wszystkie one posiadają deficyty odnośnie nie tylko samego języka (gramatyki, fleksji, stylistyki), ale również polskiej kultury, obyczajów oraz faktów z historii ⚔️. Wynika to z wykorzystania małej ilości polskich danych przy treningu.
W CLARIN-PL już od 10 lat zajmujemy się przetwarzaniem języka polskiego. We współpracy z kilkudziesięcioma firmami i wieloma uniwersytetami 🏫 tworzymy korpusy językowe oraz narzędzia. Bardzo silnie współpracujemy z humanistami cyfrowymi z całej Polski. Nie możemy pozwolić na brak udziału w rewolucji NLP związanej z generatywnymi treściami.
Zapraszamy wszystkich do współpracy 🤝👥🤝.
Już teraz mamy zebrane prawie 300 gigabajtów czystego tekstu pochodzącego z różnych źródeł i liczba ta cały czas rośnie. Potrzebujemy jednak jeszcze więcej korpusów ✍️ Zatrudniamy też 60 osób przygotowujących instrukcje do tego systemu, przy pomocy których można go stroić pod realizację naszego modelu językowego. Każdy może pomóc. Wystarczy korzystając z naszego darmowego okienka na ChatGPT wystawić ocenę odpowiedzi chatu buźką i zamieścić komentarz.
Zachęcamy do korzystania z naszego okienka do ChatGPT, RWKV oraz LLaMA: https://lnkd.in/ddTMvwJgJan Kocoń, Maciej Piasecki, Przemysław Kazienko, Tomasz Kajdanowicz, Igor Cichecki, Oliwier Kaszyca, Mateusz Kochanek, Dominika Szydło, Joanna Baran, Julita Bielaniewicz, Marcin Gruza, Arkadiusz Janz, Kamil Kanclerz, Wiktoria Mieleszczenko-Kowszewicz, Piotr Miłkowski, Łukasz Radliński, Konrad Wojtasik, Stanisław Woźniak, Bartosz Walkowiak, Magdalena Drewniak, Jan Wieczorek, Agnieszka Dziob-Zadworna#nlp#clarinpl#pwr#llm
Naukowcy z naszej uczelni pracują nad polską wersją ChatGPT! Będzie on uzupełniony materiałem w języku polskim oraz danymi związanymi z polskim kontekstem społeczno-kulturalnym.
Badania prowadzi zespół z konsorcjum naukowego CLARIN-PL na Wydziale Informatyki i Telekomunikacji. W projekcie współpracuje już m.in. z Ministerstwo Cyfryzacji i National Information Processing Institute.
Pierwsza, testowa wersja ma zostać opublikowana już w pierwszej połowie przyszłego roku.
Więcej na: https://lnkd.in/dAg2ScAX
#pokonferencji#dziękujemy
☕ W zeszłym tygodniu mieliśmy przyjemność spotkać się w interdyscyplinarnym gronie i nakarmić intelektualnie wiedzą o przeróżnych projektach badawczych i wdrożeniowych, nawiązujących do zadań realizowanych w ramach projektu CLARIN-PL. W imieniu całego zespołu CLARIN-PL chcielibyśmy ślicznie podziękować przedstawicielom świata biznesu, którzy wzięli udział w naszej jubileuszowej konferencji. W tym:
🌻 Katarzyna Głowińska, PhD (Snowflake,Lingventa sp. z o.o.) która podzieliła się z nami cennym doświadczeniem i wiedzą na temat wyzwań i propozycji rozwiązań przy tworzeniu dużych zbiorów danych
🌻 Inez Okulska, PhD, Agnieszka Karlińska, Anna Kołos (NASK), które zaprezentowały nam korpus szkodliwych i obraźliwych treści BAN-PL ze strony Wykop.pl
🌻 Michał Swędrowski (Literacka ) za pokazanie zastosowania sztucznej inteligencji w procesie wydawniczym książek
🌻 Krzysztof Pająk (LangMedia) za przybliżenie tematyki automatycznej korekcji tekstów
🌻 Krzysztof Jassem (Laniqo, Uniwersytet im. Adama Mickiewicza w Poznaniu), który opowiedział o wydobywaniu informacji dla branży medycznej który opowiedział o wydobywaniu informacji dla branży medycznej oraz wraz z Artur Nowakowski (Laniqo) zarysował wyzwania związane z rozwojem tłumaczenia maszynowego
🌻 Agata Rybacka i Monika Niegowska - Postek (Diuna Language Services) za przedstawienie punktu widzenia tłumacza w procesie tłumaczenia
🌻 zespołowi Allegro : Ireneusz Gawlik, Michał Junczyk, Artur Kot, Robert Mroczkowski, Krzysztof Wilkosz za sponsoring, prezentacje oraz udział w arcyciekawej debacie na temat tłumaczenia maszynowego
🌻 Dziękujemy również Konrad Chojnicki (BazaFunduszy) za przeprowadzenie warsztatów nt. procedury składania wniosków zgodnie ze ścieżką SMART, która jest jednym ze sposobów na który można wejść we współpracę z infrastrukturą CLARIN-PL.
🌻 Dziękujemy także instytucjom, które wspierały konferencję oraz projekt CLARIN-PL: NCN Narodowe Centrum Nauki, Narodowe Centrum Badań i Rozwoju, Ministerstwo Edukacji i Nauki, Politechnika Wrocławska, Katedra Sztucznej Inteligencji PWr, Centrum Innowacji i Biznesu PWr, Wrocławskie Centrum Sieciowo- Superkomputerowe i Dariah.Lab
Niezwykle sobie cenimy takie spotkania, to w końcu dla Państwa rozwijamy i ulepszamy infrastrukturę CLARIN-PL i cieszymy się, gdy widzimy tak namacalnie konkretne zadania i problemy, które zostały rozwiązane przy zastosowaniu naszych narzędzi.
PS
Wszystkie dotąd zebrane materiały w postaci prezentacji są dostępne tutaj: https://clarin.biz/media. Sukcesywnie będziemy dodawać pozostałe materiały i nagrania wszystkich prelegentów, którzy wyrazili na to zgodę. Zachęcamy do sprawdzania zakładki Mediateka na naszej stronie :)
#sponsorzy#konferencja#sniadanie#tłumaczenie
Mamy zaszczyt poinformować, że do grona sponsorów naszej konferencji dołączyło Allegro. Allegro ML Research to laboratorium badawczo-rozwojowe stworzone w celu opracowywania i stosowania najnowocześniejszych metod uczenia maszynowego. Przedstawiciele Allegro będą też m.in. prelegentami na naszym śniadaniu biznesowym AI o tematyce tłumaczenia maszynowego✍️.
Michał Junczyk - lider zespołu Data Annotation Services w dziale Machine Learning Research, którego funkcją jest wytwarzanie manualnie wzbogacanych zbiorów danych na potrzeby modelowania oraz oceny jakości systemów AI. Wcześniej lider zespołu Language Data Operations w centrum badawczo-rozwojowym Samsunga w Warszawie, gdzie odpowiadał za zasoby językowe do rozwoju inteligentnych asystentów głosowych na rynki europejskie. Doktorant na Uniwersytecie Adama Mickiewicza. Jego badania dot. metod zarządzania korpusami mowy w celu poprawy ich użyteczności ewaluacji systemów rozpoznawania mowy dla języka polskiego.
Z uwagi na wysokie zainteresowanie stacjonarne zapisy na śniadanie zostały wstrzymane. Można jednak cały czas zapisywać się na transmisję online prowadzoną przez EVENT MEDIA SHOW. Zapisy na transmisję są dostępne: https://lnkd.in/dXTtBN-mCentrum Innowacji i Biznesu PWrKatedra Sztucznej Inteligencji PWr