Σύνδεσμοι για βάσεις δεδομένων με σώματα κειμένων

1.                  Ελληνικά – ενήλικος λόγος

http://www.sek.edu.gr/index.php

Σώμα Ελληνικών Κειμένων – Corpus of Greek Texts

Το σώμα κειμένων είναι προϊόν συνεργασίας των Πανεπιστημίων Αθηνών και Κύπρου και περιλαμβάνει ένα ευρύ φάσμα προφορικών και γραπτών κειμενικών ειδών. Στα προφορικά δεδομένα του ΣΕΚ περιλαμβάνονται κείμενα πληροφορίας, ειδήσεις (επίκαιρα και ψυχαγωγικά νέα από ραδιόφωνο και τηλεόραση), συνεντεύξεις (από ραδιόφωνο, τηλεόραση κ.ά.), ομιλίες (ακαδημαϊκές και μη), και κείμενα μη πληροφορίας, δηλαδή συνομιλίες πρόσωπο με πρόσωπο και τηλεφωνικές συνομιλίες.

http://corpus-ins.lit.auth.gr/corpus

Corpus Προφορικού Λόγου του Ινστιτούτου Νεοελληνικών Σπουδών – Corpus of Spoken Greek of the Institute of Modern Greek Studies

Το Corpus Προφορικού Λόγου του Ινστιτούτου Νεοελληνικών Σπουδών του Ιδρύματος Τριανταφυλλίδη αναπτύχθηκε στο πλαίσιο του έργου «Γλωσσική Διεπίδραση και Ανάλυση Συνομιλίας» (Pavlidou 2012). Το Corpus Προφορικού Λόγου αναπτύχθηκε πρωταρχικά με στόχο την ποιοτική ανάλυση της γλώσσας και της γλωσσικής επικοινωνίας, ειδικότερα από τη σκοπιά της Ανάλυσης Συνομιλίας. Το υλικό έχει αντληθεί από φυσικές περιστάσεις επικοινωνίας με διαφορετικό βαθμό θεσμικότητας και περιλαμβάνει ποικίλα είδη λόγου: καθημερινές συνομιλίες μεταξύ φίλων και συγγενών, τηλεφωνικές συνδιαλέξεις μεταξύ φίλων και συγγενών, γλωσσική διεπίδραση στη σχολική τάξη, τηλεοπτικά δελτία ειδήσεων και άλλες τηλεοπτικές εκπομπές.

2.                  Ελληνικά-παιδικός λόγος

https://childes.talkbank.org/

CHILDES (Child Language Exchange System)

Διεθνής βάση παιδικού λόγου που περιλαμβάνει δεδομένα για κατάκτηση ποικίλων γλωσσών (Αγγλικής, Γερμανικής, Γαλλικής, Ιταλικής, Κινέζικης, Τουρκικής, Βασκικής και πολλών άλλων γλωσσών). Τα γλωσσικά δεδομένα προέρχονται από τυπικά αναπτυσσόμενα παιδιά, μονόγλωσσα ή δίγλωσσα, αλλά και παιδιά με γλωσσικές διαταραχές.

Τα δεδομένα για την ελληνική γλώσσα είναι καταχωρημένα σε δυο βάσεις:

Doukas’ database:

https://childes.talkbank.org/browser/index.php?url=Other/Greek/Doukas/

Stephany’s database:

https://childes.talkbank.org/browser/index.php?url=Other/Greek/Stephany/

3.                  Ξενόγλωσσα-Ενήλικος λόγος

https://quod.lib.umich.edu/cgi/c/corpus/corpus?c=micase;page=simple

Michigan Corpus of Academic Spoken English (MICASE)

Συλλογή από προφορικά δεδομένα ακαδημαϊκών ομιλιών & συνομιλιών σε ποικίλα θεματικά πεδία, στην αγγλική γλώσσα, Πανεπιστήμιο Michigan.

https://app.sketchengine.eu/#dashboard?corpname=preloaded%2Fbase

British Academic Spoken English Corpus (BASE)

Σώμα προφορικών κειμένων ακαδημαϊκού λόγου στην αγγλική γλώσσα, Πανεπιστήμια Warwick & Reading.

http://www.univie.ac.at/voice/

Vienna-Oxford International Corpus of English

Σώμα κειμένων προφορικού λόγου αποτελούμενο από αυθόρμητες ομιλίες & συνομιλίες μη φυσικών ομιλητών-χρηστών της αγγλικής ως δεύτερης/ ξένης/ lingua franca γλώσσας (ΕLF), σε ποικίλες περιστάσεις επικοινωνίας.

https://www.english-corpora.org

Βάση δεδομένων που περιέχει ποικίλα corpora (π.χ. βρετανικών αγγλικών: British National Corpus (BNC) ή αμερικάνικων αγγλικών: Corpus of Contemporary American English (COCA) κ.ά.), ποικίλων ειδών λόγου (προφορικού και γραπτού) / ύφους / ποικιλότητας κτλ. Στη διεύθυνση http://cass.lancs.ac.uk/cass-projects/spoken-bnc2014/ υπάρχουν δείγματα αυθόρμητων, ανεπίσημων συνομιλιών χρηστών από όλο το Ηνωμένο Βασίλειο.  

https://experts.griffith.edu.au/

 The Griffith Corpus of Spoken Australian English (GCSAusE)

Σώμα κειμένων προφορικών συνομιλιών που αφορούν χρήστες της αγγλικής στην Αυστραλία.

https://www.clarin.eu/resource-families/spoken-corpora#spoken-corpora-in-the-clarin-infrastructure

Clarine infrastructure

Σώμα κειμένων αυθόρμητου προφορικού λόγου ομιλητών σε 14 διαφορετικές γλώσσες (Αραβικά, Γαλλικά, Γερμανικά, Ουγγρικά, Ιταλικά, Τσέχικα, Νεπάλι κ.ά.)

4.                  Ξενόγλωσσα-Παιδικός λόγος

https://childes.talkbank.org/

CHILDES (Child Language Exchange System)

Διεθνής βάση παιδικού λόγου που περιλαμβάνει δεδομένα για κατάκτηση ποικίλων γλωσσών (Αγγλικής, Γερμανικής, Γαλλικής, Ιταλικής, Κινέζικης, Τουρκικής, Βασκικής και πολλών άλλων γλωσσών). Τα γλωσσικά δεδομένα προέρχονται από τυπικά αναπτυσσόμενα παιδιά, μονόγλωσσα ή δίγλωσσα, αλλά και παιδιά με γλωσσικές διαταραχές.

http://metashare.nytud.hu/repository/browse/hungarian-kindergarten-languagecorpus/b572a8106ba711e2aa7c68b599c26a06a4db2e695cf94a1cad6bf6793d747d2a/
The Hungarian Kindergarten Language Corpus (HUKILC)

Σώμα κειμένων με συνομιλίες που αφορούν παιδιά προσχολικής ηλικίας που αναπτύσσουν την ουγγρική γλώσσα.

http://boulderlearning.com/request-the-myst-corpus/

The MyST (My Science Tutor) Children’s Speech Corpus

Σώμα κειμένων με λόγο & συνομιλίες παιδιών 8-11 ετών που αφορούν διάφορα γνωστικά πεδία.

Close Menu