Προφορικό Σώμα Κειμένων Ελληνόφωνων Παιδιών (ΠΣΚΕΠ)

Σκοπός

 Η μελέτη της εξέλιξης της παιδικής γλώσσας και η περιγραφή των ιδιαίτερων χαρακτηριστικών της είναι ένα γνωστικό πεδίο που έχει απασχολήσει ερευνητές διάφορων επιστημονικών κλάδων συναφών με την ανάπτυξη του παιδιού. Μια τέτοιου είδους έρευνα απαιτεί την καταγραφή και την ανάλυση μεγάλου όγκου δεδομένων από την παιδική γλώσσα. Με την ανάπτυξη της τεχνολογίας, η συλλογή υλικού από την παρατήρηση/ καταγραφή του αυθόρμητου παιδικού λόγου και από τις πειραματικές μεθόδους διευκολύνθηκε σημαντικά. Σήμερα, η εκτεταμένη χρήση των τεχνολογιών στην ανάλυση της γλώσσας και η δυνατότητα δημιουργίας βάσεων δεδομένων έχει εξασφαλίσει την καταγραφή ενός μεγάλου όγκου υλικού από τον παιδικό λόγο, την κωδικοποίησή του και την αυτόματη ανάλυση μεταβλητών, συμβάλλοντας έτσι στην ανάπτυξη της επιστήμης της παιδικής γλώσσας με τεράστιες προοπτικές για το μέλλον. Η πιο γνωστή διεθνής βάση δεδομένων παιδικού λόγου αναπτύχθηκε στην Αμερική το 1984 και ονομάστηκε CHILDES. H βάση αυτή περιέχει δεδομένα και από την ελληνική γλώσσα, ωστόσο είναι περιορισμένης έκτασης.

Είναι φανερό ότι μια συλλογή γλωσσικού υλικού από παιδιά που καταγράφει σύγχρονα και διαρκώς αυξανόμενα δεδομένα, επιτρέποντας την ανάλυση και την εξαγωγή συμπερασμάτων για την αναπτυσσόμενη γλώσσα διευκολύνει και προωθεί τόσο τη μελέτη της φυσιολογικής ανάπτυξης της παιδικής γλώσσας όσο και της αποκλίνουσας, αλλά και τροφοδοτεί με κρίσιμα πορίσματα το χώρο της εκπαίδευσης και διδακτικής της γλώσσας. Το Προφορικό Σώμα Κειμένων Ελληνόφωνων Παιδιών (ΠΣΚΕΠ)  έχει σαν σκοπό να διευκολύνει την έρευνα για τη γλωσσική ανάπτυξη δίνοντας σε φοιτητές και ερευνητές πρόσβαση σε υλικό για τη γλώσσα μικρών παιδιών με μητρική την Ελληνική. Το Σώμα αποτελείται από ψηφιακά αρχεία με συνομιλίες ενηλίκων και παιδιών το οποίο εμπλουτίζεται σταδιακά και προσφέρει τη δυνατότητα στο χρήστη να επιλέξει συνομιλίες χρησιμοποιώντας παράλληλα έναν συνδυασμό κριτηρίων αναζήτησης.

 Περιγραφή

 Το υλικό του ΠΣΚΕΠ αποτελείται από αυθεντικές συνομιλίες ενηλίκων και παιδιών (2,5 – 6+ ετών) που συγκεντρώθηκε με τη βοήθεια των φοιτητών (Πανεπιστήμιο Θεσσαλίας, Παιδαγωγικό Τμήμα Προσχολικής Εκπαίδευσης) στα πλαίσια του ετήσιου μαθήματος «Ανάπτυξη του λόγου στο παιδί» (από το 2015 και εξής) και επεξεργάστηκε στη συνέχεια από την ερευνητική ομάδας που συστάθηκε για τη δημιουργία βάσης δεδομένων: όλες οι συνομιλίες έχουν απομαγνητοφωνηθεί και καταχωρηθεί σε ξεχωριστά αρχεία. Το Σώμα προβλέπεται να συνεχίζει να εμπλουτίζεται σταδιακά.

Ο επισκέπτης του Σώματος μπορεί να επιλέξει να δει όλες τις καταχωρημένες συνομιλίες με τη σειρά, ή να επιλέξει κάποιες από αυτές εφαρμόζοντας κριτήρια αναζήτησης (φύλο ή ηλικία νηπίου, περιοχή ή ημερομηνία καταγραφής κ.ά.)

Στην αρχή κάθε συνομιλίας εμφανίζεται μια «καρτέλα στοιχείων» που δίνει πληροφορίες γι’ αυτή, όπως φύλο/ ηλικία νηπίου, τους συμμετέχοντες, το χώρο που γίνεται η καταγραφή κ.ά., καθώς και ένας κωδικός, μοναδικός για κάθε συνομιλία, που συνοψίζει εν μέρει τα στοιχεία της:  αριθμός υποκειμένου (αύξουσα σειρά συνομιλίας στο corpus), φύλο (f/m), ηλικία (έτη.μήνες), μονόγλωσσο ή δί(πολύ)γλωσσο παιδί (ML/BL), είδος περιοχής διαμονής: αστική/ ημιαστική/ αγροτική/μη καταγεγραμμένη (U/SU/R/NC), έτος καταγραφής. Ακολουθεί το κείμενο της απομαγνητοφωνημένης συνομιλίας.

Ο λόγος του ερευνητή/-τριας ή άλλων συμμετεχόντων καταγράφεται ορθογραφικά. Κατά την κωδικοποίηση του παιδικού λόγου επιδίωξη ήταν να αποδοθούν και φωνητικές ιδιαιτερότητες/ αποκλίσεις. Έτσι, για την καταγραφή του, χρησιμοποιήθηκε κατά βάση το Διεθνές Φωνητικό Αλφάβητο, με ορισμένες προσαρμογές για διευκόλυνση της ανάγνωσης, στην κατηγορία των ουρανικών: έτσι, τα ουρανικά συμβολίζονται με [k’, g’, x’, n’, l’] (όμως κρατείται το σύμβολο [j] για το ουρανικό τριβόμενο ηχηρό).

Κατά την απομαγνητοφώνηση χρησιμοποιήθηκαν οι ελάχιστες δυνατές συμβάσεις/ σύμβολα, προκειμένου να διασφαλιστεί η κατά το δυνατόν ευχερής ανάγνωση της συνομιλίας. Τα σύμβολα που χρησιμοποιούνται είναι τα εξής:

  • Οι παρατηρήσεις του ερευνητή που επεξηγεί/ σχολιάζει την περίσταση ή το λόγο του παιδιού μπαίνουν σε διπλή παρένθεση: (( ))
  • Εάν κάποιος φθόγγος, λέξη, φράση κτλ δεν ακούγεται καλά τοποθετείται σε μονή παρένθεση/ μια άδεια παρένθεση στη θέση του ακατανόητου εκφωνήματος: ( )
  • Σύμβολα που χρησιμοποιούνται για τους συμμετέχοντες στις συνομιλίες: Ε (Ερευνητής/-τρια), Ν (Νήπιο), Μ(ητέρα), Π(ατέρας) και Σ (οποιοσδήποτε άλλος συμμετέχων/-ουσα – για φιλικά ή λοιπά συγγενικά πρόσωπα νηπίου ή ερευνητών ή γονέων)
  • Κεφαλαία: δηλώνουν αύξηση της έντασης της φωνής
  • Αποσιωπητικά: δηλώνουν παύσεις στο λόγο
  • Διπλά σύμβολα: δηλώνουν διάρκεια στην εκφώνηση

 

Ερευνητική ομάδα

 Η ομάδα έργου που δημιούργησε το ΠΣΚΕΠ αποτελείται από τους:

Ελένη Μότσιου, Επίκουρη καθηγήτρια Παιδαγωγικού Τμήματος Προσχολικής Εκπαίδευσης του Πανεπιστημίου Θεσσαλίας, επιστημονικά υπεύθυνη

Θάνο Λίτσο, Μεταπτυχιακό φοιτητή του Τμήματος Αγγλικής Γλώσσας και Φιλολογίας του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης, υπεύθυνο για την κωδικοποίηση και επιμέλεια των αρχείων του Σώματος

Γιάννη Κυριαζή, Ηλεκτρονικό Μηχανικό ΤΕ στο Παιδαγωγικό Τμήμα Προσχολικής Εκπαίδευσης του Πανεπιστημίου Θεσσαλίας, υπεύθυνο για τη δημιουργία της ηλεκτρονικής βάσης δεδομένων και ιστοσελίδας του ΠΣΚΕΠ.

Το έργο υλοποιήθηκε με χρηματοδότηση της Επιτροπής Ερευνών (Ειδικός Λογαριασμός Κονδυλίων Έρευνας) του Πανεπιστημίου Θεσσαλίας.

The Greek Children Spoken Language Corpus (GCSL Corpus)

Researchers in the field of Children’s Language Acquisition address fundamental questions about how language is acquired, enrich the descriptions of young children’s language, and attempt to offer interpretations of how children gradually master their own language system. In the area of language acquisition, standardized tests and experiments can offer a great insight in language development, but the insights that this work generates need to be supplemented with research into the complex patterns of conversational interactions that emerge when a child engages in normal, everyday (naturalistic) language. Furthermore, special aspects of spontaneous child language, such as typical children’s “errors” or “divergences” from the adult norm, have to be clarified, explained and evaluated. This is especially important not only for the scientific research in the area of Language Acquisition/ Development alone, but also for an education system that is increasingly focused on standards and the promotion of literacy; therefore, there is a growing need for reliable, objective description and analysis of child language. In order to attain this target, we need to observe, record, and analyse spontaneous and extensive language samples. The systematic collection of samples of child-adult interactions recorded from spontaneous conversations is nowadays facilitated by technological advances and used for the creation of child language corpora. A corpus of child language is a systematic collection of samples of child-adult(s) interactions, recorded and transcribed, permitting the fast and accurate analysis of growing amounts of data in small amounts of time. The most commonly used child language database is CHILDES.

Although researchers outside the Greek-speaking world can draw on linguistic corpora to utilise extensive linguistic data from children, Greek language acquisition research lacks an analogous collection of data. It is this situation that the creation of the Greek Children Spoken Language Corpus (GCSL Corpus) seeks to remedy: in order to promote research in the area of child language acquisition in Greek, we developed a database of computerized child language corpora, containing recorded and transcribed linguistic materials from young children’s spontaneous speech (children-adult conversations), for children whose native language is Greek. Thus, the GCSL Corpus is a spoken language materials data collection concerning children aged 2,5 – 6+ (kindergarten/preschool group), without speech disorders, and it gives researchers the opportunity to study young child’s language as a conversational interaction with adults, while allowing one to focus on specific aspects of language competence from a developmental view.

 A variety of samples of child-adult interactions recorded in natural contexts has been collected and transcribed since 2015 in collaboration with students during the course “Child Language Development” (University of Thessaly, Department of Early Childhood Education): of course, there is a continuous flow of new material. The recording of children’s speech material was conducted in situations of interaction with adult(s): spontaneous speech, answers to questions, reading, poetry or retelling a tale, play. Almost all of the data represent real spontaneous interactions in natural contexts, rather than some simple list of sentences or test results. The information about children or other participants, recording conditions e.t.c. is given for each conversation. 

Child spoken material is transcribed phonetically (with minor deviations from IPA), in order to capture the exact speech production of the child, marking only basic features of spontaneous discourse such as overlap, pauses, increased volume speech etc. Transcription of adult spoken material is orthographic, since its phonetic features are outside the scope of the corpus. The main idea is that the corpus should contain text materials in simple and plain text format so that corpus users have easy access to the plain texts without stumbling upon any redundant and potentially distracting linguistic information tagged up within text samples. In the GCSL Corpus users have the possibility to study the child language as an interaction, selecting to display the entire conversation between a child and one or more adults: users can choose to see transcribed texts for each one of the interactions that are separately inserted as entire entries in the corpus. Furthermore, multiple searches are possible using a combination of criteria, such as age, sex or geographical area, in order to select specific conversations of interest.

Research team:

Eleni Motsiou, Principal Researcher (Associate Professor, Department of Early Childhood Education, University of Thessaly, Volos – Greece)

Thanos Litsos, Research Assistant, transcription & editing (MA student, School of English, Aristotle University of Thessaloniki – Greece)

Giannis Kyriazis, Technical Support Assistant (Department of Early Childhood Education, University of Thessaly, Volos – Greece)

The project is funded by the University of Thessaly Research Council (Special Account for Research Funds).

Close Menu