Exemples de recherche de texte et d’exploration de données à l’aide de documents protégés par le droit d’auteur

Exemples-de-recherche-de-texte-et-dexploration-de-donnees-a

Exemples-de-recherche-de-texte-et-dexploration-de-donnees-aUne série d’amendements récents à la législation sur le droit d’auteur, y compris dans le Droit d’auteur de l’UE et directive sur le marché unique numérique (art. 3 et 4) et à Singapour nouvelle Loi sur le droit d’auteur (Art. 243, 244), visent à protéger la capacité des chercheurs en exploration de textes et de données à utiliser du contenu protégé par le droit d’auteur dans leur travail. L’« exploration de textes et de données » (« TDM ») décrit toute application d’un processus de calcul à des matériaux pour dériver des données à partir ou à propos de ces œuvres. Le TDM peut être utilisé pour aider à former des applications informatiques à s’engager dans l’apprentissage automatique ou l’intelligence artificielle (« IA ») qui applique des analyses et des processus supplémentaires pour permettre aux machines d’ »apprendre » dynamiquement de nouvelles tâches pour lesquelles elles n’ont pas été spécifiquement programmées. Une étude approfondie des exceptions de recherche dans plus de 190 pays montre que le droit d’auteur peut être un obstacle à certains types de recherche GDT dans la plupart des pays du monde aujourd’hui. Ces exemples aident à illustrer les vastes avantages publics qui peuvent découler de l’harmonisation des exceptions au droit d’auteur pour les utilisations à des fins de recherche dans l’environnement numérique.

Accélération de la revue de la littérature

L’un des Le plus commun utilisations de TDM est d’aider les chercheurs à trouver, lire et analyser des informations dans des revues universitaires et d’autres sources. Par exemple, une étude de Zhen Wang et al Étudié les taux d’erreur des examinateurs humains lors de la sélection des résumés dans les revues systématiques et suggéré de faux taux d’inclusion et d’exclusion par les examinateurs humains. De même, une étude de Candyce Hamel et al a montré à quel point l’IA et l’apprentissage automatique actif peuvent faciliter la recherche médicale future par sélection de titres et de résumés. Dans le même ordre d’idées, les études de Piotr Przybyla et al autre Alison O’Mara-Eves et al montrent l’utilité de l’IA et de l’exploration de données pour la hiérarchisation et l’identification dans les revues systématiques. Avec les décisions aux États-Unis et les changements juridiques dans d’autres pays permettant une plus grande utilisation du TDM sans licence supplémentaire pour les œuvres sous-jacentes, un certain nombre d’outils de recherche sont devenus disponibles pour faciliter l’analyse automatisée de la littérature, y compris Recherche de preuves, ASReview, Covidence, DistillateurSR (regarde ça étude utilisateur sur DistillerAI), RÉSUMÉ JBI, passoire, Rayyan (voyez donc ici), RobotAnalyste, Annie. De nombreux projets décrits ci-dessous utilisent cette fonction de base du TDM dans diverses applications spécifiques. Des études ont montré une amélioration significative des résultats de la recherche TDM en utilisant des articles en texte intégral, qui sont souvent derrière un mur payant ou soumis à des licences supplémentaires, plutôt que de simples résumés, qui sont souvent plus librement disponibles. Par exemple, David Westergaard et al a analysé 15 millions d’articles en texte intégral en anglais de 1823 à 2016 et a comparé les résultats aux résultats obtenus à partir de 16,5 millions de résumés. Les résultats ont révélé que l’utilisation de l’exploration de texte sur des articles en texte intégral donnait systématiquement de meilleurs résultats par rapport à l’utilisation de résumés seuls.

Permettre la découverte médicale

Les chercheurs médicaux souvent utiliser le TDM pour étudier de nouvelles utilisations de médicaments et d’autres traitements qui peuvent conduire à des percées importantes. Par exemple, la recherche sur l’exploration de texte a permis d’identifier utilisations de la thalidomideun médicament qui avait été retiré du marché, pour traiter l’hépatite chronique, et a aidé découvrir un nouveau lien entre les gènes et l’ostéoporose qui a conduit à de nouveaux protocoles de traitement.

Suivi des épidémies et des pandémies

L’épidémie d’un nouveau coronavirus de Wuhan, en Chine, plus tard nommé COVID-19, a été la première découvert par une société canadienne d’intelligence artificielle appelée BlueDot. La firme a analysé « une variété de sources d’information, y compris en parcourant 100 000 reportages dans 65 langues par jour » pour reconnaître les tendances entre les épidémies de santé et les voyages (voir aussi ici). D’autres projets de GDT ont examiné les médias sociaux et d’autres sources en ligne pour suivre et expliquer l’hésitation à la vaccination contre la COVID-19 et pour identifier les patients à haut risque COVID-19. Par exemple, Shasha Teng et al a analysé un ensemble de données de 43 203 commentaires YouTube pour examiner les corrélations entre les facteurs d’hésitation à la vaccination et l’intention de vaccination. Réseau à domicile médicalisé (MHN) a utilisé des méthodes TDM dans le dépistage prédictif des risques pour la santé pour identifier les patients Medicaid qui présentent le risque le plus élevé de COVID-19.

Recherche sur les vaccins

La recherche COVID-19 a bénéficié de Projets GDT qui a extrait des publications scientifiques sur la famille des coronavirus, aidant à accélérer l’identification de candidats vaccins. A titre illustratif, voir L’étude de Hao Lv et al « cadeau[ing] une enquête approfondie sur l’application de l’IA et du ML pour lutter contre le COVID-19 basée sur la littérature qui émerge rapidement », AlphaFold’s prédictions informatiques des structures protéiques associées au COVID-19, et Xu Li et al Étude analysant « la séquence du génome du SRAS-CoV-2 et identifiant le SRAS comme la maladie la plus proche, sur la base de la similitude du génome entre les deux virus causals, suivi du MERS et d’autres maladies à coronavirus humain ». De même, L’étude d’AS Albahri et al intitulé « Rôle des techniques d’exploration de données biologiques et d’apprentissage automatique dans la détection et le diagnostic du nouveau coronavirus (COVID-19) : un examen systématique » confirme que « l’exploration de données et les techniques d’apprentissage automatique dans les domaines médicaux peuvent fournir le bon environnement pour le changement et l’amélioration ».

Identifier la désinformation et le discours de haine dans les médias

Les chercheurs de TDM qui suivent et exposent la désinformation doivent créer et partager des reproductions de médias protégés par le droit d’auteur, y compris des reportages, des blogs, des sites Web, des médias sociaux et d’autres sources. Les exemples comprennent bonnes nouvellesqui vise à « construire la capacité technologique pour la détection algorithmique des fausses nouvelles dans les médias sociaux », et FANDANGO, qui s’efforce « d’agréger et de vérifier différentes typologies de données d’actualité, de sources médiatiques, de médias sociaux, de données ouvertes, afin de détecter les fake news et de fournir une communication plus efficace et vérifiée pour tous les citoyens européens ». Le TDM a été utilisé dans plusieurs efforts pour lutter contre la désinformation sur le COVID-19, notamment en chercheurs à UC Riversideaux États-Unis (voir leur article ici), et par Xuehua Han et al en Chine (analyse de Sina-Weibo, un système de microblogging de type Twitter).

Décoloniser les outils de traduction linguistique

Les outils de traduction de langue de formation nécessitent un grand corpus de texte écrit dans les langues à traduire depuis et vers. Obtenir des quantités de texte suffisamment importantes peut s’avérer difficile même pour les langues disposant de ressources suffisantes telles que l’anglais, le français et l’espagnol. Un chercheur expliqué:

« Le principal problème est vraiment la clarté. Nous discutons souvent de la possibilité d’explorer le Web pour créer de très grands corpus de données linguistiques. Il y a beaucoup d’incertitude de notre côté quant à la mesure dans laquelle cela serait autorisé. C’est pourquoi nous nous concentrons sur des ensembles de données établis, mais ce serait un grand coup de pouce pour la recherche sur la compréhension du langage d’exploiter les données dans d’énormes corpus Web. Si nous savions précisément jusqu’où nous sommes autorisés à aller lors de l’exploration des données et de leur utilisation pour la recherche, cela serait très utile.

Les problèmes liés à la création d’ensembles de données de formation suffisamment volumineux sont aggravés pour « langues à faibles ressources» en Afrique et ailleurs. le Masakhanele projet, par exemple, cherche à « stimuler la recherche[surletraitementdulangagenaturel»dansleslanguesafricainespourlesAfricainsparlesAfricains»ProjetsMasakhaneenAfriqueduSudetauKenya[Recherchesurletraitementdulangagenaturel»dansleslanguesafricainespourlesAfricainsparlesAfricains»ProjetsMasakhaneenAfriqueduSudetauKenya[naturallanguageprocessing”researchinAfricanlanguagesforAfricansbyAfricans”MasakhaneprojectsinSouthAfricaandKenya[naturallanguageprocessing”researchinAfricanlanguagesforAfricansbyAfricans”MasakhaneprojectsinSouthAfricaandKenyaPar exemple, construisent des outils de traduction capables de traduire des articles universitaires en swahili, en zoulou et dans d’autres langues indigènes dans le but de « décoloniser la science ». Mais la formation de ces outils nécessite la capacité de reproduire et d’exploiter des articles de journaux et d’autres textes rédigés en langues africaines, dont certains éditeurs ont refusé l’autorisation d’utilisation. Le projet est donc étudier ses droits de faire des utilisations de recherche non autorisées en vertu de la loi africaine sur le droit d’auteur.

Examen du genre dans la littérature

UN étude sur la transformation of Gender a examiné une collection de plus de 100 000 romans dans la collection de la bibliothèque numérique HathiTrust de 1703 à 2009. Il a analysé les différences de langage utilisées pour discuter des personnages fictifs identifiés par des hommes et des femmes, constatant que du XIXe siècle au début des années 1960 , la proportion d’espace de caractère identifié par une femme a diminué. L’étude a été rendue possible grâce aux reproductions de livres par le projet Google Books et fournies au HathiTrust, dont la mise à disposition de la ressource pour la recherche d’exploration de textes et de données a été considérée comme une utilisation équitable dans Authors Guild v. Hathi Trust, 755 F .3d 87 (2d Cir. 2014).

Learning analytics pour améliorer les politiques éducatives en Uruguay

Les autorités éducatives de l’Uruguay ont signé un contrat avec une entreprise bien connue qui fournit des services de classe virtuelle pour les niveaux primaire et secondaire de l’enseignement public et privé. Mais les conditions d’utilisation de la plate-forme n’autorisent pas la recherche d’exploration de texte et de données et la loi uruguayenne ne prévoit pas d’exception applicable. Cette absence d’autorité légale claire a dissuadé l’Agence nationale de la recherche de l’Uruguay de l’utilisation des données de la plate-forme d’apprentissage dans son projet de création de «modèles de prédiction pour la détermination du risque académique, qui vise à créer un système d’alerte précoce du risque académique chez les élèves de l’enseignement primaire et secondaire public en Uruguay.

Inadéquation de la restriction de la recherche aux sources en libre accès

En raison de préoccupations concernant le droit d’auteur, les chercheurs de TDM limitent souvent leurs utilisations aux documents publiés sous des licences de droit d’auteur en libre accès. Mais limiter les données de formation à des sources en libre accès peut créer diverses formes de biais dans les résultats de la recherche. De nombreux modèles de formation linguistique, par exemple, limitent leurs données de formation aux articles de Wikipédia. Mais les articles en anglais dominent les pages Wikipédia et de nombreuses langues, telles que le ndebele – une langue officielle en Afrique du Sud, n’ont aucune page Wikipédia. De nombreux articles de recherche critiques nécessaires à la TDM ne sont pas publiés en libre accès. Par exemple, seulement 62% du PubMed britannique Les articles centraux sur le paludisme sont ouverts à la recherche de texte et d’exploration de données.

Conclusion : vers un droit à la recherche en droit d’auteur international

Promouvoir la plus grande utilisation possible de la technologie dans la recherche scientifique, universitaires (y compris dans un avis récent publié dans Science), et un nouveau « Coalition pour l’accès au savoir», appellent les pays à travailler ensemble, y compris dans les forums internationaux, pour promouvoir l’extension des exceptions de recherche dans l’environnement numérique. Les exemples ci-dessus de recherche GDT illustrent certaines activités de recherche qui peuvent être entreprises lorsqu’il existe des exceptions de recherche « ouverte » (comme ce terme est décrit par Flynn et Palmedo), mais cela peut être contrecarré dans des systèmes plus fermés (voir Flynn et al). Tous les pays devraient revoir leurs lois et clarifier leur application dans la sphère numérique et soutenir les efforts internationaux, comme au Organisation mondiale de la propriété intellectuelle autre UNESCOempêcher le droit d’auteur d’être un obstacle à la recherche et à la science.