Inside Baseball: Coverage, quality, and culture in the Global WordNet


Inside Baseball: Coverage, quality, and culture in the Global WordNetThe Global WordNet is succeeding in producing relatively open linguistic data that is coordinated to a degree among numerous languages. The project has grown organically, with no overall plan or direction. The result is a certain amount of incoherence in determining what items should be treated in wordnets, and how the various wordnets should aspire to consistent quality. Using the example of terms related to baseball, which constitute a non-trivial portion of the Princeton WordNet, this paper discusses problems of coverage selection both for English and for other languages, as well as methods to improve quality and depth through public review of current content, and contribution of missing terms and definitions. It is proposed that proper names be removed entirely from WordNet and treated as a separate project, and that individual languages produce annexes of indigenous concepts that can be readily considered within sister projects as a supplement to the Anglo-American weighting of the current endeavor. To produce a consistent product that transmits inter-intelligible understanding at a high level across languages, it is proposed that an open committee of interested stakeholders convene to consider the project's goals and develop a roadmap for how to achieve them. Baseball dla zaawansowanych: pokrycie leksykalne, jakosc i kultura w Global WordNetGlobal WordNet z powodzeniem tworzy stosunkowo otwarte dane jezykowe, do pewnego stopnia powiazane pomiedzy wieloma jezykami. Projekt zyje wlasnym zyciem, bez zadnego ogólnego planu ani kierunku. Rezultatem jest pewna niespójnosc w okreslaniu, które elementy powinny znalezc sie w wordnetach oraz w jaki sposób rózne wordnety powinny dazyc do utrzymania tej samej jakosci. Na przykladzie terminów zwiazanych z baseballem, które zajmuja niemala czesc Princeton WordNet, niniejszy artykul omawia problemy wyboru pokrycia leksykalnego zarówno dla jezyka angielskiego, jak i innych jezyków, a takze metody poprawy jakosci poprzez publiczny przeglad aktualnych tresci oraz dodanie brakujacych terminów i definicji. Proponuje sie, aby nazwy wlasne zostaly calkowicie usuniete z WordNetu i potraktowane jako odrebny projekt, a w ramach poszczególnych jezyków utworzone zostaly aneksy rodzimych pojec, które mozna wziac pod uwage w ramach siostrzanych projektów jako uzupelnienie obecnego anglo-amerykanskiego przedsiewziecia. W celu stworzenia spójnego produktu, który bedzie charakteryzowal sie wzajemna zrozumialoscia na wysokim poziomie w róznych jezykach, proponuje sie zwolanie otwartego komitetu zainteresowanych podmiotów, aby rozwazyc cele projektu i opracowac plan dzialania, w jaki sposób cele te osiagnac.

