BookCorpus

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

BookCorpus (также иногда называемый Toronto Book Corpus) представляет собой набор данных, состоящий из текстов около 11 000 неопубликованных книг, извлеченных из Интернета. Это был основной корпус, использовавшийся для обучения начальной версии GPT OpenAI[1], он также использовался в качестве обучающих данных для других ранних больших языковых моделей, включая BERT от Google[2]. Набор данных состоит примерно из 985 миллионов слов, а книги, входящие в его состав, охватывают целый ряд жанров, включая романы, научную фантастику и фэнтези[2].

Корпус был представлен в статье 2015 года исследователей из Университета Торонто и Массачусетского технологического института под названием «Сопоставление книг и фильмов: на пути к сюжетным визуальным объяснениям путем просмотра фильмов и чтения книг». Авторы описали его как состоящий из «бесплатных книг, написанных ещё неопубликованными авторами»[3][4]. Набор данных изначально размещался на веб-странице Университета Торонто[4]. Официальная версия исходного набора данных больше не является общедоступной, хотя была создана по крайней мере одна замена, BookCorpusOpen. Хотя это и не было задокументировано в оригинальной статье 2015 года, сайт, с которого были извлечены книги корпуса, теперь известен как Smashwords[4][5].

Примечания[править | править код]

  1. Improving Language Understanding by Generative Pre-Training (англ.). OpenAI.com. Дата обращения: 9 июня 2020. Архивировано 26 января 2021 года.
  2. 1 2 Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 October 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL].
  3. Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. Proceedings of the IEEE International Conference on Computer Vision (ICCV). Архивировано 5 февраля 2023. Дата обращения: 9 апреля 2023.
  4. 1 2 3 Lea, Richard Google swallows 11,000 novels to improve AI's conversation (англ.). The Guardian (28 сентября 2016). Дата обращения: 9 апреля 2023. Архивировано 25 марта 2023 года.
  5. Bandy, John; Vincent, Nicholas Addressing "Documentation Debt" in Machine Learning: A Retrospective Datasheet for BookCorpus (англ.). Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks (2021). Дата обращения: 9 апреля 2023. Архивировано 29 марта 2023 года.