выполнеть синтаксический разбор предложения.самое главное средство увеличения числа слов в
Надо найти главные члены правления.помтгите пожалуйста.
Расскажите пожалуйста как можно больше о спряжении глагола
3. Запиши по 2 слова:с удвоенной согласнойс непроизносимой согласной в корнес парной согласнойс непроверяемой безударной гласной в корне
морфологический разбор «весеннее» помогите
помогите пожалуйста выполнить найти наречие местоимения союз
морфологический разбор «в лесу» помогите
Придумай рассказ из 5-6 предложений , о том может ли быть на Марсе жизнь?____________________________________________________________________________
…
_______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ПОМОГИТЕ ПЖ СРОЧНО!!!
Задание 1 (5 баллов).
Допишите фразу:
В слове «список» количество букв и звуков ____________ (неравное/равное).
В слове «портфель» первый звук _______
…
_____ (звонкий/глухой).
Задание 2 (5 баллов).
Напишите количество букв и звуков в словах:
яблоко — ___ букв, ___ звуков;
тетрадь — ___ букв, ___ звуков;
праздник — ___ букв, ___ звуков.
Задание 3 (5 баллов).
Найдите слово, в корне которого пропущена чередующаяся гласная. Запишите в ответ это слово, вставив пропущенную букву:
р…стительность;
лес…ница;
тр…пинка;
ябл…ко.
Ответ: _____________________.
Задание 4 (5 баллов).
Укажите строчку, в которой на месте пропуска везде пишется буква Е:
щипл…т траву, в син…м небе, лежать на полян…;
гон…т гусей, хорош…й друг, закопать в земл…;
стел…т постель, могуч…й лес, убираться в дом…;
вид…шь речку, цепк…м движением, танцевать на площад….
В ответе запишите номер строки.
Ответ: ___________________________
Задание 5 (5 баллов).
Выпишите все служебные части речи из данного предложения:
Если бы можно было сейчас позвонить, прибежать, высказать!
Ответ: ___________________________.
Задание 6 (5 баллов).
Из предложения «По утрам около этого родника всегда пробегали белые собаки» выписаны словосочетания:
пробегали по утрам;
около этого родника;
пробегали всегда;
белые собаки.
Какое словосочетание не выписано из предложения? Запишите его в ответ.
Ответ: ____________________________.
Задание 7 (5 баллов).
Из предложения «Рябчик весь ощетинился напрягся» выпишите грамматическую основу (запятые не расставлены).
Ответ: __________________________.
Задание 8 (5 баллов).
Выберите три верные характеристики выделенного в предложении слова и запишите в ответ их номера.
На пригорке то сыро, то жарко,
Вздохи дня есть в дыханье ночном, —
Но зарница уж теплится ярко
Голубым и зелёным огнём.
Это слово:
наречие;
изменяется;
не имеет степеней сравнения;
местоимение единственного числа;
обозначает признак действия;
в предложении является обстоятельством.
Ответ: ___________________________
Задание 9 (5 баллов).
Прочитайте текст (запятые не расставлены).
(1) Мать шла позади чтобы не выпускать утят ни на минуту из виду. (2) И около кузницы при переходе через дорогу она пустила их вперёд. (3) Вот тут их увидели ребята и зашвыряли шапками. (4) Всё время пока они ловили утят мать бегала за ними с раскрытым клювом или перелётывала в разные стороны на несколько шагов в величайшем волнении. (5) Ребята только было собрались закидать шапками мать и поймать её как утят но тут я подошёл. (М. Пришвин)
Укажите номер(-а) сложного(-ых) предложения(-й).
Ответ: ___________________________.
Задание 10 (5 баллов).
В какой последовательности надо расположить предложения, чтобы получился текст?
А. Снег давно сбежал с полей мутными ручьями.
Б. Солнце ласково пригрело проснувшуюся землю.
В. Весна — удивительное время года.
Г. От разъезда до ближней деревни зеленеет озимая рожь, и по синему небу плывут беловатые облака.
В ответе запишите буквы в нужной последовательности.
Ответ: _____________________________.
Задание 11.
Прочитайте текст и выполните задания 1-3.
(1) Сложно представить человеческую жизнь без дружбы. (2) В дружбе часто приходится сталкиваться с испытаниями, и только преданные друзья проходят их достойно. (3) Вспомним героиню сказки Г.Х. Андерсена Герду: её друг Кай попал в беду, она отправилась на его поиски, ей пришлось преодолеть множество препятствий. (4) На её пути встречались и злые разбойники, и хитрая колдунья; ей приходилось мёрзнуть и голодать. (5) Но она смогла освободить своего друга из плена Снежной королевы.
1) Определите тип речи, использованный в предложениях 1-5 (повествование, описание, рассуждение, повествование с элементами описания). (5 баллов)
Запишите ответ: ________.
2) Какой заголовок наиболее точно отражает основную мысль текста? (5 баллов)
А. Что такое дружба?
Б. Испытания в дружбе.
В. Преданные друзья.
Г. Судьба Герды.
Ответ: ______________________
3) Среди предложений 1-5 найдите такое, которое связано с предыдущим с помощью союза и личного местоимения. В ответ запишите номер этого предложения. (5 баллов)
Ответ: ______________________.
Задание 12 (35 баллов).
Напишите небольшое сочинение (от 50 слов до 70 слов) на тему «Что такое дружба?».
Паж сделайте четверть закрываю, не успеваю
ТЕКСТ ЗАДАНИЯ1 задание. Рассмотрите иллюстрации. Выполните одно задание из 2-х предложенных тем.1. Придумайте сказку о священном дереве Байтерек, испол
…
ьзуя собственные знания и опыт.Повествование ведите от 1-го лица. Объем письменной работы — 100-150 слов.2. Представьте себя на месте маленькой звездочки и напишите сказку, используя имеющиеся знанияи жизненный опыт. Повествование ведите от 1-го лица. Объем письменной работы — 100-150слов.
Создайте дневниковую запись «Как я провел лето» с элементами художественного и разговорного стилей. Используйте в своей работе предложения, выражающие
…
различные состояния человека. Правильно пишите безударные падежные окончания (объем 50-60 слов). Сроочно
современные подходы и существующие проблемы – тема научной статьи по языкознанию и литературоведению читайте бесплатно текст научно-исследовательской работы в электронной библиотеке КиберЛенинка
ревень на границах регионов, которые вполне могут понимать своих соседей.
Кроме того, необходимо избегать идеи оппозиции «испанского Испании» и «испанского Латинской Америки». В рамках проведения политики популяризации испанского языка в мире нужно избежать идеи Испании как центра испаноязычной культуры и заменить ее идеей паниспанизма.
Автор статьи отмечает увеличение количества китайских студентов, изучающих испанский язык. В период с 2001 по 2006 г. их число с 1540 человек выросло втрое, а в 2016 г. уже 15 000 студентов официально обучались испанскому языку.
Таким образом, несмотря на свой мощный потенциал, испанский язык сталкивается с рядом вызовов на пути к своему дальнейшему распространению и укреплению. Скрытая языковая политика, проводимая правительством Испании, позволяет защищать позиции официального языка государства, избегая при этом критики в свою сторону. Несомненно, поддержание языкового баланса и поддержка носителей испанского языка является необходимой задачей государства. В то же время стоит помнить о том, что в эпоху глобализации распространение языка в первую очередь зависит от того, дает ли он своим носителям больше шансов на улучшение уровня жизни. В таком случае именно сильная экономика и широкое международное влияние делают язык привлекательным для населения.
Е.В. Майорова
ПРИКЛАДНОЕ ЯЗЫКОЗНАНИЕ. ПЕРЕВОД, ПЕРЕВОДОВЕДЕНИЕ
2020.04.008. СЕМИНА ТА. АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТА: СОВРЕМЕННЫЕ ПОДХОДЫ И СУЩЕСТВУЮЩИЕ ПРОБЛЕМЫ1.
SEMINA T.A. Sentiment analysis: Modern approaches and existing problems.
Аннотация. Статья посвящена обзору работ по анализу тональности, одному из актуальных направлений автоматической
1 © Семина Т.А., 2020
обработки естественного языка. В настоящее время можно говорить об анализе тональности как об отдельном направлении компьютерной лингвистики. Приводятся основные термины, связанные с данной теорией, дается краткое описание возникновения анализа тональности, описываются уровни проведения анализа тональности (уровень документа, предложения, аспектов, сущностей и событий) и подходы к созданию систем. В статье представлены проблемы, связанные с проведением анализа тональности, включающие в себя выявление имплицитной оценки, сарказм и иронию, вопросы дизамбигуации, монотематичности систем, ко-референтности и референции. Представлены компьютерные подходы к улучшению результатов работы программ анализа тональности, но большее внимание уделено лингвистическим подходам. Рассматриваются вопросы создания специальных лингвистических ресурсов для анализа тональности, таких как корпусы и лексиконы, кроме того, представлены теории, связанные с синтаксическими отношениями, риторической структурой текста и добавлением блока правил.
Abstract. The paper is devoted to the review of scientific works on sentiment analysys, that is one of the most relevant fields of natural language processing. Nowadays sentiment analysis may be considered as a separate area of computational linguistics. The main terms related to this sphere and a brief history are given, levels of sentiment analisis (document level, sentence level, aspect level, entity and events levels) are described. The paper states the problems associated with sentiment analysis, including the identification of implicit sentiment, sarcasm and irony, issues of disambiguation, monothematic design of the systems, coreference and reference. Computational approaches to improving the performance of sentiment analysis programs are presented, but more attention is paid to linguistic ones. The issues of creating special linguistic resources for sentiment analysis, such as corpora and lexicons, are considered, in addition, theories related to syntactic relations, the rhetorical structure of the text and the addition of a rules are presented.
Ключевые слова: анализ тональности; извлечение мнений; субъективность; оценка; автоматическая обработка естественного языка.
Keywords: sentiment analysis; opinion mining; subjectivity; assessment; natural language processing.
Анализ тональности как направление компьютерной лингвистики берет начало в последней декаде XX в., и сейчас является одним из самых активно развивающихся видов автоматического анализа естественного языка.
Анализ тональности, несмотря на связь с теорией оценочно-сти и эмотивности, относится к группе прикладных или компьютерных задач. Цель подобного анализа состоит в автоматическом выделении в тексте тонального компонента высказывания, включающего в себя автора мнения, которого обычно называют субъектом или источником, объект, по отношению к которому выражено мнение, и тональность, представляющую собой полярность оценки [Семина, 2017].
Термин анализ тональности (англ. sentiment analysis) начал применяться начиная с 2003 г. Одной из первых работ, в которой появился данный термин, была работа Т. Насукавы и Дж. Йи [Nasukawa, Yi, 2003], где исследовалось извлечение мнений по отношению к заданному предмету. В этом же году вышла работа K. Дейва, С. Лоуренса и Д.М. Пеннока [Dave, Lawrence, Pennock, 2003], в которой авторы говорили об «извлечении мнений» (англ. opinion mining) из отзывов о товарах. Тем не менее работы по анализу тональности и извлечению мнений начались за несколько лет до того, как были установлены данные термины, раньше такой анализ был связан с понятием семантической ориентации и анализом субъективности. Одной из первых работ по анализу тональности можно считать работу Дж. Виби о выявлении точки зрения персонажей художественной литературы. Целью работы была автоматическая классификация фрагментов текстов на объективные и на фрагменты, в которых выражено мнение или эмоции одного из персонажей художественного произведения [Wiebe, 1994]. Позже объектом исследовательского интереса стала семантическая ориентация прилагательных [Hatzivassiloglou, McKeown, 1997; Hatzivassiloglou, Wiebe, 2000; Wiebe 2000]. Дж. Виби, Р. Брюс и Т. О’Хара начали тестировать применение статистических методов к анализу субъективности [Wiebe, Bruce, O’Hara, 1999].
Анализ тональности начал активно развиваться после появления крупных сайтов с кинорецензиями и отзывами, это связано с особенностью необходимого языкового материала для анализа тональности. В упомянутой ранее работе Дж. Виби [Wiebe, 1994] исследование проводилось на художественных произведениях, но автоматический анализ текстов такого рода не представлял интереса для широкой аудитории. С развитием сети Интернет, появлением новых пользователей и сайтов стали генерироваться большие объемы текстовых данных, содержащих оценку, и, в связи с этим возникла необходимость в их обработке. Нужно отметить, что анализ тональности применяется в тех случаях, когда невозможна ручная обработка текстов человеком, что возникает при большом объеме данных. Человек способен прочитать несколько текстов и определить в них оценку и тональность, в то время как программа за это время обработает тысячи текстов, хоть и с меньшей точностью.
Сам термин «тональность» не полностью соответствует понятиям «мнение» и «оценка». Раньше было принято выделять субъективные и объективные фрагменты текста, но всегда следовала оговорка о неравнозначности тональности и субъективности. Термин «тональность» менялся, подстраиваясь под новый материал, который становился объектом исследования, все дальше уходя от термина «субъективность». Классической задачей анализа тональности можно назвать анализ кинорецензий и отзывов на товары, первые крупные исследования и эксперименты проводились на этом материале. Кроме того, рецензия и отзыв как жанр подразумевают наличие мнения автора по отношению к продукту, следовательно, и тональность будет представлена в каждом из них. Кинорецензии как материал для анализа тональности не имеют большой практической ценности, но они послужили отправной точкой для развития систем анализа тональности и показали их потенциальные возможности.
Развитие сети микроблогов Twitter привело к появлению большого числа работ по анализу тональности этого материала. В компьютерных науках и компьютерной лингвистике проводится немало соревнований в различных областях, которые позволяют исследовательским группам высших учебных заведений, научных лабораторий и коммерческих компаний представить свое решение отдельных прикладных задач. Многие соревнования по анализу
тональности, в том числе SentiRuEval, проходящий в России, в обучающую и тестовые выборки добавляют именно твиты. Twitter оказался очень удачным источником для проведения анализа тональности, поскольку расширил потенциальные темы текстов. В Twitter есть как собственно отзывы, так и материалы, где высказывается мнение о различных персонах, событиях или объектах, что расширило возможности применения анализа тональности, например, для выявления мнения пользователей о политиках с возможностью регулярного мониторинга изменения тональности. Подобный проект реализует Sentdex.com, где собирают большое число данных о выделенных темах (война, система здравоохранения и т.д.) и об отдельных людях, постоянно подгружаются новые данные и можно просмотреть, как менялась тональность с течением времени. Этот сайт использует не только данные Twitter, но и публикации на различных новостных порталах. Новостные статьи как материал для анализа тональности выделяются среди остальных, поскольку тональность в них крайне далека от обыденного понимания термина «мнение». Тональность в новостных статьях скорее определяется как действие, положительно или отрицательно влияющее на некоторый объект, субъектом считается агент действия, объектом — экспериенцер.
Как было сказано ранее, целью анализа тональности является выделение в тексте тональных компонентов, но это может проводиться на разных уровнях. Под уровнем анализа тональности понимается единица, из которой выделяется одно мнение. Можно выделить уровень документа, предложения, аспектов, сущностей и событий. Выбор уровня анализа напрямую связан с материалом исследования и с поставленной задачей.
Под уровнем документа понимается анализ всего текста, выделение в нем одного субъекта (обычно совпадает с автором), одного объекта и, самое главное, одной тональности. Качественный анализ на этом уровне возможен при относительно небольшом объеме текста, как, например, у твитов, или при анализе текстов с сильно выраженной тональностью, как у отзывов или рецензий. Систем, работающих на этом уровне, немало, и они имеют в основе разные подходы.
Анализ на уровне предложений подразумевает деление исходного текста на предложения и анализ каждого из них отдельно.
После чего можно представить общую тональность для всего текста, применив правила. Стоит отметить, что анализ на этом уровне не так популярен, из доступных систем он есть в пакете Vader Sentiment в библиотеке Natural Language Tool Kit для языка программирования Python.
Анализ на уровне аспектов дает больше информации об отношении пользователей не к объекту в целом, а к его «аспектам» -отдельным компонентам объекта, которые могут иметь собственную тональность. Аспекты объекта «смартфон» могут включать в себя аспекты «камера», «операционная система», «дисплей» и т.д., иными словами, к аспектам отнесут те понятия, по отношению к которым в тексте может быть выражена тональность. Для сферы кино Т. Тхет, Дж. На и К. Кху [Thet, Na, Khoo, 2010, S. 828] выделили следующие аспекты: cast, director, story, scene, music; для каждого аспекта были представлены термины, которые могут быть отнесены к каждому из аспектов. Выделение тональности по отношению к аспектам, а не к объекту в целом, является востребованной задачей в интеллектуальном анализе данных, потому что в тексте может быть выражена положительная тональность по отношению к одному аспекту, но отрицательная по отношению к другому, и для некоторых задач это является важным фактором. Анализ тональности на этом уровне осложняется необходимостью составления списка аспектов и последующего соотнесения найденной тональности и выделенных аспектов. Составление списка нередко выполняется вручную экспертами, а для последующего анализа каждому аспекту могут приписать список терминов, которые в тексте могут быть репрезентацией аспекта.
Анализ на уровне сущностей является более сложным подходом, для начала стоит определить, что понимается под сущностью. Как правило, сущностью являются так называемые именованные сущности (Named Entities) — слова и словосочетания, имеющие строго определенного референта. Примерами именованных сущностей являются люди, локации, геополитические организации, средства массовой информации и т.д. Появление анализа тональности на уровне сущностей можно связать как с развитием и доступностью систем выделения именованных сущностей, так и с обращением интереса исследователей к текстам новостных статей, в которых именно такого рода анализ может дать большое ко-
личество информации. Анализ на этом уровне является одним из наиболее сложных, доступных систем пока нет. Сложность определяется необходимостью выделения сущностей, дальнейшего установления тональных отношений между ними с определением полярности оценки. Анализ тональности на уровне сущностей имеет серьезное отличие от других уровней: автор текста не всегда будет субъектом всех тональностей, сущности в тексте также могут быть субъектами мнения.
Как отдельный уровень выделяется уровень событий, хотя на самом деле от анализа тональности на уровне сущностей он мало чем отличается. Более того, «событие» может быть видом именованной сущности, следовательно, и процесс выделения тональности на этом уровне практически не отличается от представленного выше.
Методы анализа тональности не претерпели серьезных изменений во время развития этого направления. Обычно в анализе тональности выделяют подходы:
— основанный на правилах, имеет в основе набор правил, написанных экспертом-лингвистом. Подход достаточно трудоемкий, и успешность применения зависит от многих факторов, в том числе материала анализа;
— основанный на словарях, для выявления тональности использует различные тональные лексиконы. Этот подход можно назвать одним из самых простых, потому что он сводится к выявлению тональных единиц в тексте, что довольно просто при наличии лексикона, и последующего их подсчета;
— основанный на машинном обучении, наиболее широко распространен в анализе тональности. Машинное обучение — подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных к обобщению и обучению. Традиционно в машинном обучении выделяют задачи обучения с учителем, обучения без учителя и регрессии, но в анализе тональности широко используется только первый тип алгоритмов. Это связано с особенностями регрессии и неприменимостью результатов регрессионного анализа для выявления мнений (применяется только логистическая регрессия, которая на самом деле является линейным классификатором). Обучение без учителя применяется нечасто, поскольку кластеризация, т.е. объединение документов в кластеры
на основе метрик расстояния между ними, для анализа тональности редко дает хорошие результаты;
— гибридный, позволяет использовать одновременно несколько подходов, например машинное обучение может получать в качестве признаков не слова, а количество единиц, входящих в тональные лексиконы.
Перечисленные методы являются стандартными для интеллектуального анализа текста, при машинном обучении анализ тональности сводится к обычной классификации.
Проблемы анализа тональности
Анализ тональности, как и любой вид анализа естественного языка, имеет ряд сложно решаемых проблем.
Одной из наиболее сложных проблем считается выделение имплицитной оценки. Деление мнения на имплицитное и эксплицитное типично для анализа тональности, но раньше имплицитную оценку часто опускали и не рассматривали как объект исследования из-за сложной реализации анализа. Эксплицитная оценка в тексте выражена отдельным тональным высказыванием — словом или словосочетанием, явно выражающим тональность, это делает ее доступной для автоматического анализа. Имплицитная тональность очевидна для человека, но трудно формализуема при автоматической обработке.
Выделение иронии и сарказма является проблемой не только анализа тональности, но и многих других систем обработки естественного языка. Системы обработки текста оперируют графемами и словоформами, и обучить их улавливать смысл ироничных высказываний возможно только в небольшой степени.
Проблемой анализа тональности можно назвать и монотема-тичность отдельных систем. При разработке итогового продукта или обучают программу на выборке текстов определенной тематики, или учитывают характеристики текстов при написании алгоритма. Система, обученная на корпусе кинорецензий, не будет показывать высокие результаты при определении тональности, например, отзывов о мобильных телефонах из-за разной лексики, свойственной этим видам текстов.
Анализ тональности сталкивается и с проблемами, свойственными всем видам анализа текстов, таким как необходимость дизамбигуации и разрешения референции.
Дизамбигуация или разрешение многозначности далеко не всегда становится вопросом исследования, связанным с анализом тональности, но при использовании отдельных ресурсов она будет необходима. Для тезауруса Wordnet была проведена разметка тональности для отдельных синсетов, главных элементов этого тезауруса, и проект SentiWordnet [Baccianella, Esuli, Sebastiani, 2010] теперь входит в библиотеку Natural Language Tool Kit. Необходимость проведения дизамбигуации связана с разной тональностью значений одного слова.
Сложность представляют и проблемы референции и корефе-ренции. При анализе тональности для местоимений нужно устанавливать их антецеденты для верной интерпретации оценки, и неточные результаты разрешения референции могут привести к потенциальным ошибкам в анализе тональности. Проблема коре-ференции может решаться различными способами, или при помощи графа знаний, или при помощи дополнительных правил и составленных списков кореферентных элементов. Кореференция не ведет к серьезным проблемам с выделением мнений, но установление эквивалентности единиц позволит убрать дублирующиеся тональности.
Современные подходы
Анализом тональности занимаются специалисты в области компьютерных наук и лингвисты, и с каждым годом количество статей на тему извлечения мнений не снижается. Существующие подходы не меняются, но претерпевают изменения и развиваются. Все новые идеи в анализе тональности можно разделить на две группы: изменения, связанные с применением новых алгоритмов машинного обучения, и изменения, связанные с внедрением новых лингвистических теорий и созданием новых лингвистических ресурсов. Несомненно, вторая группа интересует нас больше, но нельзя не сказать и об изменении в арсенале методов машинного обучения, применяемых в сфере анализа тональности.
За последние годы арсенал методов машинного обучения значительно расширился и продолжает расширяться. Если около пяти лет назад чаще всего можно было встретить работы, в которых основным был метод опорных векторов (Support Vector Machine), один из наиболее точных линейных классификаторов, то сейчас все чаще применяются различные нейронные сети: сети прямого распространения, рекуррентные и сверточные сети. Этому способствовало развитие этой отрасли, повлекшее за собой появление крупных библиотек с нейросетями, таких как TensorFlow или Keras, обе вышли в 2015 г. Кроме того, применяются другие методы компьютерного анализа текста, в том числе тематическое моделирование.
Лингвистические новые подходы носят, стоит отметить, более разнообразный характер.
Одним из них является создание новых ресурсов для анализа тональности. Типовыми ресурсами можно назвать корпусы и тональные лексиконы, конечно, созданные для различного материала. Разметка корпуса для анализа тональности нетипична, так как для различных единиц должна быть указана тональность, поэтому обычно требуется ручная разметка, тем не менее в ряде случаев удается автоматизировать этот процесс. Для сравнения рассмотрим небольшое число корпусов для английского языка в табл. 1 [Семина, 2019].
Таблица 1
Название Объем Тексты
Movie Review Dataset 2000 документов Кинорецензии
Sentiment Relevance Corpus 125 документов 3847 предложений Кинорецензии
Sanders Twitter Dataset 5387 документов Twitter
Health Care Reform Dataset 1,922 документа Twitter
Stanford Twitter Sentiment 1 200 000 документов Twitter
MPQA v 3. 0 70 документов Новостные статьи
Из данных, представленных в таблице, видно, что объем корпусов различается — если корпус новостных статей собран из 70 документов, то для Twitter число документов превышает миллион. Конечно, это связано и с объемом отдельного документа, и с глубиной разметки.
Другим важным лингвистическим ресурсом для анализа тональности является тональный лексикон. Тональный лексикон включает в себя тональные единицы языка, имеющие метку полярности оценки. При этом к созданию тональных лексиконов применяют разные подходы, часто они собираются автоматически. Выделяют несколько подходов к созданию тонального лексикона: ручной, основанный на словаре и основанный на корпусе текстов [Kochergina, 2015].
Тональные словари можно разделить на три вида:
1) содержащие только слова;
2) содержащие слова и полярность оценки;
3) содержащие слова, полярность и уровень оценки [Araque, Zhu, Iglesias, 2019].
Для английского языка представлено несколько тональных лексиконов, например SentiWordnet [Baccianella, Esuli, Sebastiani, 2010], LIWC [Tausczik, Pennebaker, 2010], NTU [Chen, Huang, Chen, 2018] и the Harvard inquirer [The general inquirer, 1966].
Для русского языка в свободном доступе находится РуСен-тиЛекс [Лукашевич, Левчик, 2016], кроме того, русский язык входит в пакет списков оценочных слов, собранный Й. Ченом и С. Скиеной [Chen, Skiena, 2014].
Существует и ряд нетипичных лингвистических ресурсов, созданных для анализа тональности, одним из них являются тональные фреймы. Тональный фрейм включает в себя лексическую единицу и подробную информацию, связанную с тональными отношениями между слотами фрейма, в том числе тональные отношения. Также прописывается возможное грамматическое окружение для поиска этого фрейма и установления тональных отношений. Такие ресурсы позволяют частично выделять имплицитную тональность, поскольку фрейм может содержать подробные отношения между слотами. Недостатком подхода является трудоемкость и невозможность охватить большое количество лексики и все возможные окружения.
Работа с синтаксическим уровнем языка
Интересным и важным является внедрение синтаксической информации в анализ. Тональность относится не только к семан-
тике, как компонент значения отдельных единиц, но и к прагматике высказывания, поэтому для максимально точного выделения тональности необходимо, начиная с графематического уровня пройти все уровни языка, чтобы дойти до тональности.
Синтаксическая информация может дополнять машинное обучение, положительно влияя на качество работы системы. При подобном подходе при обучении системы синтаксические характеристики войдут в число признаков, так в машинном обучении принято называть характеристики, при помощи которых описывается объект. Могут использоваться и синтаксические отношения, что в ряде задач будет давать лучшие результаты [Адаскина, Па-ничева, Попов, 2015].
Другим подходом является создание тональных корпусов с синтаксической разметкой, их можно назвать тональными трибан-ками. Группа исследователей университета Стэнфорд представила корпус Stanford Sentiment Treebank, объем которого составляет 9645 предложений [Recursive deep models for semantic compositio-nality over a sentiment treebank, 2013]. Предложения в корпусе имеют метку полярности на каждой вершине, при продвижении по дереву на каждой вершине метка зависит от показателей вершин под ней. Этот корпус используется для создания систем анализа тональности для английского языка и может использоваться совместно с разными методами автоматической классификации.
Если описанные ранее подходы к привлечению синтаксической информации были связаны с одной из теорий: грамматики непосредственных составляющих или грамматики зависимостей, то в рамках автоматической обработки возможна их комбинация. Сочетая эти способы представления структуры, можно нивелировать недостатки друг друга в извлечении оценочных выражений [Effective Sentiment Analysis of Chinese Online Reviews with Syntax Tree and Linguistics Heuristics, 2013, p. 10].
Это не единственные способы внедрения синтаксической информации в анализ тональности, кроме того, подробные синтаксические данные, которые представляют грамматика непосредственных составляющих и грамматика зависимостей, не всегда необходимы. П.Д. Турни занимался проблемой синтаксических паттернов, что можно назвать простым, но эффективным подходом к решению задачи добавления синтаксической информации.
Паттерн Турни состоит из трех элементов, соответствующих словам естественного языка, третий элемент не относится к тональному паттерну и необходим для более точного выделения паттерна [Титеу, 2002, S. 418]. Позже идея получила развитие, и паттерны были дополнены синтаксическими метками Стэнфорда, что значительно облегчало их применение [Almatameh, Gamallo, 2017]. В табл. 2 метки были заменены на эквивалентные им части речи.
Таблица 2
Первое слово Второе слово Третье слово
прилагательное существительное любое
наречие (может быть в сравнительной или превосходной степени) прилагательное не существительное
прилагательное прилагательное не существительное
существительное прилагательное не существительное
наречие (может быть в сравнительной или превосходной степени) глагол (начальная форма, форма прошедшего времени, форма причастия прошедшего времени, герундий) любое
Паттерны, представленные в работе П.Д. Турни, и в целом подобный подход к адаптации синтаксической информации для интеллектуального анализа, несомненно, не покрывают все возможные случаи представления тональных единиц в тексте. Тем не менее они являются более простыми в создании и применении и могут оказать положительное влияние на результат работы системы.
Привлечение теории риторической структуры
Дискурс как уровень языка редко становится объектом машинного анализа из-за сложностей, возникающих в процессе реализации, тем не менее он может быть полезен при анализе мнений. Идея привлечения теории риторической структуры дискурса к анализу тональности не нова, работы стали появляться с 2011 г., но эта идея не получила широкого распространения.
Несмотря на разные подходы к воплощению отдельных компонентов алгоритма, основной подход встречается во всех статьях: разбиение текста на элементарные дискурсивные единицы (ЭДЕ) и дальнейшее их объединение в древовидную структуру.
Системы такого рода дают хорошие результаты с f-мерой (одна из метрик для определения качества классификации имеет значения от 0 до 1) выше 0,7 [Polarity analysis of texts using discourse structure, 2011]. Более высокий результат показала система М. Крауса и С. Файерригеля [Kraus, Feuerriegel, 2019], также основанная на первоначальном анализе дискурса в рамках теории риторической структуры. Кроме того, возможно привлечение глубоких нейросе-тевых моделей, например рекуррентных нейронных сетей [Bhatia, Ji, Eisenstein, 2015].
Риторическая структура позволяет выделить более и менее «важные» фрагменты, и в соответствии с этим корректировать тональности этих фрагментов.
Добавление списка правил
Добавление правил можно считать одним из наиболее часто встречаемых способов улучшения работы алгоритма. Правила могут покрывать различные виды задач.
Возможно добавление правил для поиска ироничных и саркастических конструкций, которые будут основаны на поиске фрагментов текста, соответствующих некоторому шаблону. Частично это поможет решить проблему сарказма.
Часто отдельно расписывают правила для обработки отрицаний. В ряде случаев вводят правила, которые на начальном этапе работы добавляют единицам, входящим в сферу действия отрицания, определенный отрицательный маркер, например «не_хоро-ший». В таком случае компьютер будет считать это слово отдельной лексической единицей. Несомненно, существуют и другие подходы к решению этой задачи [A survey on the role of negation in sentiment analysis, 2010].
Добавление правил может также выделить часть имплицитной информации, например, Л. Чжан и Б. Лью [Zhang, Liu, 2011] собрали лингвистические шаблоны для распознавания фраз, выражающих имплицитное мнение, Л. Денг и Дж. Виби [Deng, Wiebe, 2015] использовали логические операции. Их модель определялась использованием множества элементарных элементов или атомов и правил если — то, выраженных в виде правил логики первого порядка. Идея логического вывода имплицитной тональности из экс-
плицитной является одной из удачно формализуемых идей, поскольку создание алгоритма вывода представляется возможным.
Отдельно могут составляться правила для обработки фрагментов усиления или ослабления тональности [Zhang, Liu, 2011].
Анализ тональности на протяжении последних 1 5 лет является актуальным и активно развивающимся направлением исследований, постоянно происходит улучшение подходов к анализу, внедрение новых идей и развитие старых.
Анализ тональности начал развитие с рецензий на фильмы и отзывы, но сейчас он более востребован в других сферах. Рецензии и отзывы стали хорошей основой для развития подходов, адаптации новых идей и методов. Если анализ отзывов имеет практическую значимость, то анализ рецензий для коммерческих компаний не представляет большого интереса. Актуальным направлением является анализ социальных сетей и новостных сообщений с целью выявления отношения к отдельным персонам или событиям. Это востребовано как в сфере политики, поскольку можно отслеживать отношение людей к персонам и проводимым реформам, так и в коммерческой среде. Многие крупные компании заинтересованы в системах анализа данных, с помощью которых можно отслеживать изменения в отношении пользователей к бренду или продукту.
Анализ тональности может являться составной частью других интеллектуальных систем, популярных в настоящее время, таких как выявление стресса у пользователей социальных сетей, определения fake news, систем извлечения данных (англ. data mining), в которых тональные отношения могут извлекаться как отдельный вид связи между объектами.
Это позволяет говорить о неутихающем интересе к анализу тональности как прикладной задаче, более того, в настоящее время его можно считать самостоятельным направлением компьютерной лингвистики с собственной терминологией и уникальными методами.
Список литературы
Адаскина Ю.В., Паничева П.В., Попов А.М. Сентиментный анализ твитов на основе синтаксических связей // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диа-
лог» (Москва, 27-30 мая 2015 г.). — Москва: Изд-во РГГУ, 2015. — Вып. 14 (21): в 2 т. — Т. 2: Доклады специальных секций. — С. 1-12.
Лукашевич Н.В., Левчик А.В. Создание лексикона оценочных слов русского языка РуСентилекс // Труды конференции 0STIS-2016. — Минск: Белорусский государственный университет информатики и радиоэлектроники, 2016. — С. 377382.
Семина Т.А. Дихотомия субъективность vs объективность и тональная релевантность в задачах анализа тональности // Вестник Московского государственного областного университета. Серия Лингвистика. — Москва: Московский государственный областной университет, 2018. — № 1. — С. 38-45.
Семина Т.А. Корпусные исследования и анализ тональности // Слово. Словарь. Термин. Лексикограф [Электронный ресурс]: сборник статей по материалам Международной научно-практической конференции памяти доктора филологических наук, профессора Юрия Николаевича Марчука (г. Москва, 1-2 марта 2019) / ред. колл.: отв. ред. И.И. Валуйцева, отв. секр. Е.П. Савченко, ред. англ. текста И.А. Улиткин; под общ. ред. И.И. Валуйцевой. [Электрон. текстовые дан. (15,6 Мб)]. — Москва: ИИУ МГОУ, 2019. — С. 560-566.
A survey on the role of negation in sentiment analysis / M. Wiegand, A. Balahur, B. Roth, D. Klakow, A. Montoyo // Proceedings of the workshop on negation and speculation in natural language processing. — 2010. — P. 60-68.
Almatarneh S., Gamallo P. Searching for the most negative opinions // International Conference on Knowledge Engineering and the Semantic Web. Springer, Cham. — 2017. — P. 14-22.
Araque O., Zhu G., Iglesias C.A. A semantic similarity-based perspective of affect lexicons for sentiment analysis // Knowledge-Based Systems. — 2019. — Т. 165. -P. 346-359.
Baccianella S., EsuliA., Sebastiani F. Sentiwordnet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining // Lrec. — 2010. — Т. 10, N 2010. -P. 2200-2204.
Bhatia P., Ji Y., Eisenstein J. Better document-level sentiment analysis from rst discourse parsing. — Mode of access: https://arxiv.org/pdf/1509.01599.pdf.
Chen C.C., Huang H.H., Chen H.H. NTUSD-Fin: a market sentiment dictionary for financial social media data applications // Proceedings of the 1 st Financial Narrative Processing Workshop (FNP 2018). — Mode of access: http://nlg.csie.ntu.edu.tw/~hhhuang/docs/fnp2018.pdf
Chen Y., Skiena S. Building Sentiment Lexicons for All Major Languages // ACL (2). — 2014. — P. 383-389.
Dave K., Lawrence S., Pennock D.M. Mining the peanut gallery: Opinion extraction and semantic classification of product reviews // Proceedings of the 1 2 th international conference on World Wide Web // ACM. — 2003. — P. 519-528.
Deng L., Wiebe J. Joint prediction for entity/event-level sentiment analysis using probabilistic soft logic models // Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. — 2015. — P. 179-189.
Effective Sentiment Analysis of Chinese Online Reviews with Syntax Tree and Linguistics Heuristics / C. Cai, Q. Meng, J. Ji, Z. Wang // International Journal of Advancements in Computing Technology. — 2013. — Т. 5, N 1. — P. 8-19.
Hatzivassiloglou V., McKeown K.R. Predicting the semantic orientation of adjectives // Proceedings of the 35 th annual meeting of the association for computational linguistics and eighth conference of the european chapter of the association for computational linguistics. / Association for Computational Linguistics. -1997. — P. 174-181.
Hatzivassiloglou V., Wiebe J.M. Effects of adjective orientation and gradability on sentence subjectivity // Proceedings of the 18 th conference on Computational linguistics. / Association for Computational Linguistics. -2000. — Vol. 1. — P. 299-305.
Kochergina K.S. Approaches to forming an evaluative lexicon (juridical linguistic aspect) // Актуальные проблемы лингвистики и литературоведения: сб. материалов I (XVI) Международной конференции молодых ученых (9-11 апреля 2015 г.). — Томск, 2015. — Вып. 16. — С. 365-367. — Режим доступа: http://vital.lib.tsu.ru/vital/access/manager/Repository/vtls:000534180
Kraus M., Feuerriegel S. Sentiment analysis based on rhetorical structure theory: Learning deep neural networks from discourse trees // Expert Systems with Applications. — 2019. — Т. 118. — P. 65-79.
Nasukawa T., Yi J. Sentiment analysis: Capturing favorability using natural language processing // Proceedings of the 2 nd international conference on Knowledge capture. ACM. — 2003. — P. 70-77.
Polarity analysis of texts using discourse structure / B. Heerschop, F. Goossen, A. Hogenboom [et al.] // Proceedings of the 20 th ACM international conference on Information and knowledge management. ACM. — 2011. — P. 1061-1070.
Recursive deep models for semantic compositionality over a sentiment treebank / R. Socher, A. Perelygin, J. Wu [et al.] // Proceedings of the 2013 conference on empirical methods in natural language processing. — 2013. — P. 1631-1642.
The general inquirer: A computer approach to content analysis / Stone P.J., Dunphy D.C., Smith M.S., Ogilvie D.M. — Cambridge: The MIT Press, 1966. — 651 p.
Tausczik Y.R., Pennebaker J.W. The psychological meaning of words: LIWC and computerized text analysis methods // Journal of language and social psychology. -2010. — Т. 29, N 1. — P. 24-54.
Thet T.T., Na J.C., Khoo C.S.G. Aspect-based sentiment analysis of movie reviews on discussion boards // Journal of information science. — 2010. — Т. 36. N 6. -P. 823-848.
Turney P.D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews // Proceedings of the 40 th annual meeting on association for computational linguistics / Association for Computational Linguistics. -2002. — P. 417-424.
Wiebe J. Learning subjective adjectives from corpora // AAAI Proceedings 2000. — Mode of access: https://aaai.org/Papers/AAAI/2000/AAAI00-113.pdf
Wiebe J.M. Tracking point of view in narrative // Computational Linguistic. -Vol. 2 s.-1994. — Т. 20, N 2. — P. 233-287.
Wiebe J .M., Bruce R.F., O Hara T.P. Development and use of a gold-standard data set for subjectivity classifications // Proceedings of the 37 th annual meeting of the Association for Computational Linguistics. — 1999. — P. 246-253.
Zhang L., Liu B. Identifying noun product features that imply opinions // Proceedings of the 49 th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers / Association for Computational Linguistics. — 2011. — Vol. 2. — P. 575-580.
2020.04.009. ЛИНГВИСТИЧЕСКИЙ АНАЛИЗАТОР: ПРЕОБРАЗОВАНИЕ ТЕКСТА В МЕТАЯЗЫКОВУЮ СТРУКТУРУ ДАННЫХ / Кузнецов С.А., Скребцова Т.Г., Суворов С.Г., Клеменье-ва А.В. — Санкт-Петербург: СПбГУ, 2019. — 238 с.
Ключевые слова: автоматический перевод; автоматическая обработка текста; лингвистический анализатор; естественный язык; русский язык; метаязыковая сеть.
В пяти главах монографии (глава 1 «Графематический анализ», глава 2 «Атрибуция токенов», глава 3 «Конструктивно-синтаксический анализ предложения», глава 4 «Коммуникативно-синтаксический анализ», глава 5 «Функционально-прагматический анализ текста»), упорядоченных согласно последовательности этапов обработки текста, рассматриваются графематический анализ, морфологический (атрибуция токенов), конструктивно-синтаксический и коммуникативно-синтаксический анализ предложения, функционально-прагматический анализ текста. Продемонстрирована работа лингвистического анализатора, процесс преобразования понятийно-риторических единиц текста и информационного представления текста в метаязыковую структуру данных.
Проблема автоматической обработки естественного языка сохраняет свою актуальность по прошествии более полувека со времени первых опытов в данном направлении. Сам факт говорит о высокой сложности задачи и отсутствии ясного представления о путях ее решения.
В монографии предлагается оригинальный подход к решению задачи автоматического анализа текста, написанного на русском языке, направленный на выявление его информационной структуры. Конечным результатом анализа является метаязыковая сеть, в узлах которой находятся «участники» описываемой в тексте ситуации (объекты), а на дугах — отношения между ними. Про-
Составить текст на тему правила поведения в школе 10 предложений употребив в котором предложение не с глаголом
1. правильро
2. правильно
3. неверно
4. неверно
Мне кажется, что будет вот так:
Отрежь — отрежьте, спрячь — спрячьте, назначь — назначьте, умножь — умножьте, оставь — оставьте, намажь — намажьте, помножь — помножьте, ешь — ешьте.
Значит:
Мочь — (могите) или лучше помогите, потому, что слово «могите», у меня подчёркивают красной линией, значит ошибка, ток, что лучше напишите «помогите»!!!)))
Ветер, шумя и шелестя в березняке, перебегал в поля, покрытые белыми цветами, впитывая ароматы трав.
Циркуляция воды в озере была нарушена ,и оно зацвело .
Из-за горы и нынче видит пешеход столбы обрушенных ворот, и башни, и церковный свод. И вспомнил я отцовский дом, ущелье наше и кругом в тени рассыпанный аул. Я долго силился вздохнуть и пробудился. Удар мой верен был и скор. Он застонал, как человек, и опрокинулся. Я тайный замысел ласкал, терпел, томился и страдал. (выделенные слова однородные члены)
Введение в обработку естественного языка (NLP)
Обработка естественного языка (NLP) — это область информатики и искусственного интеллекта, связанная с взаимодействием между компьютерами и людьми на естественном языке. Конечная цель НЛП — помочь компьютерам понимать язык так же хорошо, как и мы. Это движущая сила таких вещей, как виртуальные помощники, распознавание речи, анализ тональности, автоматическое суммирование текста, машинный перевод и многое другое.В этом посте мы рассмотрим основы обработки естественного языка, погрузимся в некоторые из ее методов, а также узнаем, как НЛП помогло последним достижениям в области глубокого обучения.
Содержание
- Введение
- Почему НЛП сложно
- Синтаксический и семантический анализ
- Методы НЛП
- Глубокое обучение и НЛП
- Ссылки
I. Введение
Обработка естественного языка (НЛП) — это пересечение информатики, лингвистики и машинного обучения.Эта область фокусируется на общении между компьютерами и людьми на естественном языке, а НЛП — на том, чтобы заставить компьютеры понимать и генерировать человеческий язык. Применение методов НЛП включает голосовых помощников, таких как Amazon Alexa и Apple Siri, а также такие вещи, как машинный перевод и фильтрация текста.
NLP сильно выиграло от последних достижений в области машинного обучения, особенно от методов глубокого обучения. Поле разделено на три части:
- Распознавание речи — Перевод разговорной речи в текст.
- Natural Language Understanding — Способность компьютера понимать то, что мы говорим.
- Генерация естественного языка — Генерация естественного языка компьютером.
II. Почему НЛП сложно
Человеческий язык особенный по нескольким причинам. Он специально разработан, чтобы передать смысл говорящего / писателя. Это сложная система, хотя маленькие дети могут освоить ее довольно быстро.
Еще одна замечательная вещь в человеческом языке — это то, что все дело в символах.По словам Криса Мэннинга, профессора машинного обучения из Стэнфорда, это дискретная, символическая, категориальная сигнальная система. Это означает, что мы можем передавать одно и то же значение по-разному (например, речь, жест, знаки и т. Д.). Кодирование человеческим мозгом представляет собой непрерывный паттерн активации, посредством которого символы передаются через непрерывные звуковые и визуальные сигналы.
Понимание человеческого языка считается сложной задачей из-за ее сложности. Например, существует бесконечное количество различных способов расположить слова в предложении.Кроме того, слова могут иметь несколько значений, и для правильной интерпретации предложений необходима контекстная информация. Каждый язык более или менее уникален и неоднозначен. Достаточно взглянуть на следующий заголовок в газете «Папа папа наступает на геев». Это предложение явно имеет две очень разные интерпретации, что является довольно хорошим примером проблем в НЛП.
Обратите внимание, что идеальное понимание языка компьютером приведет к созданию ИИ, способного обрабатывать всю информацию, доступную в Интернете, что, в свою очередь, может привести к созданию общего искусственного интеллекта.
III. Синтаксический и семантический анализ
Синтаксический анализ (синтаксис) и семантический анализ (семантический) — это два основных метода, которые приводят к пониманию естественного языка. Язык — это набор правильных предложений, но что делает предложение действительным? Синтаксис и семантика.
Синтаксис — это грамматическая структура текста, а семантика — это передаваемое значение. Однако синтаксически правильное предложение не всегда является семантически правильным. Например, фраза «коровы в высшей степени текут» грамматически корректна (подлежащее — глагол — наречие), но не имеет никакого смысла.
Синтаксический анализ
Синтаксический анализ, также называемый синтаксическим анализом или синтаксическим анализом, представляет собой процесс анализа естественного языка с использованием правил формальной грамматики. Грамматические правила применяются к категориям и группам слов, а не к отдельным словам. Синтаксический анализ в основном придает тексту семантическую структуру.
Например, предложение включает подлежащее и сказуемое, где подлежащее — это существительная фраза, а предикат — глагольная фраза.Взгляните на следующее предложение: «Собака (существительная фраза) ушла (глагольная фраза)». Обратите внимание, как мы можем комбинировать каждую именную фразу с глагольной фразой. Опять же, важно повторить, что предложение может быть синтаксически правильным, но не иметь смысла.
Семантический анализ
То, как мы понимаем сказанное кем-то, — это бессознательный процесс, основанный на нашей интуиции и знаниях о самом языке. Другими словами, то, как мы понимаем язык, во многом зависит от значения и контекста.Однако к компьютерам нужен другой подход. Слово «семантический» является лингвистическим термином и означает «относящийся к значению или логике».
Семантический анализ — это процесс понимания значения и интерпретации слов, знаков и структуры предложения. Это позволяет компьютерам частично понимать естественный язык так, как это делают люди. Я говорю отчасти потому, что семантический анализ — одна из самых сложных частей НЛП, и она еще не решена полностью.
Распознавание речи, например, стало очень хорошим и работает почти безупречно, но нам все еще не хватает такого уровня знаний в понимании естественного языка.Ваш телефон в основном понимает то, что вы сказали, но часто ничего не может с этим поделать, потому что не понимает стоящего за этим смысла. Кроме того, некоторые из существующих технологий только заставляют вас думать, что они понимают значение текста. Подход, основанный на ключевых словах или статистике, или даже на чистом машинном обучении, может использовать метод сопоставления или частоты для подсказок относительно того, «о чем» текст. Эти методы ограничены, потому что они не обращают внимания на истинное значение, лежащее в основе.
IV.Методы понимания текста
Давайте рассмотрим некоторые из наиболее популярных методов, используемых при обработке естественного языка. Обратите внимание, как некоторые из них тесно взаимосвязаны и служат только в качестве подзадач для решения более крупных проблем.
Парсинг
Что такое парсинг? Согласно словарю, синтаксический анализ означает «разложить предложение на составные части и описать их синтаксические роли».
Это действительно помогло, но это могло быть немного более полным.Под синтаксическим анализом понимается формальный анализ предложения компьютером на его составные части, в результате которого создается дерево синтаксического анализа, показывающее их синтаксические отношения друг с другом в визуальной форме, которое можно использовать для дальнейшей обработки и понимания.
Ниже представлено дерево синтаксического анализа для предложения «Вор ограбил квартиру». Включено описание трех различных типов информации, передаваемых в предложении.
Буквы непосредственно над отдельными словами показывают части речи для каждого слова (существительное, глагол и определитель).Уровень выше — это некая иерархическая группировка слов во фразы. Например, «вор» — это существительное, «ограбил квартиру» — глагольное словосочетание, и, сложив вместе эти две фразы, образуют предложение, которое отмечается на один уровень выше.
Но что на самом деле означает существительное или глагольная фраза? Существительные фразы — это одно или несколько слов, которые содержат существительное и, возможно, некоторые дескрипторы, глаголы или наречия. Идея состоит в том, чтобы сгруппировать существительные со словами, которые к ним относятся.
Дерево синтаксического анализа также предоставляет нам информацию о грамматических отношениях слов из-за структуры их представления.Например, в структуре мы видим, что «вор» является субъектом «ограблен».
Под структурой я подразумеваю, что у нас есть глагол («ограблен»), который отмечен буквой «V» над ним и «VP» над ним, который связан буквой «S» с подлежащим («вор «), над которым есть» NP «. Это похоже на шаблон для отношений подлежащее-глагол, и есть много других для других типов отношений.
Стемминг
Стемминг — это метод, основанный на морфологии и поиске информации, который используется в НЛП для предварительной обработки и повышения эффективности.В словаре это определяется как «возникать или быть вызванным».
По сути, выделение основы — это процесс сокращения слов до основы слова. «Основа» — это часть слова, которая остается после удаления всех аффиксов. Например, основа слова «тронуто» — «прикоснуться». «Прикосновение» также является основой слова «прикосновение» и т. Д.
Вы можете спросить себя, зачем нам вообще нужна основа? Что ж, основа нужна, потому что мы встретимся с разными вариациями слов которые на самом деле имеют одно и то же основание и одно и то же значение.Например:
Я ехал на машине.
Я ехал в машине.
Эти два предложения означают одно и то же, и использование этого слова идентично.
А теперь представьте себе все английские слова в словаре со всеми их различными фиксациями в конце. Для их хранения потребуется огромная база данных, содержащая множество слов, которые на самом деле имеют одинаковое значение. Это решается путем сосредоточения внимания только на основе слова. Популярные алгоритмы выделения включают алгоритм вывода Портера из 1979 года, который до сих пор хорошо работает.
Сегментация текста
Сегментация текста в НЛП — это процесс преобразования текста в значимые единицы, такие как слова, предложения, различные темы, лежащее в основе намерение и многое другое. В основном текст разбивается на составляющие слова, что может быть сложной задачей в зависимости от языка. Это опять же из-за сложности человеческого языка. Например, в английском языке относительно хорошо работает разделение слов пробелами, за исключением таких слов, как «icebox», которые принадлежат друг другу, но разделены пробелом.Проблема в том, что люди иногда также пишут это как «ледяной ящик».
Распознавание именованных объектов
Распознавание именованных объектов (NER) концентрируется на определении того, какие элементы в тексте (то есть «именованные объекты») могут быть обнаружены и классифицированы по заранее определенным категориям. Эти категории могут варьироваться от имен людей, организаций и местоположений до денежных значений и процентов.
Например:
До NER: Мартин купил 300 акций SAP в 2016 году.
После NER: [Мартин] Человек купил 300 акций [SAP] организации за [2016] Время.
Извлечение отношений
Извлечение отношений берет названные объекты NER и пытается идентифицировать семантические отношения между ними. Это может означать, например, выяснение, кто с кем женат, что человек работает в определенной компании и так далее. Эта проблема также может быть преобразована в проблему классификации, и модель машинного обучения может быть обучена для каждого типа отношений.
Анализ тональности
С помощью анализа тональности мы хотим определить отношение (то есть настроение) говорящего или писателя по отношению к документу, взаимодействию или событию. Следовательно, это проблема обработки естественного языка, когда текст необходимо понимать, чтобы предсказать лежащее в основе намерение. Настроения в основном делятся на положительные, отрицательные и нейтральные категории.
С помощью анализа настроений, например, мы можем захотеть спрогнозировать мнение и отношение покупателя к продукту на основе написанного ими обзора.Анализ тональности широко применяется к обзорам, опросам, документам и многому другому.
Если вам интересно использовать некоторые из этих методов с Python, взгляните на Jupyter Notebook о наборе инструментов естественного языка Python (NLTK), который я создал. Вы также можете ознакомиться с моим сообщением в блоге о построении нейронных сетей с помощью Keras, где я обучаю нейронную сеть выполнять анализ настроений.
V. Глубокое обучение и NLP
Центральное место в глубоком обучении и естественном языке занимает «значение слова», где слово и особенно его значение представлены в виде вектора действительных чисел.С помощью этих векторов, которые представляют слова, мы помещаем слова в многомерное пространство. Интересно то, что слова, представленные векторами, будут действовать как семантическое пространство. Это просто означает, что слова, которые похожи и имеют похожее значение, имеют тенденцию группироваться вместе в этом многомерном векторном пространстве. Вы можете увидеть визуальное представление значения слова ниже:
Вы можете узнать, что означает группа сгруппированных слов, выполнив анализ главных компонентов (PCA) или уменьшение размерности с помощью T-SNE, но иногда это может вводить в заблуждение, потому что они упростите и оставьте много информации на стороне.Это хороший способ начать работу (например, логистическая или линейная регрессия в науке о данных), но он не является передовым и можно сделать это лучше.
Мы также можем думать о частях слов как о векторах, которые представляют их значение. Представьте себе слово «нежелательность». Используя морфологический подход, который включает в себя различные части слова, мы могли бы думать, что оно состоит из морфем (частей слова), например: «Un + желание + способность + ity». Каждая морфема получает свой вектор. Исходя из этого, мы можем построить нейронную сеть, которая может составить значение более крупной единицы, которая, в свою очередь, состоит из всех морфем.
Глубокое обучение также может определять структуру предложений с помощью синтаксических анализаторов. Google использует подобные методы анализа зависимостей, хотя и в более сложной и крупной манере, с их «McParseface» и «SyntaxNet».
Зная структуру предложений, мы можем начать пытаться понять смысл предложений. Мы начинаем со значения слов, являющихся векторами, но мы также можем сделать это с целыми фразами и предложениями, где значение также представлено в виде векторов.И если мы хотим знать отношения между предложениями, мы обучаем нейронную сеть принимать эти решения за нас.
Глубокое обучение также хорошо подходит для анализа настроений. Возьмем, к примеру, этот обзор фильма: «В этом фильме нет дела до ума, с каким-либо другим умным юмором». Традиционный подход попался бы в ловушку, полагая, что это положительный отзыв, потому что «сообразительность или любой другой вид умного юмора» звучит как положительное намерение, но нейронная сеть распознала бы его реальное значение.Другие приложения — это чат-боты, машинный перевод, Siri, предлагаемые ответы в папке входящих сообщений Google и т. Д.
В машинном переводе также произошли огромные успехи благодаря появлению повторяющихся нейронных сетей, о которых я также написал сообщение в блоге.
При машинном переводе, выполняемом с помощью алгоритмов глубокого обучения, язык переводится, начиная с предложения и генерируя векторные представления, которые его представляют. Затем он начинает генерировать слова на другом языке, которые влекут за собой ту же информацию.
Подводя итог, НЛП в сочетании с глубоким обучением — это все о векторах, которые представляют слова, фразы и т. Д. И до некоторой степени их значения.
VI. Ссылки
Никлас Донгес — предприниматель, технический писатель и эксперт в области искусственного интеллекта. В течение 1,5 лет он работал в команде SAP в области искусственного интеллекта, после чего основал компанию Markov Solutions. Компания из Берлина специализируется на искусственном интеллекте, машинном обучении и глубоком обучении, предлагая индивидуальные программные решения на базе искусственного интеллекта и консалтинговые программы для различных компаний.
RelatedПодробнее о Data Science
Метод анализа основной структуры второго этапа
Ассоциации компьютерной лингвистики:
Short Papers-Volume 2 (стр. 11-16). Ассоциация
компьютерной лингвистики.
Феррейра Ф., Энгельгардт П. Э. и Джонс М. В. (2009).
Достаточно хорошая языковая обработка: удовлетворительный подход
. В материалах 31-й ежегодной конференции Общества когнитивных наук.Остин:
Общество когнитивных наук.
Ямада Х. и Мацумото Ю. (2003, апрель). Statisti-
анализ зависимостей с опорным вектором ma-
скулов. В Трудах IWPT (Том 3, стр. 195-
206).
Лай, Б. Ю. Т., и Хуанг, К. (1994). Зависимость
грамматики и синтаксический анализ китайских предложений —
es. Препринт arXiv cmp-lg / 9412001.Lai, T. B.,
Huang, C., Zhou, M., Miao, J., Siu, T. K., 2001.
Анализ статистических зависимостей на основе диапазона значений Chi-
nese. В: НЛПРС. С. 677–684.
Ли, X., Zong, C., & Hu, R. (2005). Иерархический подход к синтаксическому анализу
с обработкой знаков препинания для
длинных предложений
. В материалах второй международной совместной конференции
по обработке естественного языка
: сопутствующий том, включающий
плакатов / демонстраций и отрывков из учебных пособий.
Ли З., Че В. и Лю Т. (2010, декабрь). Улучшение анализа зависимостей
с использованием знаков препинания.
Обработка азиатских языков (IALP), 2010 г. Интер-
национальная конференция (стр. 53-56). IEEE.
Сюнь Цзинь, М., Ким, М. Ю., Ким, Д., и Ли, Дж. Х.
(2004). Сегментация длинных предложений китайского
с помощью запятых. В материалах SIGHAN (стр. 1-
8).
Ковингтон М.А. (2001).Фундаментальный алгоритм
для анализа зависимостей. Материалы 39-й ежегодной юго-восточной конференции ACM
(стр. 95-102).
Нивр Дж. И Макдональд Р. Т. (2008 г., июнь). Интеграция —
на основе графиков и переходов зависимости —
cy парсеры. В ACL (стр. 950-958).
Нивр, Дж., Холл, Дж., И Нильссон, Дж. (2006 г., май). Malt-
parser: управляемый данными синтаксический анализатор-генератор для зависимого
синтаксического анализа. В трудах LREC (Vol.6. С.
2216-2219).
Нильссон, Дж., Ридель, С., и Юрет, Д. (2007, июнь). Общая задача
CoNLL 2007 по синтаксическому анализу зависимостей.
В протоколах сеанса совместной задачи CoNLL
EMNLP-CoNLL (стр. 915-932).
Нивр Дж. И Макдональд Р. Т. (2008 г., июнь). Интеграция —
на основе графиков и переходов зависимости —
cy парсеры. В ACL (стр. 950-958).
MAO, Q., LIAN, L. X., ZHOU, W.C., & YUAN, C.
F. (2007). Алгоритм синтаксического анализа китайского языка
, основанный на сегментации знаков препинания. Journal of
Chinese Information Processing, 21 (2), 3.
Sagae, K and Lavie, A. 2006a. Комбинация парсеров путем перебора
. В Proc. HLT / NAACL, страницы 129–132,
Нью-Йорк, США, июнь.
Sagae, K., & Lavie, A. (2006, июнь). Комбинация парсеров —
путём перепарсинга. InProceedings of the Human
Конференция по языковым технологиям NAACL,
Companion Volume: Short Papers (стр.129-132).
Ассоциация компьютерной лингвистики.
Ван, В. Ю., Конг, Л., Мазайтис, К., и Коэн, В.
W. (2014). Анализ зависимостей для Weibo: подход к программированию вероятностной логики Ef-
.
Ассоциация компьютерной лингвистики.
Сюэ, Н., Ся, Ф., Чиу, Ф. Д., и Палмер, М. (2005).
The Penn Chinese TreeBank: структура фраз и
обозначение большого корпуса. Инженер по естественному языку
neering, 11 (02), 207-238.
Чжоу, М. (2000, октябрь). Блочный надежный синтаксический анализатор de-
для неограниченного китайского текста.
В материалах второго семинара по китайской
языковой обработке: проводился в связи с
38-м ежегодным собранием Ассоциации ком-
предполагаемой лингвистики — Том 12 (стр. 78-84). As-
Сообщество компьютерной лингвистики.
Zhang, Y., & Nivre, J. (2011, июнь). Анализ зависимостей
на основе переходов с богатыми нелокальными функциями.
В материалах 49-го ежегодного собрания
Ассоциации компьютерной лингвистики: Человек
Языковые технологии: короткие доклады — Том
2 (стр. 188-193). Ассоциация вычислительной
лингвистики.
Дерево синтаксического анализа — обзор
Следующая грамматика демонстрирует некоторые аспекты написания DCG на Prolog. Он создает полное дерево синтаксического анализа предложения. Он обрабатывает некоторую форму согласования номеров.(Предложение вроде «Мальчик пинает мяч» будет отклонено.) Наконец, он отделяет грамматические правила от словаря. В этой форме легче поддерживать грамматику:
/ * Простая грамматика * /
предложение (s (NP, VP))
-> noun_phrase (NP, Number),
verb_phrase (VP, Number) .
существительное_фраза (np (Det, Существительное), Число) -> определитель (Det, Число),
noun (Существительное, Число).
глагольная_фраза (vp (V, NP), Number) -> глагол (V, Number, переходный), noun_phrase (NP,} _).
определитель (det (слово), число) -> [слово], {is_determiner (слово, число) |.
существительное (сущ. (Корень), Число) -> [Слово], {is_noun (Слово, Число, Корень) |.
глагол (v (Корень, Время), Число, Транзитивность) -> [Слово], {is_verb (Слово, Корень, Число, Время, Транзитивность) |.
/ * словарь * /
/ * определитель * /
is_determiner (a, единственное число).
is_determiner (каждый, в единственном числе).
is_determiner (единственное число).
is_determiner (все, множественное число).
/ * существительные * /
is_noun (мужчина, единственное число, мужчина).
is_noun (мужчины, множественное число, мужчина).
is_noun (мальчик, единственное число, мальчик).
is_noun (мальчики, множественное число, мальчик).
is_noun (женщина, единственное число, женщина).
is_noun (женское, множественное число, женщина).
is_noun (шар, единственное число, шар).
is_noun (шары, множественное число, мяч).
/ * глаголы * /
is_verb (Слово, Корень, Число, Время, Транзитивность): —
verb_form (Слово, Корень, Число, Время), инфинитив (Корень, Транзитивность).
инфинитив (удар, переходный).
инфинитив (живой, непереходный).
инфинитив (вроде, переходный).
глагол_форма (удары ногой, единственное число, присутствует).
глагол_форма (удар, удар, множественное число, присутствует).
глагол_форма (ударил, удар, _, мимо).
verb_form (живет, жить, единственное число, настоящее) .verb_form (жить, жить, множественное число, настоящее).
глагол_форма (жил, жив, _, прошлое).
verb_form (нравится, нравится, единственное число, присутствует).
verb_form (нравится, нравится, множественное число, присутствует).
verb_form (понравилось, понравилось, _, прошлое).
Эта грамматика позволяет анализировать исходное предложение «Мальчик пнул мяч», создавая следующее дерево синтаксического анализа:
Кроме того, можно анализировать множество других предложений, большинство из которых могут не иметь смысла, например
Без учителя. грамматическая индукция подъязыка клинических отчетов | Journal of Biomedical Semantics
Для создания контекстно-свободной грамматики из обучающих предложений мы адаптировали метод сокращения затрат [3], который был основан на идее Вольфа о языке и сжатии данных [15], также известной как метод предвзятости простоты или минимального описания. метод длины.Метод начинается с большой тривиальной грамматики, у которой есть отдельная продукция, соответствующая каждому обучающему предложению. Затем он эвристически ищет меньшую грамматику, а также более простые производные предложения, многократно применяя операторы преобразования грамматики для объединения и слияния нетерминалов. Размер грамматики и производных измеряется с точки зрения стоимости их кодирования. Мы расширили этот метод несколькими способами. В этом разделе мы описываем метод и наши расширения. Сначала мы описываем, как вычисляется стоимость, в подразделе, а затем описываем процедуру поиска, которая ищет грамматику, которая приводит к минимальной стоимости в подразделе.В подразделе мы описываем, как вычисляются вероятности, связанные с продукцией индуцированной грамматики.
Расчет стоимости
Метод использует идеи теории информации и рассматривает грамматику как средство сжатия описания данного набора неаннотированных обучающих предложений. Он измеряет сжатие по двум типам затрат. Первый — это стоимость (в битах) кодирования самой грамматики. Второй — стоимость кодирования производных предложений с использованием этой грамматики.В следующем описании мы используем некоторые обозначения из [16].
Стоимость грамматики
Продукция в контекстно-свободной грамматике (CFG) записывается в виде A → β , где A — нетерминальный, а β — непустой последовательность терминалов и нетерминалов. Стоимость, C P
, кодировки этой продукции:
где | β | — длина правой части (RHS) продукции, а | Σ | — количество терминалов и нетерминалов в наборе символов Σ.Так как потребуется лог | Σ | бит для кодирования каждого символа, и есть (1 + | β |) символов в производстве (включая левую часть (LHS)), следовательно, стоимость C P
кодирования продукции, как указано в приведенном выше уравнении. Таким образом, стоимость кодирования всей грамматики, C G
, составляет:
CG = ∑i = 1p (1+ | βi |) log | Σ |)
(2)
, где p — количество производств, а β i
— правая часть модели i -го производства.
Стоимость дериваций
С учетом грамматики вывод предложения происходит путем сначала расширения начального символа грамматики с соответствующим производством, а затем последующего рекурсивного расширения каждого из нетерминалов RHS до тех пор, пока все символы предложения не будут найдено как последовательность терминалов. На каждом этапе процесса деривации необходимо выбирать соответствующее производство для расширения нетерминала. Это единственная информация, которую нужно закодировать, чтобы закодировать предложение.Следовательно, информация, которая должна кодироваться на каждом этапе вывода: какая из | P ( с к
) | продукции было использовано для расширения k -го нетерминального, s k
, в процессе вывода, P ( s k
) — набор производств, в которых s k
— это LHS.Эту информацию можно закодировать в log (| P ( s k
) |) биты. Например, если есть только один способ расширить нетерминал, то эта информация очевидна и потребует нулевых битов для кодирования. Следовательно, стоимость всего вывода, CDj j -го предложения будет:
CDj = Σk = 1mjlog (| P (sk) |)
(3)
где м j
— это длина образования j -го предложения.Таким образом, стоимость, C D
, кодирования всех q предложений в обучающем наборе:
CD = Σj = 1q∑k = 1mj (log (| P (sk) |))
(4)
Общая стоимость
В предыдущей работе, такой как [3] и [16], общая стоимость грамматики и деривации принималась как просто сумма индивидуальных затрат. Однако, как показывают эксперименты, это не всегда приводит к хорошим результатам. Причина, по нашему мнению, в том, что общая стоимость дериваций зависит от количества предложений, и простое добавление этой стоимости к стоимости грамматики может привести к неравному весу.Чтобы исправить это, мы вводим параметр f , который принимает значения от 0 до 1, чтобы отдельно взвесить два компонента общего веса C следующим образом:
, где C G
— это стоимость грамматики, а C D
— это стоимость всех производных, как описано ранее. Обратите внимание, что f = 0,5 эквивалентно добавлению двух компонентов, как в предыдущей работе.В экспериментах мы варьируем этот параметр и эмпирически измеряем производительность.
Поиск грамматики с минимальной стоимостью
Важно отметить, что существует компромисс между стоимостью грамматики и стоимостью дериваций. С одной стороны, простейшая грамматика, в которой есть такие произведения, как NT → t i
, т.е. нетерминальный NT , который расширяется до каждого терминала t i
и еще два производства S → NT и S → SS ( S — начальный символ), которые будут иметь очень небольшую стоимость.Однако эта грамматика приведет к очень длинным и дорогостоящим выводам. Также стоит отметить, что эта грамматика является слишком общей и анализирует любую последовательность терминалов.
С другой стороны, грамматика, в которой каждое произведение кодирует все предложение из обучающего набора, например, S → w 1 w 2 .. w n
, где w 1 , w 2 и т. Д.слова предложения. Получение этой грамматики будет стоить очень мало, однако грамматика будет очень дорогой, так как она будет иметь длинные производные, и их будет столько, сколько предложений. Также стоит отметить, что эта грамматика слишком специфична и не будет анализировать никакие другие предложения, кроме тех, которые содержатся в обучающем наборе. Следовательно, лучшая грамматика находится между двумя крайностями, которая будет достаточно общей, чтобы разбирать новые предложения, но в то же время не слишком общей, чтобы разбирать почти любую последовательность терминалов.Эта грамматика также будет иметь меньшую стоимость, чем любой крайний вариант. Согласно принципу минимальной длины описания, а также принципу бритвы Оккама, грамматика с минимальными затратами, вероятно, будет иметь лучшее обобщение. Мы используем следующую процедуру поиска, чтобы найти грамматику, которая дает минимальную общую стоимость, где общая стоимость определяется в уравнении 5. Мы отмечаем, что, изменяя значение параметра f в этом определении, процедура поиска с минимальной стоимостью может найти разные крайности грамматики.Например, при f = 1 он найдет первый тип экстремальной грамматики с наименьшими грамматическими затратами, а при f = 0 он найдет второй тип экстремальной грамматики с наименьшими затратами на вывод.
Процедура поиска начинается с тривиальной грамматики, которая похожа на второй крайний тип грамматики, упомянутый ранее. Для каждого уникального предложения в данных обучения включена отдельная продукция. Если предложение — w 1 w 2 .. w n
, производство S → W 1 W 2 .. W n
входит в состав продукции W 1 → w 1 , W 2 → w 2 и т. Д., Где W 1 , W 2 и т. Д. Являются новыми нетерминалами, соответствующими соответствующим терминалам w 1 , w 2 и т. Д.Новые нетерминалы представлены потому, что описанные ниже операторы преобразования грамматики не работают напрямую с терминалами. Экземпляры двух операторов преобразования грамматики, описанных ниже, затем последовательно применяются жадным образом, каждый раз снижая общую стоимость. Сначала мы опишем два оператора, объединить и объединить , а затем описать жадную процедуру, которая их применяет. Хотя оператор слияния такой же, как и в [3], мы обобщили оператор объединения (который они назвали оператором создать ).Процедура поиска аналогична их процедуре, но мы сначала эффективно оцениваем снижение затрат, полученное различными экземплярами операторов, а затем применяем тот, который дает наибольшее снижение затрат. С другой стороны, они не оценивают снижение стоимости, а фактически создают новые грамматики для всех экземпляров операторов, а затем вычисляют снижение стоимости. Они также следуют отдельным циклам применения серии операторов слияния и объединения, но мы выполняем только один цикл для обоих операторов.
Оператор объединения
Этот оператор объединяет два или более нетерминала в новый нетерминал. Например, если нетерминалы «DT ADJ NN» очень часто встречаются в текущей грамматике, то стоимость (эквивалентная размеру) грамматики может быть уменьшена путем введения новой продукции C 1 → DT ADJ NN , где C 1 — это система, генерируемая нетерминалом. Затем все вхождения DT ADJ NN на правой стороне продукции будут заменены на C 1.Как можно видеть, это уменьшает размер всех этих производств, но в то же время добавляет новое производство и новый нетерминал. В [3] соответствующий оператор объединил только два нетерминала одновременно и мог объединить более двух нетерминалов только при нескольких приложениях оператора (например, сначала объедините DT и ADJ в C1, а затем объедините C1 и NN в C2). Но мы обнаружили, что это менее рентабельно для процедуры поиска, чем прямое объединение нескольких нетерминалов, поэтому мы обобщили оператор.
Можно отметить, что этот оператор изменяет только стоимость грамматики, но не стоимость вывода. Это так, потому что в деривациях единственным изменением будет применение дополнительной продукции (например, C 1 → DT ADJ NN ), и поскольку есть только один способ расширить новый нетерминальный C 1, кодировать его нет необходимости (т.е. | P ( C 1) | равно 1, следовательно, его логарифм равен нулю в уравнении 4). Также интересно отметить, что этот оператор не увеличивает охват грамматики, т.е.е., новая грамматика, полученная после применения оператора объединения , не сможет проанализировать ни одно новое предложение, которое она не могла проанализировать ранее. Покрытие тоже не уменьшается.
Снижение стоимости за счет применения любого экземпляра этого оператора можно легко оценить с точки зрения количества объединяемых нетерминалов и того, сколько раз они встречаются рядом в правой части текущей продукции грамматики. Обратите внимание: если нетерминалы не появляются рядом достаточное количество раз, то этот оператор может фактически увеличить стоимость.
Оператор слияния
Этот оператор объединяет два нетерминала в один. Например, он может заменить все экземпляры нетерминалов NNP и NNS в грамматике новым нетерминальным M 1. Этот оператор такой же, как в [3]; мы не обобщали его на объединение более двух нетерминалов, потому что, в отличие от оператора объединения , комбинаторно дорого найти правильную комбинацию нетерминалов для объединения (для оператора объединения мы описываем эту процедуру в следующий подраздел).
Оператор слияния может исключить некоторые производства. Например, если было два производства NP → DT NNP и NP → DT NNS , то при объединении NNP и NNS в M 1 оба производства уменьшаются до одного производства. NP → DT M 1. Это не только снижает стоимость грамматики за счет уменьшения ее размера, но и уменьшает | P ( NP ) | стоимость (сколько производств имеют NP на LHS), что приводит к дальнейшему снижению стоимости производной (уравнение 4).Однако, если на LHS были производства с NNP и NNS , то их объединение составит стоимость | P ( M 1) | равняется сумме | П ( ННП ) | и | P ( NNS ) | и замена NNP и NNS на M 1 везде в деривациях увеличит стоимость дериваций.
Чтобы оценить снижение затрат за счет применения любого экземпляра этого оператора, необходимо оценить, какие производства будут объединены (следовательно, исключены) и в скольких других производствах нетерминал на LHS этих производств появится на LHS. .В нашей реализации мы эффективно делаем это, поддерживая структуры данных, относящиеся к нетерминалам и продуктам, в которых они появляются, и связывая продукты и производные, в которых они появляются. Мы не описываем эти детали здесь из-за нехватки места. Как упоминалось ранее, хотя стоимость может снизиться по некоторым причинам, она также может увеличиться по другим причинам. Следовательно, применение экземпляра этого оператора также может увеличить общую стоимость.
Важно отметить, что применение этого оператора может только увеличить охват грамматики.Например, даны производства NNS → яблоко , VB → съесть и VP → VB NNP , но не производство VP → VB NNS , затем « съесть яблоко » не может быть проанализирован в VP . Однако объединение NNP и NNS в M 1 приведет к новым продуктам M 1 → яблоко и VP → VBM 1, которые будут разбирать « съесть яблоко » в VP . .Следовательно, этот оператор обобщает грамматику.
Процедура поиска
В нашем методе используется жадная процедура поиска, чтобы найти грамматику, что приводит к минимальной общей стоимости грамматики и производных (уравнение 5). Учитывая набор неаннотированных обучающих предложений, он начинается с тривиального, слишком конкретного, экстремального типа грамматики, в который, как упоминалось ранее, для каждого уникального предложения в обучающем наборе включается продукция. Затем рассматриваются все применимые экземпляры операторов объединения , и , объединения и оценивается снижение затрат при их применении.Затем применяется экземпляр оператора, который приводит к наибольшему снижению затрат. Этот процесс продолжается итеративно до тех пор, пока ни один экземпляр оператора не приведет к снижению стоимости. Полученная грамматика затем возвращается как индуцированная грамматика.
Чтобы найти все применимые экземпляры оператора объединения , учитываются все «n-граммы» нетерминалов на правой стороне (максимальное значение n было 4 в экспериментах). Нет причин рассматривать экспоненциально большое количество каждой комбинации нетерминалов, которые даже не встречаются в грамматике.Однако, чтобы найти все применимые экземпляры оператора слияния , нет такого простого способа, кроме как рассмотреть возможность слияния каждых двух нетерминалов в грамматике (не очевидно, что любой другой способ будет значительно более эффективным с что касается оценки снижения стоимости). Начальный символ грамматики сохраняется и не объединяется с другими символами. Обратите внимание, что эта процедура поиска является жадной и может дать только приблизительное решение, которое может быть локальным минимумом.
Получение вероятностей производства
Метод, описанный в предыдущих подразделах, вводит грамматику, но не дает вероятностей, связанных с ее производством. Если существует несколько способов синтаксического анализа предложения с использованием грамматики, то наличие вероятностей, связанных с его производством, обеспечивает принципиальный способ выбора одного синтаксического анализа над другим в параметрах вероятностного контекстно-свободного синтаксического анализа грамматики [17]. В этом подразделе мы описываем расширение нашего метода для получения этих вероятностей с использованием экземпляра алгоритма максимизации ожидания (EM) [8].В качестве шага инициализации этого алгоритма вероятности сначала равномерно назначаются всем продуктам, которые расширяют нетерминал, так что они в сумме составляют единицу. Например, если есть четыре производства, которые расширяют нетерминал, скажем, NP , то всем этим четырем продуктам будет присвоена равная вероятность 0,25. Затем, используя эти вероятности, обучающие предложения разбираются, и для каждого из них получается наиболее вероятный синтаксический анализ. В реализации мы использовали вероятностную версию [18] известного алгоритма синтаксического анализа Эрли для контекстно-свободных грамматик [19].В следующей итерации, предполагая, что эти синтаксические анализы являются правильными синтаксическими анализами для предложений, метод подсчитывает, сколько раз продукция используется в синтаксических анализах и сколько раз в них раскрывается его нетерминальный LHS. Соответствующая доля затем назначается как вероятность этого производства, аналогично тому, как вероятности вычисляются в настройке контролируемого синтаксического анализа из предложений, аннотированных правильными синтаксическими анализами. Используя их как новые вероятности, весь процесс повторяется с новой итерацией.Экспериментально мы обнаружили, что этот процесс сходится за пять итераций. Вместо того, чтобы выбирать только наиболее вероятный синтаксический анализ для каждого предложения на каждой итерации, мы также экспериментировали с выбором всех синтаксических анализов для предложения и подсчетом дробных чисел, пропорциональных вероятностям синтаксического анализа. Однако это не имело большого значения.
Порядок слов в языках определяет рабочую память носителей языка
Андраде Дж. (Ред.) Память — важнейшие концепции психологии (Routledge, New York, 2008).
Баддели А. Д. Рабочая память (Oxford Univ. Press, Oxford, 1986).
Ebbinghaus, H. Память: вклад в экспериментальную психологию (Довер, Нью-Йорк, 1885/1964).
Аткинсон, Р. К. и Шиффрин, Р. М. Контроль кратковременной памяти. Sci. Являюсь. 225 , 82–90 (1971).
CAS
PubMed
Статья
PubMed Central
Google Scholar
Баддели, А. Д., Папаньо, К. и Андрадо, Дж. Эффект сэндвича: роль факторов внимания в серийном воспоминании. J. Exp. Psychol. Учить. Mem. Cogn 19 , 862–871 (1993).
Артикул
Google Scholar
Боусфилд, У. А., Уитмарш, Г. и Эстерсон, Дж. Эффекты последовательного позиционирования и «эффект Марба» при свободном воспроизведении значимых слов. J. Gen. Psychol. 59 , 255–262 (1958).
CAS
PubMed
Статья
PubMed Central
Google Scholar
Мердок Б. Б. Эффект свободного отзыва в серийном положении. J. Exp. Psychol. Gen. 64 , 482–488 (1962).
Артикул
Google Scholar
Генрих Дж., Гейне С. Дж. И Норензаян А. Самые странные люди в мире? Behav. Мозг. Sci. 33 , 61–83 (2010).
PubMed
Статья
PubMed Central
Google Scholar
Эванс, Н. и Левинсон, С. Миф о языковых универсалиях: языковое разнообразие и его значение для когнитивной науки. Behav. Мозг. Sci. 32 , 429–448 (2009).
PubMed
Статья
PubMed Central
Google Scholar
Хомски, Н. Аспекты теории синтаксиса (MIT Press, Кембридж, 1965).
Фодор, Дж. А. Язык мысли (Издательство Гарвардского университета, Кембридж, 1975).
Джекендофф Р. Основы языка: мозг , означает , грамматика , эволюция (Oxford Univ. Press, Oxford, 2002).
Пинкер, С. Языковой инстинкт (У. Морроу и Ко., Нью-Йорк, 1994).
Бауэрман М. и Левинсон С. (ред.) Овладение языком и концептуальное развитие .(Издательство Кембриджского университета, Кембридж, 2001 г.).
Гумперц, Дж. Дж. И Левинсон, С. К. (ред.) Переосмысление лингвистической относительности . (Издательство Кембриджского университета, Кембридж, 1996 г.).
Левинсон С.С. Пространство в языке и познании: исследования когнитивного разнообразия (Издательство Кембриджского университета, Кембридж, 2003).
Люси, Дж. Грамматические категории и мышление: тематическое исследование лингвистической гипотезы относительности (Cambridge Univ.Press, Cambridge, 1992).
Слобин Д. И. In Переосмысление лингвистической теории относительности (ред. Гумперц, Дж., Левинсон, С.), 70–96 (Cambridge Univ. Press, Cambridge, 1996).
Уорф, Б. Язык, мысль и реальность: избранные труды Бенджамина Ли Уорфа (изд. Кэрролла, Дж. Б.) (MIT Press, Кембридж, 1956).
Вольф П. и Холмс К. Дж. Лингвистическая относительность. ПРОВОДА Cogn. Sci. 2 , 253–265 (2011).
Артикул
Google Scholar
Брайтон, Х., Кирбим С. и Смит, К. In Происхождение языка: перспективы эволюции (изд. Таллерман, М.), 291–309 (Oxford Univ. Press, Oxford, 2005) .
Кристиансен, М. Х. и Девлин, Дж. In Proceedings of the 19 Annual Cognitive Science Society (ред. Shafto, M., Lanley, P.), 113–118 (Erlbaum, Mahwah, 1997).
Смит, К. и Кирби, С. Культурная эволюция: значение для понимания способности человеческого языка и ее эволюции. Philos. Пер. R. Soc. Лондон. B Biol. Sci. 363 , 3591–3603 (2008).
PubMed
PubMed Central
Статья
Google Scholar
Слобин Д. Мышление для разговора. Proc. Беркли Линг. Soc. 13 , 435–445 (1987).
Google Scholar
Бородицкий Л. Формирует ли язык мышление? Представления о времени носителями английского и китайского языков. Cogn. Psychol. 43 , 1-22 (2001).
CAS
PubMed
Статья
Google Scholar
Хант, Э. и Аньоли, Ф. Гипотеза Уорфа: перспектива когнитивной психологии. Psychol. Ред. , , 98, , 377 (1991).
Артикул
Google Scholar
Гилберт А., Регье Т., Кей П. и Иври Р. Гипотеза Уорфа поддерживается в правом поле зрения, но не в левом. Proc. Natl. Акад. Sci. 103 , 489–494 (2006).
ADS
CAS
PubMed
Статья
Google Scholar
Кей П. и Кемптон У. Что такое гипотеза Сепира-Уорфа? Am. Антрополь. 86 , 65–79 (1984).
Артикул
Google Scholar
Regier, T. & Kay, P. Язык, мысль и цвет: Уорф был наполовину прав. Trends Cogn. Sci. 13 , 439–446 (2009).
PubMed
Статья
Google Scholar
Робертсон Д., Дэвис И. и Давидофф Дж. Цветовые категории не универсальны: репликации и новые свидетельства из культуры каменного века. J. Exper. Psychol. Gen. 129 , 369–398 (2000).
Артикул
Google Scholar
Winawer, J. et al. . Русский блюз показывает влияние языка на цветовую дискриминацию. Proc. Natl. Акад. Sci. 104 , 7780–7785 (2007).
ADS
CAS
PubMed
Статья
PubMed Central
Google Scholar
Касасанто Д. Кричит «Уорф». Наука 307 , 1721–1722 (2005).
CAS
PubMed
Статья
PubMed Central
Google Scholar
Гельман Р. и Галлистель К. Р. Язык и происхождение числовых понятий. Наука 306 , 441–443 (2004).
ADS
CAS
PubMed
Статья
PubMed Central
Google Scholar
Гордон П. Численное познание без слов: свидетельства из Амазонии. Наука 306 , 496–499 (2004).
ADS
CAS
PubMed
Статья
PubMed Central
Google Scholar
Pica, P., Lemer, C., Izard, V. & Dehaene, S. Точная и приближенная арифметика в группе индейцев Амазонки. Наука 306 , 499–503 (2004).
ADS
CAS
PubMed
Статья
PubMed Central
Google Scholar
Спелке, Э. С., Цивкин С. Язык и число: двуязычное обучение. Познание 78 , 45–88 (2001).
CAS
PubMed
Статья
PubMed Central
Google Scholar
Gentner, D., Özyürek, A., Gürcanli, Ö. И Голдин-Мидоу, С. Пространственный язык способствует пространственному познанию: данные детей, которым не хватает языкового ввода. Познание 127 , 318–330 (2013).
PubMed
PubMed Central
Статья
Google Scholar
Хаун, Д. Б. М., Раполд, К., Калл, Дж., Янзен, Г. и Левинсон, С. К. Когнитивная кладистика и культурное преобладание в пространственном познании гоминидов. Proc. Natl. Акад. Sci. 103 , 17568–17573 (2006).
ADS
CAS
PubMed
Статья
Google Scholar
Левинсон С. и Уилкинс Д. П. (ред.) Грамматика пространства: исследования когнитивного разнообразия (Издательство Кембриджского университета, Кембридж, 2006).
Ли, П. и Глейтман, Л. Р. Переворачивая столы: язык и пространственное мышление. Познание 83 , 265–294 (2002).
CAS
PubMed
Статья
Google Scholar
Маджид А., Бауэрман М., Кита, С., Хаун, Д. Б. и Левинсон, С. С. Может ли язык реструктурировать познание? Дело в космосе. Trends Cogn. Sci. 8 , 108–114 (2004).
PubMed
Статья
PubMed Central
Google Scholar
Касасанто, Д. и др. . Насколько сильно язык влияет на мышление? Оценка времени для носителей английского, индонезийского, греческого и испанского языков. Протокол . Cogn . Наука . Соц . 26 (2004).
Дженн, Д. и Како, Э. Переоценка доказательств лингвистической относительности: ответ Бородицкому (2001). Познание 104 , 417–426 (2007).
PubMed
Статья
PubMed Central
Google Scholar
Нуньес, Р. Э. и Свитсер, Э. С будущим позади них: конвергентные свидетельства из языка аймара и жестов в кросслингвистическом сравнении пространственных конструкций времени. Cogn. Sci. 30 , 401–450 (2006).
PubMed
Статья
PubMed Central
Google Scholar
Majid, A. & Burenhult, N. Запахи можно выразить на языке, если вы говорите на правильном языке. Познание 130 , 266–270 (2014).
PubMed
Статья
PubMed Central
Google Scholar
Пайерс, Дж. Э. и Сенгас, А. Язык способствует получению свидетельств ложного понимания от учащихся нового языка жестов. Psychol. Sci. 20 , 805–812 (2009).
PubMed
PubMed Central
Статья
Google Scholar
де Вилье, Дж. Г. Интерфейс языка и теории разума. Lingua 117 , 1858–1878 (2007).
PubMed
PubMed Central
Статья
Google Scholar
Перси, Э. Дж., Шерман, С. Дж., Гарсия-Маркес, Л., Мата, А. и Гарсиа-Маркес, Т. Познание и грамматика родного языка: организационная роль порядка слов прилагательное-существительное в информационном представлении. Психон. Бык. Ред. 16 , 1037–1042 (2009).
PubMed
Статья
PubMed Central
Google Scholar
Мата, А., Перси, Э. Дж. И Шерман, С. Дж. Порядок прилагательных и существительных как репрезентативная структура: грамматика родного языка влияет на восприятие сходства и распознавание памяти. Психон. Бык. Ред. 21 , 193–197 (2014).
PubMed
Статья
PubMed Central
Google Scholar
Фаузи, К. М. и Бородицкий, Л. Тонкие языковые подсказки влияют на воспринимаемую вину и финансовую ответственность. Психон. Бык. Ред. 17 , 644–650 (2010).
PubMed
Статья
Google Scholar
Фаузи, С. М., Бородицкий, Л. Кто не знает? Межъязыковые различия в памяти очевидцев. Психон. Бык. Ред. 18 , 150–157 (2011).
PubMed
Статья
Google Scholar
Фаузи, К. М., Лонг, Б. Л., Инамори, А. и Бородицкий, Л. Строительное агентство: роль языка. Фронт. Psychol. 1 , 162 (2010).
PubMed
PubMed Central
Статья
Google Scholar
Рейнес М. Ф. и Принц Дж. Возрождение Уорфа: возвращение лингвистической относительности. Philos. Комп. 4 , 1022–1032 (2009).
Артикул
Google Scholar
Tomlin, R. Основной порядок слов: функциональные принципы (Крум-Хелм, Лондон, 1986).
Драйер М.С. Гринберговские корреляции порядка слов. Язык 68 , 81–138 (1992).
Артикул
Google Scholar
Гринберг, Дж. Х. (ред.) Универсалии языка (MIT Press, Кембридж, 1963).
Драйер, М.С. В Универсалии современного языка (ред. Скалис, С., Магни, Э., Бисетто, А.), 185–207 (Спрингер, Нидерланды, 2009).
Хокинс, Дж. А. Теория эффективности порядка и избирательного округа (Cambridge Univ. Press, Кембридж, 1994).
Mazuka, R. Развитие стратегий языковой обработки: кросс-лингвистическое исследование японского и английского языков (Psychology Press, Нью-Йорк, 1998).
Vasishth, S., Suckow, K., Lewis, R. L. & Kern, S. Кратковременное забывание в понимании предложения: межъязыковые свидетельства от глагольных окончательных структур. Lang. Cogn. Proc. 25 , 533–567 (2010).
Артикул
Google Scholar
Франк, С. Л., Тромпенаарс, Т. и Васишт, С. Межъязыковые различия в обработке двойных вложенных относительных предложений: ограничения рабочей памяти или языковая статистика? Cogn.Sci. 40 , 554–578 (2016).
PubMed
Статья
PubMed Central
Google Scholar
Франк, С. Л. и Эрнст, П. Суждения о двойных вложенных относительных предложениях различаются между языками. Психол . Рез. . https://doi.org/10.1007/s00426-018-1014-7 (2018).
Стиверс, Т. и др. . Универсальность и культурные различия в очередности разговора. Proc. Natl Acad. Sci. США 106 , 10587–10592 (2009).
ADS
CAS
PubMed
Статья
Google Scholar
Гаррод С. и Пикеринг М. Дж. Почему разговаривать так легко? Trends Cogn. Sci. 8 , 8–11 (2004).
PubMed
Статья
Google Scholar
Mazuka, R. & Lust, B. In Proceedings of NELS 18 (eds Blevins, J., Cart, J.), 333–356 (Массачусетский университет, Амхерст, 1988).
Пиенеманн, М. (ред.) Кросс-лингвистические аспекты теории технологичности (John Benjamins Publishing CO, Амстердам, 2005).
Фрейзер, Л. и Фодор, Дж. А. Колбасная машина: новая модель двухэтапного анализа. Познание 6 , 291–325 (1978).
Артикул
Google Scholar
Гибсон, Э.Лингвистическая сложность: локальность синтаксических зависимостей. Познание 68 , 1–76 (1998).
CAS
PubMed
Статья
Google Scholar
Кемпер С. и Клигл Р. (ред.) Ограничения на язык: старение , грамматика , и память (Kluwer Academic Publishers, Бостон, 2002).
Friederici, A. D., Chomsky, N., Berwick, R. C., Moro, A.И Болхуис, Дж. Дж. Язык, разум и мозг. Нат . Хум . Поведение (2017).
Люст Б. и Мазука Р. Кросс-лингвистические исследования направленности в овладении первым языком: ответ на O’Grady, Suzuki-Wei and Cho, 1986. Дж. Чайлд Ланг. 16 , 665–684 (1989).
CAS
PubMed
Статья
PubMed Central
Google Scholar
Похоть, Б.(ред.) Исследования по приобретению анафоры (Клувер, Бостон, 1986).
Jaeger, LA Рабочая память и предсказание при синтаксическом анализе человеческих предложений (докторская диссертация, Потсдамский университет, 2015)
Накатани К. и Гибсон Э. Онлайн-исследование сложности гнездования японцев. Cogn. Sci. 34 , 94–112 (2010).
PubMed
Статья
PubMed Central
Google Scholar
Пикеринг, М. Дж. И Гаррод, С. Используют ли люди языковую продукцию, чтобы делать прогнозы во время понимания? Trends Cogn. Sci. 11 , 105–110 (2007).
PubMed
Статья
PubMed Central
Google Scholar
Конечны Л. Локальность и сложность парсинга. J. of Psychol. Res. 29 , 627–645 (2000).
CAS
Статья
Google Scholar
Леви, Р. Синтаксическое понимание, основанное на ожиданиях. Познание 106 , 1126–1177 (2008).
PubMed
Статья
PubMed Central
Google Scholar
Хейл, Дж. Вероятностный синтаксический анализатор Эрли как психолингвистическая модель. Протокол . North Am . Доцент . Вычислить . Линия . 159–166 (2001).
Драйер, М. С. и Хаспельмат, М.(eds) Всемирный атлас языковых структур в Интернете , (Доступен на сайте http://wals.info) (Институт эволюционной антропологии Макса Планка, 2013).
Конвей, А. Р. и др. . Задачи на объем рабочей памяти: методический обзор и руководство пользователя. Психон. B. Rev. 12 , 769–786 (2005).
Артикул
Google Scholar
Ансуорт, Н., Хейтц, Р. П., Schrock, J. C. & Engle, R. W. Автоматическая версия задачи рабочего диапазона. Behav. Res. Meth. 37 , 498–505 (2005).
Артикул
Google Scholar
Baddeley, AD & Hitch, GJ In Психология обучения и мотивации: достижения в исследованиях и теории (изд. Bower, GA), стр. 47–89 (Academic Press, New York, 1974) .
Конвей, А. Р., Коуэн, Н., Бантинг, М. Ф., Террио, Д. Дж. И Минкофф, С. Р. Б. Анализ скрытых переменных емкости рабочей памяти, емкости краткосрочной памяти, скорости обработки и общего гибкого интеллекта. Intelligence 30 , 163–183 (2002).
Артикул
Google Scholar
Энгл, Р. В., Тухольски, С. В., Лафлин, Дж. Э. и Конвей, А. Р. Рабочая память, кратковременная память и общий гибкий интеллект: подход с латентными переменными. J. Exp. Psychol.-Gen. 128 , 309–331 (1999).
CAS
PubMed
Статья
Google Scholar
Шнайдер В. и Шиффрин Р. М. Управляемая и автоматическая обработка информации человеком: I. Обнаружение, поиск и внимание. Psychol. Ред. 84 , 1–66 (1977).
Артикул
Google Scholar
Баддели, А.Рабочая память и язык: обзор. J. Comm. Расстройства 36 , 189–208 (2003).
Артикул
Google Scholar
Вос, С. Х. и Фридеричи, А. Д. Межсмысловые синтаксические контекстные эффекты на понимание: роль рабочей памяти. Cogn. Brain Res. 16 , 111–122 (2008).
Артикул
Google Scholar
Джаст, М. А. и Карпентер, П. А. Теория способности понимания: индивидуальные различия в рабочей памяти. Psychol. Ред. 99 , 122–149 (1992).
CAS
PubMed
Статья
PubMed Central
Google Scholar
Макдональд М. К., Джаст М. А. и Карпентер П. А. Ограничения рабочей памяти при обработке синтаксической неоднозначности. Cognit. Psychol. 24 , 56–98 (1992).
CAS
PubMed
Статья
PubMed Central
Google Scholar
Данеман, М. и Мерикл, М. П. Рабочая память и понимание языка: метаанализ. Психон. Бык. Ред. 3 , 422–433 (1996).
CAS
PubMed
Статья
Google Scholar
Данеман М. и Карпентер П. А. Индивидуальные различия в рабочей памяти и чтении. J. Словесное обучение. Вербальное поведение. 19 , 450–466 (1980).
Артикул
Google Scholar
Уотерс, Г. С. и Каплан, Д. Измерение объема вербальной рабочей памяти и ее связь с пониманием прочитанного. кварт. J. Experim. Psychol. 1 , 51–79 (1996).
Артикул
Google Scholar
Баайен, Р.Х., Дэвидсон, Д. Дж. И Бейтс, Д. М. Моделирование смешанных эффектов со скрещенными случайными эффектами для предметов и предметов. J. Mem. Lang. 59 , 390–412 (2005).
Артикул
Google Scholar
Бейтс, Д. М. lme4: Моделирование смешанных эффектов с R. Доступно в Интернете по адресу: http://lme4.r-forge.r-project.org/book (2010).
Schielzeth, H. Простые средства для улучшения интерпретируемости коэффициентов регрессии. Meth. Ecol. Evol. 1 , 103–113 (2010).
Артикул
Google Scholar
Барр, Д. Дж., Леви, Р., Шиперс, К. и Тили, Х. Дж. Структура случайных эффектов для подтверждающей проверки гипотез: поддерживайте максимальное значение. J. Mem. Lang. 68 , 255–278 (2013).
Артикул
Google Scholar
Филд, A. Обнаружение статистики с помощью SPSS (Sage Publications, Лондон, 2005).
Андреано Дж. М. и Кэхилл Л. Секс влияет на нейробиологию обучения и памяти. Учиться. Mem. 16 , 248–266 (2009).
PubMed
Статья
Google Scholar
Левин, С. Л., Мохамед, Ф. Б. и Платек, С. М. Общие основания для пространственного познания? Поведенческое и фМРТ-исследование половых различий в умственном вращении и пространственной рабочей памяти. Evol. Psychol. 3 , 227–254 (2005).
Артикул
Google Scholar
Speck, O. и др. . Гендерные различия в функциональной организации мозга по рабочей памяти. NeuroRep. 11 , 2581–2585 (2000).
CAS
Статья
Google Scholar
Бопп, К. Л. и Верхаеген, П. Старение и объем вербальной памяти: метаанализ. J. Gerontol. 60 , 223–233 (2005).
Артикул
Google Scholar
Карпентер П., Мияке А. и Джаст М. А. В Справочник по психолингвистике (изд. Гернсбахер, М. А.) 1075–1122 (Academic Press, New York, 1994).
Солтхаус Т.А. Старение рабочей памяти. Neuropsychol. 8 , 535–543 (1994).
Артикул
Google Scholar
Хьюз, К. и Энсор, Р. Исполнительная функция и теория разума у двухлетних детей: семейное дело? Develop. Neuropsychol. 28 , 645–668 (2005).
Артикул
Google Scholar
Ardila, A. и др. . Неграмотность: нейропсихология познания без чтения. Arch. Clin. Neuropsychol. 25 , 689–712 (2010).
PubMed
Статья
Google Scholar
Космидис, М. Х., Зафири, М. и Политимоу, Н. Грамотность по сравнению с формальным обучением: влияние на рабочую память. Arch. Clin. Neuropsychol. 26 , 575–582 (2011).
PubMed
Статья
Google Scholar
Босма, Х., ван Бокстель, М. П. Дж., Пондс, Р. В. Х. М., Хо, П. Дж. Х. и Джоллес, Дж. Образование и возрастное снижение когнитивных функций: вклад умственной нагрузки. Educ. Геронтол. 29 , 165–173 (2003).
Артикул
Google Scholar
Поттер, Г. Г., Хелмс, М. Дж. И Плассман, Б. Л. Связь требований к работе и интеллекта с когнитивными способностями у мужчин в пожилом возрасте. Neurol. 70 , 1803–1808 (2008).
Артикул
Google Scholar
Schooler, C., Mulatu, M. S. & Oates, G.Продолжающееся влияние существенно сложной работы на интеллектуальное функционирование пожилых работников. Psychol. Старение 14 , 483–506 (1999).
CAS
PubMed
Статья
Google Scholar
Finn, A. S. и др. . Функциональная организация оперативной памяти в мозге у подростков зависит от семейного дохода и успеваемости. Развивать . Наука . (2016).
Хэкман, Д., Галлоп, Р., Эванс, Г. В. и Фарах, М. Дж. Социально-экономический статус и исполнительная функция: траектории развития и посредничество. Develop. Sci. 18 , 686–702 (2015).
Артикул
Google Scholar
Melby-Lervåg, M. & Hulme, C. Эффективна ли тренировка рабочей памяти? Метааналитический обзор. Develop. Psychol. 49 , 270–291 (2013).
Артикул
Google Scholar
Ансуорт, Н., Фукуда, К., Awh, Э. и Фогель, Э. К. Рабочая память и подвижный интеллект: емкость, контроль внимания и извлечение вторичной памяти. Cogn. Psychol. 71 , 1–26 (2014).
PubMed
PubMed Central
Статья
Google Scholar
Каплан Д. и Уотерс Г. Механизмы памяти, поддерживающие синтаксическое понимание. Психон. Бык. Ред. 20 , 243–268 (2013).
PubMed
PubMed Central
Статья
Google Scholar
Кейн, М. Дж. и др. . Общий объем рабочей памяти: латентно-переменный подход к вербальной и зрительно-пространственной памяти и рассуждениям. J. Exp.Psychol. Gen. 133 , 189–217 (2004).
PubMed
Статья
PubMed Central
Google Scholar
Коуэн, Н., Солтс, Дж. С., Эллиотт, Э. М. и Морено, М. Разоблачение серийного отзыва. J. Mem. Lang. 46 , 153–177 (2002).
Артикул
Google Scholar
МакКендрик, Р. и Парасураман, Р. Влияние различного переменного приоритета и адаптивного обучения на приобретение навыков в двойных вербально-пространственных задачах рабочей памяти. Proc. Гул. Факторы Эргона. Soc. Анну. Встретиться. 56 , 1426–1430 (2012).
Артикул
Google Scholar
Cowan, N. et al. . О способности внимания: его оценка и его роль в рабочей памяти и когнитивных способностях. Cogn. Psychol. 51 , 42–100 (2005).
ADS
PubMed
PubMed Central
Статья
Google Scholar
Драганский Б. и др. . Временная и пространственная динамика изменений структуры мозга в процессе экстенсивного обучения. J. Neurosci. 26 , 6314–6317 (2006).
CAS
PubMed
Статья
PubMed Central
Google Scholar
Gaser, C. & Schlaug, G. Структуры мозга у музыкантов и не музыкантов различаются. J. Neurosci. 23 , 9240–9245 (2003).
CAS
PubMed
Статья
Google Scholar
Вуллетт, К.И Магуайр, Э. А. Приобретение «знания» о планировке Лондона приводит к структурным изменениям в мозге. Curr. Биол. 21 , 2109–2114 (2011).
CAS
PubMed
PubMed Central
Статья
Google Scholar
Хейл, К. Варлпири и грамматика неконфигурационных языков. Нац. Lang. Линг. Теория 1 , 5–47 (1983).
Google Scholar
5 Методы обработки естественного языка для извлечения информации
В области искусственного интеллекта всегда предполагалось, что машины могут имитировать функционирование и способности человеческого разума.Язык считается одним из самых значительных достижений человека, который ускорил прогресс человечества. Поэтому неудивительно, что проводится большая работа по интеграции языка в область искусственного интеллекта в форме обработки естественного языка (NLP). Сегодня мы видим, как эта работа проявляется в подобных Alexa и Siri.
НЛП в первую очередь включает понимание естественного языка (от человека к машине) и генерацию естественного языка (от машины к человеку).Эта статья в основном будет посвящена пониманию естественного языка (NLU). В последние годы наблюдается рост неструктурированных данных в виде текста, видео, аудио и фотографий. NLU помогает извлекать ценную информацию из текста, такую как данные социальных сетей, опросы клиентов и жалобы.
Рассмотрим приведенный ниже фрагмент текста из отзыва клиентов вымышленной страховой компании Rocketz Auto Insurance Company:
Обслуживание клиентов Rocketz ужасное.Я должен звонить в колл-центр несколько раз, прежде чем я получу достойный ответ. Ребята из колл-центра крайне грубы и совершенно невежественны. В прошлом месяце я позвонил и попросил обновить свой адрес для корреспонденции из Бруклина в Манхэттен. Я разговаривал примерно с дюжиной представителей — Лукас Хейс, Итан Грей, Нора Диас, София Паркер и многие другие. Даже после написания нескольких электронных писем и заполнения многочисленных форм адрес все еще не обновлен. Даже мой агент Джон бесполезен. Детали политики, которые он мне дал, были неправильными.Единственное, что хорошо в компании, — это цена. Премия разумная по сравнению с другими страховыми компаниями в Соединенных Штатах. С 2015 года мой страховой взнос не увеличивался существенно.
Давайте рассмотрим 5 распространенных методов, используемых для извлечения информации из приведенного выше текста.
1. Признание именной организации
Самый простой и полезный метод в НЛП — извлечение сущностей из текста. Он выделяет основные концепции и ссылки в тексте.Распознавание именованных объектов (NER) идентифицирует объекты, такие как люди, местоположения, организации, даты и т. Д., Из текста.
Вывод NER для образца текста обычно будет:
Человек : Лукас Хейс, Итан Грей, Нора Диас, София Паркер, Джон
Местоположение : Бруклин, Манхэттен, США
Дата : Прошлый месяц, 2015
Организация : Rocketz
NER обычно основан на правилах грамматики и контролируемых моделях.Однако есть платформы NER, такие как открытое NLP, которые имеют предварительно обученные и встроенные модели NER.
2. Анализ настроений
Самым широко используемым методом в НЛП является анализ настроений. Анализ настроений наиболее полезен в таких случаях, как опросы клиентов, обзоры и комментарии в социальных сетях, когда люди выражают свое мнение и отзывы. Самый простой результат анализа настроений — это трехбалльная шкала: положительный / отрицательный / нейтральный. В более сложных случаях результатом может быть числовая оценка, которую можно разделить на любое количество категорий.
В случае с нашим фрагментом текста, клиент явно выражает разные настроения в разных частях текста. Из-за этого вывод не очень полезен. Вместо этого мы можем найти тональность каждого предложения и разделить отрицательные и положительные части отзыва. Оценка настроения также может помочь нам выделить самые отрицательные и положительные части обзора:
Самый негативный отзыв: Ребята из колл-центра крайне грубы и совершенно невежественны.
Оценка настроения: -1.233288
Самый положительный отзыв: Премия разумная по сравнению с другими страховыми компаниями в США.
Оценка настроения: 0,2672612
Анализ настроений может быть выполнен как с использованием контролируемых, так и неконтролируемых методов. Самая популярная контролируемая модель, используемая для анализа настроений, — это наивный байесовский метод. Для этого требуется обучающий корпус с метками настроений, на основе которых обучается модель, которая затем используется для определения настроения. Наивный байесовский метод — не единственный доступный инструмент — также можно использовать различные методы машинного обучения, такие как случайный лес или повышение градиента.
Неконтролируемые методы, также известные как методы, основанные на лексике, требуют совокупности слов с соответствующими настроениями и полярностью. Оценка тональности предложения рассчитывается с использованием полярностей слов в предложении.
3. Обобщение текста
Как следует из названия, в НЛП есть техники, которые помогают резюмировать большие фрагменты текста. Резюмирование текста в основном используется в таких случаях, как новостные статьи и исследовательские статьи.
Два основных подхода к резюмированию текста — это извлечение и абстракция.Методы извлечения создают сводку, извлекая части из текста. Методы абстракции создают резюме, генерируя свежий текст, который передает суть исходного текста. Существуют различные алгоритмы, которые можно использовать для обобщения текста, такие как LexRank, TextRank и скрытый семантический анализ. Возьмем пример LexRank: этот алгоритм ранжирует предложения, используя сходство между ними. Предложение оценивается выше, если оно похоже на большее количество предложений, а эти предложения, в свою очередь, похожи на другие предложения.
Используя LexRank, образец текста резюмируется как: Мне нужно несколько раз позвонить в колл-центр, прежде чем я получу достойный ответ. Премия разумная по сравнению с другими страховыми компаниями в Соединенных Штатах.
4. Аспект Майнинг
Aspect Mining идентифицирует различные аспекты в тексте. При использовании вместе с анализом тональности он извлекает полную информацию из текста. Один из самых простых методов анализа аспектов — использование тегов части речи.
Когда анализ аспектов наряду с анализом тональности используется в образце текста, выходные данные передают полное намерение текста:
Аспекты и мнения:
- Обслуживание клиентов — отрицательно
- Колл-центр — отрицательный
- Агент — отрицательный
- Цена / Премиум — положительный
5. Тематическое моделирование
Тематическое моделирование — один из наиболее сложных методов выявления естественных тем в тексте.Основным преимуществом тематического моделирования является то, что это неконтролируемая техника. Обучение модели и помеченный набор обучающих данных не требуются.
Алгоритмов тематического моделирования довольно много:
Одним из самых популярных методов является скрытое размещение Дирихле. Предпосылка LDA состоит в том, что каждый текстовый документ состоит из нескольких тем, а каждая тема состоит из нескольких слов. Входные данные, требуемые LDA, — это просто текстовые документы и ожидаемое количество тем.
Используя образец текста и предполагая наличие двух неотъемлемых тем, результаты моделирования тем будут определять общие слова в обеих темах.В нашем примере основная тема первой темы 1 включает такие слова, как звонок, центр и обслуживание. Основная тема в теме 2 — это такие слова, как премиум, разумная цена и цена. Это означает, что тема 1 соответствует обслуживанию клиентов, а тема 2 — ценообразованию. На диаграмме ниже подробно показаны результаты.
Заключение
Это всего лишь несколько методов обработки естественного языка. После извлечения информации из неструктурированного текста с помощью этих методов ее можно напрямую использовать или использовать в упражнениях по кластеризации и моделях машинного обучения для повышения их точности и производительности.
Сколько слов нужно выучить?
Один из вопросов, который мы чаще всего получаем от студентов: «Сколько словарных слов я должен выучить на этапе подготовки к GRE?» Это отличный вопрос, но на него нет однозначного или простого ответа.
Изучение словарного запаса на GRE несравнимо с изучением математики. Почему? Потому что математический раздел поддается количественной оценке. GRE проверяет только конечное количество математических понятий. Вы знаете, что будут вопросы, скажем, по теореме Пифагора или правилам экспонент; вы также знаете, что не будет никакого исчисления или продвинутой тригонометрии.Пересматривая — или, возможно, переучиваясь; Прошло много времени с тех пор, как некоторые студенты GRE ходили на занятия по математике — основные понятия математики, студент может знать, что он или она полностью подготовлены к выполнению всех вычислений, которые предлагает GRE.
Словарь, с другой стороны, более скользкая тема. Вместо небольшой группы правил в тесте доступны буквально десятки тысяч слов, которые могут вас сбить с толку. Означает ли это, что вам следует запереться в своей комнате, открыть полный словарь Вебстера и начать с «Трубкозуба»?
Конечно, нет!
Давайте обсудим вопрос более подробно:
Знайте, откуда вы начинаете
Вы уже прошли практический тест? Начать подготовку к тесту, не зная, где находится ваша отправная точка, и зная свои сильные и слабые стороны, — это рецепт неудачи.(Очевидно, у вас будет общее представление о том, насколько вы сильны в словарном запасе, но ощутимый тест помогает взглянуть на вещи в перспективе, особенно потому, что GRE использует слова, которые обычно не используются в повседневной жизни. Вам нужно немного словарный запас или вам нужно много? Только практический экзамен может сказать вам.)
Дело не только в словах
GRE имеет два режима, когда дело доходит до словарного запаса: простые слова со сложными предложениями и сложные слова в простых предложения. Простое знание правильного определения слова не гарантирует правильного ответа! Создателям тестов нравится знакомить студентов с запутанным синтаксисом и накладывать друг на друга пункты; без возможности разобрать предложение в целом, никакое количество времени на флеш-карточке или высокие баллы в приложениях со словарем не помогут.Так что да, выучите свои определения и даже второстепенные определения слов, но узнайте, как они используются в контексте, поскольку большая часть словесного раздела посвящена контексту, включая все вопросы на основе словаря и, конечно же, понимание прочитанного, поскольку чтение ВСЕ о контексте.
Что поможет с этими предложениями? ЧТЕНИЕ! Тестируемым, которым нужна помощь по разделу словарного запаса GRE, почти столько же поможет простое чтение (правильные журналы, газеты и книги), сколько и механическое запоминание. The Economist, The Atlantic или The New York Times должен быть в ваших закладках, и вы должны читать — а не бегло просматривать! — эти периодические издания каждый день, уделяя особое внимание структуре предложений.
Семья — это самое главное
Замечательная (и часто сводящая с ума) вещь в английском языке — это множество синонимов, доступных для передачи концепции. Конечно, каждый синоним имеет свой особый оттенок значения, но вы можете и должны группировать слова, которые означают одно и то же.
Вот пример:
«Мистер Бернс отравил воду Спрингфилда, заслонил солнце и даже украл конфеты у младенца; он действительно был самым ____ мужиком в городе».
Исходя из контекста, мы можем предположить, что слово в пробеле означает «зло». Итак, если вы изучали свой словарный список одно за другим, не группируя слова по семействам значений, тогда вам, возможно, придется ломать голову в поисках конкретного слова, которое подходит. Но если бы вы сгруппировали свой словарь по семействам, вы могли бы вспомнить все свои «злые» слова: несправедливые, варварские, ядовитые, отвратительные.Более того, при создании карточек вы можете включать не только синонимы, но и некоторые антонимы. Поскольку мы также склонны мыслить противоположностями, может быть легче запоминать слова в терминах синонимов И антонимов. Мы всегда запоминаем горячее с холодным, черное с белым, хорошее с плохим, поэтому даже с более сложными словами может быть легче запомнить как синонимы, так и антонимы.
Удалите корень
Еще один момент, на который следует обратить внимание при обсуждении вопроса «Сколько словарных слов я должен выучить», заключается в том, что изучение части слова иногда может быть более полезным, чем изучение всего слова.Что я имею в виду?
Возьмите корневой «путь». Это слово с греческого означает «чувства». Как только мы это узнаем, мы сможем прикрепить практически любой аффикс в языке для создания более крупных концепций.
Часы:
- Пафос — Полный чувств
- Апатия — Без чувств ( a означает нет или без)
- Антипатия — испытывать чувства против чего-то ( анти означает против / против)
- Сочувствие — К делиться чувствами с другим ( em означает in)
Сосредоточение времени на подготовке к тесту на корневых словах в дополнение к изучению индивидуального сканирования слов сэкономит ваше время, энергию и улучшит ваш результат.Возможно, вы увидите слова, которых не знаете. Следовательно, знание корней может помочь вам понять общее значение определенных слов (например, положительное или отрицательное [например, con vs anti] или оно имеет отношение к хорошему и вредному [например, bene vs bella / belli]. Вы время от времени нужно будет быть осторожным, так как ловушки действительно существуют — некоторые корни звучат или используются совершенно противоположным образом, который вы бы приняли!
Существует много списков, и большинство людей пытаются выучить около 1000 слов, что справедливо достаточно, и вы обязательно должны выучить слова, с которыми вы сталкиваетесь во время учебы, например, слова на платформе GRE Tutor, а также те, которые вы видите в официальных материалах GRE (официальные руководства и экзамены CatPrep, которые вы можете загрузить с сайта GRE.