YabTab автоматически конвертирует веб-страницы в таблицы. В Интернете есть тонны информации: подумайте о страницах со списком продуктов, каталогах курсов, объявлениях о вакансиях, отчетах — и все они по сути являются таблицами. Страницы со списком продуктов, например, представляют собой таблицы с одной строкой для каждого продукта, столбцами для информации о продукте, такой как имя, характеристики, цена и т. д.
Однако все современные инструменты очистки либо требуют обширной настройки для извлечения такой информации, либо зависят от предметной области (но редко работают). Идея YabTab заключается в создании инструмента, который может автоматически извлекать такую «табличную» информацию со всех веб-сайтов, независимо от их домена или базовой структуры и технологии. YabTab использует революционные методы машинного обучения, чтобы распознавать эти шаблоны на любой веб-странице, на что до сих пор были способны только люди.