Із зростанням попиту на генеративний штучний інтелект зростає потреба у високоякісних даних для навчання цих систем. Наукові видавці почали монетизувати свій дослідницький контент, щоб надавати навчальні дані для великих мовних моделей (LLM). Незважаючи на те, що ця розробка створює новий потік доходу для видавців і розширює можливості генеративного штучного інтелекту для наукових відкриттів, вона піднімає критичні питання щодо цілісності та надійності використаних досліджень. У зв’язку з цим виникає важливе запитання: чи надійні набори даних, що продаються, і які наслідки ця практика має для наукової спільноти та генеративних моделей ШІ?
Зростання монетизованих дослідницьких угод
Великі академічні видавництва, зокрема Wiley, Taylor & Francis та інші повідомили значні доходи від ліцензування свого контенту технологічним компаніям, які розробляють генеративні моделі ШІ. Наприклад, лише цього року Wiley оприлюднив понад 40 мільйонів доларів прибутку від таких угод. Ці угоди дозволяють компаніям зі штучним інтелектом отримувати доступ до різноманітних і обширних наборів наукових даних, імовірно покращуючи якість їхніх інструментів ШІ.
Пропозиція від видавців проста: ліцензування забезпечує кращі моделі штучного інтелекту, приносячи користь суспільству, водночас винагороджуючи авторів роялті. Ця бізнес-модель вигідна як технологічним компаніям, так і видавцям. Однак зростаюча тенденція до монетизації наукових знань має ризики, головним чином, коли сумнівні дослідження проникають у ці навчальні набори даних ШІ.
Тінь фальшивих досліджень
Науковій спільноті не чужі проблеми шахрайських досліджень. Дослідження показують, що багато опублікованих висновків є помилковими, упередженими або просто ненадійними. Опитування 2020 року показало, що майже половина дослідників повідомили про такі проблеми, як вибіркове звітування даних або погано сплановані польові дослідження. У 2023 році понад 10 000 паперів були відкликані через фальсифіковані або недостовірні результати, кількість яких продовжує зростати щорічно. Експерти вважають, що ця цифра є вершиною айсберга, оскільки в наукових базах даних циркулює незліченна кількість сумнівних досліджень.
Основною причиною кризи є «паперові фабрики”, тіньові організації, які створюють сфабриковані дослідження, часто у відповідь на академічний тиск у таких регіонах, як Китай, Індія та Східна Європа. Підраховано, що близько 2% журналів у всьому світі надходять з паперових фабрик. Ці фіктивні документи можуть нагадувати законне дослідження, але вони пронизані фіктивними даними та безпідставними висновками. Викликає занепокоєння те, що такі статті проходять через рецензування та потрапляють у авторитетні журнали, що ставить під загрозу надійність наукових висновків. Наприклад, під час пандемії COVID-19, помилкові дослідження щодо івермектину помилково припустили його ефективність як лікування, сіючи плутанину та затримуючи ефективні заходи охорони здоров’я. Цей приклад підкреслює потенційну шкоду від поширення ненадійних досліджень, де помилкові результати можуть мати значний вплив.
Наслідки для навчання ШІ та довіри
Наслідки глибокі, коли LLM навчаються на базах даних, що містять шахрайські або низькоякісні дослідження. Моделі штучного інтелекту використовують шаблони та зв’язки в своїх навчальних даних для отримання результатів. Якщо вхідні дані пошкоджені, вихідні дані можуть зберегти неточності або навіть посилити їх. Цей ризик особливо високий у таких галузях, як медицина, де неправильні висновки, отримані ШІ, можуть мати небезпечні для життя наслідки.
Крім того, ця проблема ставить під загрозу довіру громадськості до наукових кіл та ШІ. Оскільки видавці продовжують укладати угоди, вони повинні вирішити проблеми щодо якості даних, що продаються. Якщо цього не зробити, це може завдати шкоди репутації наукового співтовариства та підірвати потенційні переваги ШІ для суспільства.
Забезпечення надійних даних для ШІ
Зменшення ризиків помилкових досліджень, які перешкоджають навчанню ШІ, вимагає спільних зусиль видавців, компаній ШІ, розробників, дослідників і ширшої спільноти. Видавці повинні вдосконалити процес рецензування, щоб виявляти ненадійні дослідження, перш ніж вони потраплять у навчальні набори даних. Пропонування кращих винагород рецензентам і встановлення вищих стандартів може допомогти. Тут критично важливий відкритий процес перевірки. Це забезпечує більшу прозорість і підзвітність, допомагаючи зміцнити довіру до досліджень.
Компанії зі штучним інтелектом повинні бути більш обережними щодо того, з ким вони працюють, коли шукають дослідження для навчання ШІ. Вибір видавців і журналів із міцною репутацією високоякісних досліджень із хорошими рецензіями є ключовим. У цьому контексті варто уважно подивитися на послужний список видавця, наприклад, як часто вони відкликають документи чи наскільки вони відкриті щодо процесу рецензування. Вибірковість покращує надійність даних і зміцнює довіру між ШІ та дослідницькими спільнотами.
Розробники ШІ повинні нести відповідальність за дані, які вони використовують. Це означає роботу з експертами, ретельну перевірку досліджень і порівняння результатів кількох досліджень. Самі інструменти ШІ також можуть бути розроблені для виявлення підозрілих даних і зниження ризиків подальшого поширення сумнівних досліджень.
Прозорість також є важливим фактором. Видавці та компанії штучного інтелекту повинні відкрито ділитися подробицями про те, як використовуються дослідження та куди йдуть роялті. Такі інструменти, як Відстеження ліцензійної угоди Generative AI обіцяють, але потребують ширшого впровадження. Дослідники також мають вирішувати, як використовується їхня робота. Політика згодияк ті з Cambridge University Pressпропонують авторам контролювати їхні внески. Це створює довіру, забезпечує справедливість і змушує авторів активно брати участь у цьому процесі.
Крім того, слід заохочувати відкритий доступ до високоякісних досліджень інклюзивність і справедливість у розробці ШІ. Уряди, некомерційні організації та учасники галузі можуть фінансувати ініціативи відкритого доступу, зменшуючи залежність від комерційних видавців для критичних навчальних наборів даних. Крім того, галузь штучного інтелекту потребує чітких правил для етичних джерел отримання даних. Зосереджуючись на надійних, ретельно перевірених дослідженнях, ми можемо створювати кращі інструменти штучного інтелекту, захищати наукову цілісність і підтримувати довіру громадськості до науки та технологій.
Підсумок
Монетизація досліджень для навчання ШІ створює як можливості, так і проблеми. Хоча ліцензування академічного контенту дозволяє розробляти більш потужні моделі ШІ, це також викликає занепокоєння щодо цілісності та надійності використовуваних даних. Помилки досліджень, у тому числі на «паперових фабриках», можуть зіпсувати навчальні набори даних штучного інтелекту, що призведе до неточностей, які можуть підірвати довіру суспільства та потенційні переваги ШІ. Щоб переконатися, що моделі штучного інтелекту побудовані на надійних даних, видавці, компанії штучного інтелекту та розробники повинні працювати разом, щоб покращити процеси експертної оцінки, підвищити прозорість і віддати пріоритет високоякісним, добре перевіреним дослідженням. Роблячи це, ми можемо захистити майбутнє штучного інтелекту та підтримувати цілісність наукової спільноти.