Show simple item record

Missbrauch von Large Language Models: Die Ausnutzung von Schwachstellen für zielgruppenspezifische Outputs
[journal article]

dc.contributor.authorKlinkhammer, Dennisde
dc.date.accessioned2024-07-10T09:29:15Z
dc.date.available2024-07-10T09:29:15Z
dc.date.issued2024de
dc.identifier.issn2567-8833de
dc.identifier.urihttps://www.ssoar.info/ssoar/handle/document/95011
dc.description.abstractPrompt engineering in large language models (LLMs) in combination with external context can be misused for jailbreaks in order to generate malicious outputs. In the process, jailbreak prompts are apparently amplified in such a way that LLMs can generate malicious outputs on a large scale despite their initial training. As social bots, these can contribute to the dissemination of misinformation, hate speech, and discriminatory content. Using GPT4-x-Vicuna-13b-4bit from NousResearch, we demonstrate in this article the effectiveness of jailbreak prompts and external contexts via Jupyter Notebook based on the Python programming language. In addition, we highlight the methodological foundations of prompt engineering and its potential to create malicious content in order to sensitize researchers, practitioners, and policymakers to the importance of responsible development and deployment of LLMs.de
dc.description.abstractPrompt Engineering in Large Language Models (LLMs) kann in Kombination mit externen Kontexten für Jailbreaks missbraucht werden, um bösartige Outputs zu erzeugen. Dabei werden 'jailbreak prompts' offenbar so verstärkt, dass LLMs trotz ihres ursprünglichen Trainings in großem Umfang bösartige Ausgaben generieren können. Als ‚social bots‘ können diese zur Verbreitung von Falschmeldungen, hate speech und diskriminierenden Inhalten beitragen. In diesem Artikel demonstrieren wir anhand von GPT4-x-Vicuna-13b-4bit von NousResearch die Effektivität von Jailbreak Prompts und externen Kontexten als Jupyter Notebook in der Programmiersprache Python. Darüber hinaus beleuchten wir die methodischen Grundlagen des Prompt Engineering und sein Potenzial, bösartige Inhalte zu generieren, um Forschung, Praxis und Politik für die Bedeutung einer verantwortungsvollen Entwicklung und Implementierung von LLMs zu sensibilisieren.de
dc.languageende
dc.subject.ddcTechnik, Technologiede
dc.subject.ddcTechnology (Applied sciences)en
dc.subject.otherdeep learning; jailbreak prompts; large language models; prompt engineering; transformersde
dc.titleMisuse of large language models: Exploiting weaknesses for target-specific outputsde
dc.title.alternativeMissbrauch von Large Language Models: Die Ausnutzung von Schwachstellen für zielgruppenspezifische Outputsde
dc.description.reviewbegutachtet (peer reviewed)de
dc.description.reviewpeer revieweden
dc.identifier.urlhttps://www.tatup.de/index.php/tatup/article/view/7117de
dc.source.journalTATuP - Zeitschrift für Technikfolgenabschätzung in Theorie und Praxis / Journal for Technology Assessment in Theory and Practice
dc.source.volume33de
dc.publisher.countryDEUde
dc.source.issue2de
dc.subject.classozTechnikfolgenabschätzungde
dc.subject.classozTechnology Assessmenten
dc.rights.licenceCreative Commons - Namensnennung 4.0de
dc.rights.licenceCreative Commons - Attribution 4.0en
internal.statusformal und inhaltlich fertig erschlossende
dc.type.stockarticlede
dc.type.documentZeitschriftenartikelde
dc.type.documentjournal articleen
dc.source.pageinfo29-34de
internal.identifier.classoz20800
internal.identifier.journal1661
internal.identifier.document32
internal.identifier.ddc600
dc.source.issuetopicMalevolent creativity and civil security: The ambivalence of emergent technologies / Malevolente Kreativität und zivile Sicherheit: Die Ambivalenz neu entstehender Technologiende
dc.identifier.doihttps://doi.org/10.14512/tatup.33.2.29de
dc.description.pubstatusVeröffentlichungsversionde
dc.description.pubstatusPublished Versionen
internal.identifier.licence16
internal.identifier.pubstatus1
internal.identifier.review1
internal.dda.referencehttps://www.tatup.de/index.php/tatup/oai@@oai:TATuP:article/7117
ssoar.urn.registrationfalsede


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record